Microsoft 已宣布对必应的搜索基础结构进行更新,其中包含大型语言模型 (LLM)、小型语言模型 (SLM) 和新的优化技术。
此更新旨在提高性能并降低搜索结果投放成本。
在一份公告中,该公司表示:
“At Bing, we are always pushing the boundaries of search technology. Leveraging both Large Language Models (LLMs) and Small Language Models (SLMs) marks a significant milestone in enhancing our search capabilities. While transformer models have served us well, the growing complexity of search queries necessitated more powerful models.”
性能提升
在搜索系统中使用 LLM 可能会产生速度和成本问题。
为了解决这些问题,Bing 训练了 SLM,它声称 SLM 的速度比 LLM 快 100 倍。
公告内容如下:
“LLMs can be expensive to serve and slow. To improve efficiency, we trained SLM models (~100x throughput improvement over LLM), which process and understand search queries more precisely.”
Bing 还使用 NVIDIA TensorRT-LLM 来提高 SLM 的性能。
TensorRT-LLM 是一种工具,有助于减少在 NVIDIA GPU 上运行大型模型的时间和成本。
对 “Deep Search” 的影响
根据 Microsoft 的一份技术报告,集成 Nvidia 的 TensorRT-LLM 技术增强了该公司的“深度搜索”功能。
在优化之前,Bing 的原始 transformer 模型的第 95 个百分位延迟为每批次 4.76 秒(20 个查询),吞吐量为每个实例每秒 4.2 个查询。
使用 TensorRT-LLM ,延迟降低到每批次 3.03 秒,吞吐量增加到每个实例每秒 6.6 个查询。
这意味着延迟降低了 36%,运营成本降低了 57%。
该公司表示:
“… our product is built on the foundation of providing the best results, and we will not compromise on quality for speed. This is where TensorRT-LLM comes into play, reducing model inference time and, consequently, the end-to-end experience latency without sacrificing result quality.”
对 Bing 用户的好处
此更新为 Bing 用户带来了几个潜在的好处:
通过优化的推理和更快的响应时间实现更快的搜索结果
通过增强 SLM 模型的功能提高准确性,提供更情境化的结果
成本效益,使 Bing 能够投资于进一步的创新和改进
为什么 Bing 转向 LLM/SLM 模型很重要
Bing 转向 LLM/SLM 模型和 TensorRT 优化可能会影响搜索的未来。
随着用户提出更复杂的问题,搜索引擎需要更好地了解并快速提供相关结果。Bing 旨在使用更小的语言模型和高级优化技术来实现这一目标。
虽然我们不得不等待并看到全面影响,但 Bing 的举动为搜索的新篇章奠定了基础。