Linq的AI检索模型登顶HuggingFace MTEB排行榜

美通社
2024/06/12 09:08
分享

生成式人工智能（AI）初创公司Linq宣布，该公司的大型嵌入模型「Linq-Embed-Mistral」在HuggingFace的「大规模文本嵌入基准（MTEB）」排行榜文本检索评估中排名第一，超过了NVIDIA、Salesforce、Google，OpenAI和Cohere等竞争对手。这项评估由全球最大的机器学习平台HuggingFace负责。

Linq的嵌入模型在文本检索类别中获得了60.2分，高居榜首，领先于NVIDIA（59.4分）和Voyage AI（58.3分）。Google的模型以55.7分紧随其后，OpenAI和Cohere分别获得55.4分和55.0分。

HuggingFace的MTEB排行榜对嵌入模型在分类、聚类、成对分类、重排序、检索、语义文本相似度（STS）和摘要这七个类别中的表现进行了排名。Linq的嵌入模型不仅在文本检索类别中表现出色，在其他类别中也居于领先，总体排名第三。

MTEB总共列出了300多个嵌入模型，表明嵌入模型技术领域处于激烈但良性的竞争态势。Linq在这项基准测试中的优异表现证明了其在嵌入模型技术方面的领先优势。

嵌入模型在生成式AI中至关重要，尤其是通过采用检索增强生成（RAG）技术来解决大语言模型（LLM）的幻觉问题。RAG允许模型通过访问LLM内部不可用的最新数据或内部文档来产生可靠的输出。

负责该项目的Junseong Kim博士表示：「我们的研究表明，由于检索数据具有广泛的主题多样性和高难度，GPT生成的数据并不完美，需要进行彻底验证和改进。通过这些过程，输出的质量可以提升到与人工标记数据相当的水平，最终基于MTEB基准数据集达到最佳检索性能。研究结果显示，通过使用GPT对数据进行精心优化和筛选，我们可以创建出针对RAG进行优化的模型，并最大限度地提高在特定领域的性能。」此外，他还强调：「重要的不仅仅是数据的改进，训练方法的优化和快速的实验周期也是提高检索性能的关键。」

Linq联合创始人兼首席执行官Jacob Choi说道：「准确的搜索对于生成式AI企业提高采用率至关重要。我们很自豪能够开发出有助实现这一目标的核心嵌入模型，并且我们还将不断扩展和完善该模型，以确保在金融和法律等专业领域提供精确的文本搜索。」Choi指出，2023年，ChatGPT的出现让生成式AI的B2C（企业对消费者）用例开始兴起。到了2024年，随着准确性和安全技术的不断改进，B2B（企业对企业）应用也将迎来显着增长。

Massive Text Embedding Benchmark (MTEB) BEIR Retrieval Score in HuggingFace. as of May 30, 2024.

关于Linq

Linq（Wecover Platforms Inc）成立于2022年，由麻省理工学院电子与计算机工程系毕业生Jacob Choi和麻省理工学院计算科学与工程专业博士Subeen Pang共同创立。2021年，Choi因其AI神经形态计算研究入选福布斯「30位30岁以下科学领域精英」榜单。2022年，Linq获得KakaoVentures，Smilegate Investment和Yellowdog的早期投资。2023年，Linq在Samsung Financial Networks主办的「三星开放式协作」大赛中拔得头筹，并入选美国最大的非股权式加速器MassChallenge的金融科技项目，继续与毕马威美国公司合作。

联系人：Jacob Choi （jacob.choi@getlinq.com）