Snowflake 开源 Arctic embed,号称全球最实用的检索文本嵌入 AI 模型

Snowflake 公司近日发布新闻稿,宣布在 Apache 2.0 许可下,推出开源 Arctic embed 系列模型。根据 MTEB(衡量文本嵌入模型的评估指标合集)的检索(Retrieval)排行榜,Arctic embed 系列最大模型参数只有 3.34 亿个,是唯一一个平均检索性能超过 55.9 的模型。感兴趣的用户目前可以访问 Hugging Face 使用 Arctic embed 系列模型,后续也可以访问 Snowflake 的 Cortex 嵌入功能(目前处于私人预览阶段)中使用。Arctic

Snowflake 公司近日发布新闻稿,宣布在 Apache 2.0 许可下,推出开源 Arctic embed 系列模型。

Snowflake 开源 Arctic embed,号称全球最实用的检索文本嵌入 AI 模型

根据 MTEB(衡量文本嵌入模型的评估指标合集)的检索(Retrieval)排行榜,Arctic embed 系列最大模型参数只有 3.34 亿个,是唯一一个平均检索性能超过 55.9 的模型。

Snowflake 开源 Arctic embed,号称全球最实用的检索文本嵌入 AI 模型

Snowflake 开源 Arctic embed,号称全球最实用的检索文本嵌入 AI 模型

Snowflake 开源 Arctic embed,号称全球最实用的检索文本嵌入 AI 模型

感兴趣的用户目前可以访问 Hugging Face 使用 Arctic embed 系列模型,后续也可以访问 Snowflake 的 Cortex 嵌入功能(目前处于私人预览阶段)中使用。

Arctic embed 系列模型的主要亮点

同类最佳检索:由五个 Arctic 嵌入模型组成的套件可在各种规模的数据中提供最先进的检索结果,在 MTEB 检索基准上的表现优于其他开源模型。

性能和效率:Snowflake 的大型 (l) 型号比封闭源型号的参数高出 4 倍,以更小的占地面积提供更卓越的性能。

长文档支持:中型(m)模式包括一个长文本版本,可无缝处理扩展文档(最多 8192 个标记)。

为企业优化:与同类产品相比,Arctic 嵌入式机型具有更低的延迟和更低的总拥有成本(TCO)。

IT之家附上参考地址

Snowflake's Arctic-embed-m

Snowflake Launches the World’s Best Practical Text-Embedding Model for Retrieval use Cases

相关资讯

仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型

Snowflake 加入 LLM 混战。Snowflake 发布高「企业智能」模型 Arctic,专注于企业内部应用。刚刚,数据管理和仓库提供商 Snowflake 宣布加入 LLM 混战,发布了一款专注于企业级应用的顶级大型语言模型(LLM)——Snowflake Arctic。作为一家云计算公司推出的 LLM,Arctic 主要具备以下两个方面的优势:高效智能:Arctic 在企业任务方面表现出色,例如 SQL 生成、编程和指令遵循,甚至可与使用更高计算成本训练的开源模型媲美。Arctic 为经济高效的训练设定

击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

模型参数量只有 137M,5 天就能训练好。一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 个新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。我们知道,嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联,也更容易执行聚类或检索等任务。可见,嵌入在 NLP 领域是非常重要的。不过,OpenAI 的嵌入模型并不是免费给大家使用的,比如 text-embedding-3-small

ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语记忆实现高性能NMT

在 ACL 2021 的一篇杰出论文中,研究者提出了一种基于单语数据的模型,性能却优于使用双语 TM 的「TM-augmented NMT」基线方法。自然语言处理(NLP)领域顶级会议 ACL 2021 于 8 月 2 日至 5 日在线上举行。据官方数据, 本届 ACL 共收到 3350 篇论文投稿,其中主会论文录用率为 21.3%。腾讯 AI Lab 共入选 25 篇论文(含 9 篇 findings)。在不久之前公布的获奖论文中,腾讯 AI Lab 与香港中文大学合作完成的《Neural Machine Tra