Snowflake 开源 Arctic embed,号称全球最实用的检索文本嵌入 AI 模型

Snowflake 公司近日发布新闻稿,宣布在 Apache 2.0 许可下,推出开源 Arctic embed 系列模型。根据 MTEB(衡量文本嵌入模型的评估指标合集)的检索(Retrieval)排行榜,Arctic embed 系列最大模型参数只有 3.34 亿个,是唯一一个平均检索性能超过 55.9 的模型。感兴趣的用户目前可以访问 Hugging Face 使用 Arctic embed 系列模型,后续也可以访问 Snowflake 的 Cortex 嵌入功能(目前处于私人预览阶段)中使用。Arctic

Snowflake 公司近日发布新闻稿,宣布在 Apache 2.0 许可下,推出开源 Arctic embed 系列模型。

Snowflake 开源 Arctic embed,号称全球最实用的检索文本嵌入 AI 模型

根据 MTEB(衡量文本嵌入模型的评估指标合集)的检索(Retrieval)排行榜,Arctic embed 系列最大模型参数只有 3.34 亿个,是唯一一个平均检索性能超过 55.9 的模型。

Snowflake 开源 Arctic embed,号称全球最实用的检索文本嵌入 AI 模型

Snowflake 开源 Arctic embed,号称全球最实用的检索文本嵌入 AI 模型

Snowflake 开源 Arctic embed,号称全球最实用的检索文本嵌入 AI 模型

感兴趣的用户目前可以访问 Hugging Face 使用 Arctic embed 系列模型,后续也可以访问 Snowflake 的 Cortex 嵌入功能(目前处于私人预览阶段)中使用。

Arctic embed 系列模型的主要亮点

同类最佳检索:由五个 Arctic 嵌入模型组成的套件可在各种规模的数据中提供最先进的检索结果,在 MTEB 检索基准上的表现优于其他开源模型。

性能和效率:Snowflake 的大型 (l) 型号比封闭源型号的参数高出 4 倍,以更小的占地面积提供更卓越的性能。

长文档支持:中型(m)模式包括一个长文本版本,可无缝处理扩展文档(最多 8192 个标记)。

为企业优化:与同类产品相比,Arctic 嵌入式机型具有更低的延迟和更低的总拥有成本(TCO)。

IT之家附上参考地址

Snowflake's Arctic-embed-m

Snowflake Launches the World’s Best Practical Text-Embedding Model for Retrieval use Cases

相关资讯

仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型

Snowflake 加入 LLM 混战。Snowflake 发布高「企业智能」模型 Arctic,专注于企业内部应用。刚刚,数据管理和仓库提供商 Snowflake 宣布加入 LLM 混战,发布了一款专注于企业级应用的顶级大型语言模型(LLM)——Snowflake Arctic。作为一家云计算公司推出的 LLM,Arctic 主要具备以下两个方面的优势:高效智能:Arctic 在企业任务方面表现出色,例如 SQL 生成、编程和指令遵循,甚至可与使用更高计算成本训练的开源模型媲美。Arctic 为经济高效的训练设定

击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

模型参数量只有 137M,5 天就能训练好。一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 个新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。我们知道,嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联,也更容易执行聚类或检索等任务。可见,嵌入在 NLP 领域是非常重要的。不过,OpenAI 的嵌入模型并不是免费给大家使用的,比如 text-embedding-3-small

Snowflake新增2亿美元资金扩展创业加速器,助力AI初创企业

云数据存储巨头 Snowflake 近日宣布,将向其创业加速器计划新增2亿美元的资金支持。 这项加速器计划,最初名为 “Powered by Snowflake Funding Program”,旨在投资广泛的早期初创企业,尤其是那些专注于在 Snowflake 平台上构建行业特定的人工智能产品的公司。 此次资金的注入是 Snowflake 近期一系列增长战略的延续,显示出公司在加速业务扩展方面的雄心。