Mistral 推出其首个专业区域语言模型 Saba :专精阿拉伯语和印度起源语言

以 Saba 为代表的专精特定语言的较小模型,更适用于对文化背景、区域限定知识要求更高的场景。

法国 AI 初创企业 Mistral AI 当地时间昨日宣布推出其首个专业区域语言模型 Saba。该模型在源自中东与南亚的精选数据集上训练,能以相对较小的规模为上述区域用户提供更准确、相关的回应

Saba 模型参数规模为 32B,支持本地单 GPU 系统部署。Mistral AI 给出的数据显示 Saba 在阿拉伯语的模型基准测试中明显优于同参数规模的 Mistral Small 3 24B,在同更大参数模型的比较里也毫不逊色。

Mistral 推出其首个专业区域语言模型 Saba :专精阿拉伯语和印度起源语言

Mistral 推出其首个专业区域语言模型 Saba :专精阿拉伯语和印度起源语言

Mistral 推出其首个专业区域语言模型 Saba :专精阿拉伯语和印度起源语言

同时,由于中东与南亚持续不断的文化交流,Mistral Saba 除阿拉伯语语外也支持多种印度起源语言,尤其是以泰米尔语为代表的南印度达罗毗荼语系诸语种(AI在线注:该语系使用者总数达 2.5 亿人)。

Mistral AI 认为,要让 AI 无处不在就需要解决各种文化和语言问题。目前较大规模的通用模型在多种语言上都有良好表现,但缺乏语言细微差别、文化背景和深入的区域知识,无法为具有强大区域背景的用例提供服务,而这就是 Mistral Saba 等专精特定语言的较小模型的用武之地。

相关资讯

千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷

法国大模型独角兽 Mistral AI 进军 OCR(光学字符识别)领域了。 一出手就是号称「世界上最好的 OCR 模型」! 新产品 Mistral OCR 是一种光学字符识别 API,它为文档理解树立了新标准。

小模型卷起来了:Mistral联合英伟达开源12B小模型,128k上下文

小模型,正在成为 AI 巨头的新战场。今天凌晨,OpenAI 突然发布了 GPT-4o 的迷你版本 ——GPT-4o mini。这个模型替代了原来的 GPT-3.5,作为免费模型在 ChatGPT 上提供。其 API 价格也非常美丽,每百万输入 token 仅为 15 美分,每百万输出 token 60 美分, 比之前的 SOTA 模型便宜一个数量级,比 OpenAI 此前最便宜的 GPT-3.5 Turbo 还要便宜 60% 以上。OpenAI CEO 山姆・奥特曼对此的形容是:通往智能的成本已经「too che

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

AI 竞赛正以前所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来,而这一模型的特点是 ——「足够大」。具体来