乐天发布首款日本大语言模型Rakuten AI 2.0

乐天集团宣布推出其首个日本大语言模型(LLM)和小语言模型(SLM),命名为Rakuten AI2.0和Rakuten AI2.0mini。 这两款模型的发布旨在推动日本的人工智能(AI)发展。 Rakuten  AI2.0基于混合专家(MoE)架构,是一款8x7B 的模型,由八个各自拥有70亿参数的模型组成,每个模型充当一个专家。

乐天集团宣布推出其首个日本大语言模型(LLM)和小语言模型(SLM),命名为Rakuten AI2.0和Rakuten AI2.0mini。

这两款模型的发布旨在推动日本的人工智能(AI)发展。Rakuten  AI2.0基于混合专家(MoE)架构,是一款8x7B 的模型,由八个各自拥有70亿参数的模型组成,每个模型充当一个专家。每当处理输入的 token 时,系统会将其发送给最相关的两个专家,由路由器负责选择。这些专家和路由器不断通过大量的高质量日英双语数据进行联合训练。

image.png

Rakuten  AI2.0mini 则是一款全新的、参数量为15亿的稠密模型,专为成本效益高的边缘设备部署而设计,适合特定应用场景。它同样在日英混合数据上进行训练,目的是提供便捷的解决方案。两款模型均经过指令微调和偏好优化,发布了基础模型和指令模型,以支持企业和专业人士开发 AI 应用。

image.png

所有模型均采用 Apache2.0许可协议,用户可在乐天集团的 Hugging Face 官方库中获取,商业用途包括文本生成、内容摘要、问答、文本理解及对话系统构建等。此外,这些模型也可作为其他模型的基础,便于进一步的开发和应用。

乐天集团的首席 AI 与数据官蔡婷表示:“我为我们的团队如何将数据、工程和科学结合起来,推出Rakuten  AI2.0感到无比自豪。我们的新 AI 模型提供了强大且具成本效益的解决方案,帮助企业做出智能决策,加快价值实现,并开启新的可能性。通过开放模型,我们希望加速日本的 AI 发展,鼓励所有日本企业进行构建、实验和成长,推动一个协作共赢的社区。”

官方博客:https://global.rakuten.com/corp/news/press/2025/0212_02.html

划重点:

🌟 乐天集团推出首个日本大语言模型(LLM)和小语言模型(SLM),名为Rakuten  AI2.0和Rakuten  AI2.0mini。

📊Rakuten  AI2.0基于混合专家架构,拥有八个70亿参数的专家模型,致力于高效处理日英双语数据。

🛠️ 所有模型均可在乐天 Hugging Face 官方库获取,适用于多种文本生成任务,并可作为其他模型的基础。

相关资讯

树莓派 Zero“硬核改造”:8 年老设备实现本地运行大语言模型

越南开发者 Binh Pham 最近尝试使用树莓派 Zero(Raspberry Pi Zero)进行了一项创新实验。他成功地将这款设备改造为一个小型 USB 驱动器,使其能够在本地运行 LLM,无需任何额外设备。

UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透

不过由大模型给出的考题,和人类出的题目究竟有没有差别,以及有哪些差别?

腾讯发布大语言模型训练新专利,提升模型泛化与准确性

近日,腾讯科技(深圳)有限公司在天眼查 App 上公布了一项关于大语言模型的训练方法及相关设备的专利。 这项专利的名称为 “大语言模型的训练方法、装置、计算机设备及存储介质”,旨在通过创新的训练方式,提升大语言模型的学习能力和准确性。 在大语言模型的训练过程中,传统方法往往依赖于单一的文本摘要,可能导致模型过拟合,生成内容的准确性和多样性受到影响。