在富岳超算上训练大模型，日本联合研讨团队发布 Fugaku-LLM

由多方企业和机构组成的日本联合研讨团队昨日发布了 Fugaku-LLM 大模型。该模型的最大特色就是其是在 Arm 架构超算“富岳”上训练的。Fugaku-LLM 模型的开发于 2023 年 5 月启动，初期参与方包括富岳超算所有者富士通、东京工业大学、日本东北大学和日本理化学研讨所（理研）。而在 2023 年 8 月，另外三家合作方 —— 名古屋大学、CyberAgent（也是游戏企业 Cygames 的母公司）和 HPC-AI 领域创企 Kotoba Technologies 也加入了该模型研发计划。▲ 富岳超

由多方企业和机构组成的日本联合研讨团队昨日发布了 Fugaku-LLM 大模型。该模型的最大特色就是其是在 Arm 架构超算“富岳”上训练的。

Fugaku-LLM 模型的开发于 2023 年 5 月启动，初期参与方包括富岳超算所有者富士通、东京工业大学、日本东北大学和日本理化学研讨所（理研）。

而在 2023 年 8 月，另外三家合作方 —— 名古屋大学、CyberAgent（也是游戏企业 Cygames 的母公司）和 HPC-AI 领域创企 Kotoba Technologies 也加入了该模型研发计划。

在富岳超算上训练大模型，日本联合研讨团队发布 Fugaku-LLM

▲ 富岳超算。图源富士通新闻稿

在昨日发布的新闻稿中，研讨团队表示其充分挖掘了富岳超算的性能，将矩阵乘法的计算速度提高了 6 倍，通信速度也提升了 3 倍，证明大型纯 CPU 超算也可用于大模型训练。

Fugaku-LLM 模型参数规模为 13B，是日本国内最大的大型语言模型。

其使用了 13824 个富岳超算节点在 3800 亿个 Token 上进行训练，其训练资料中 60% 为日语，其他 40% 包括英语、数学、代码等部分。

该模型的研讨团队宣称 Fugaku-LLM 模型可在交流中自然使用日语敬语等特殊表达。

具体到尝试成绩上，该模型在日语 MT-Bench 模型基准尝试上的平均得分为 5.5，排在基于日本语料资源的开放模型首位，并在人文社科类别中得到了 9.18 的高分。

目前 Fugaku-LLM 模型已在 GitHub 和 Hugging Face 平台公开，外部研讨人员和工程师可在遵守许可协议的前提下将该模型用于学术和商业目的。

IT之家在此附上 Fugaku-LLM 模型在 Hugging Face 平台的地址，有兴趣的小伙伴可点击进一步了解：相关链接

{{userData.name}}已认证

在富岳超算上训练大模型，日本联合研讨团队发布 Fugaku-LLM

OpenAI 官宣 5 月 13 日直播演示 ChatGPT 更新内容

消息称苹果升级版 Siri 语音助手有望亮相 WWDC 2024，基于生成式 AI 打造

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！