MiniMax 稀宇科技发布万亿参数 MoE 模型 abab 6.5,核心能力接近 GPT-4

国内 AI 初创企业 MiniMax 稀宇科技今日正式推出 MoE 混合专家模型架构的 abab 6.5 系列模型,核心能力开始接近 GPT-4、 Claude-3、 Gemini-1.5。abab 6.5 系列包含两个模型:abab 6.5:包含万亿参数,支持 200k tokens 的上下文长度;abab 6.5s:与 abab 6.5 使用了同样的训练技术和数据,但是更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近 3 万字的文本。自一月发布国内首个基于 MoE 架构的 abab 6

国内 AI 初创企业 MiniMax 稀宇科技今日正式推出 MoE 混合专家模型架构的 abab 6.5 系列模型,核心能力开始接近 GPT-4、 Claude-3、 Gemini-1.5。

MiniMax 稀宇科技发布万亿参数 MoE 模型 abab 6.5,核心能力接近 GPT-4

abab 6.5 系列包含两个模型:

abab 6.5:包含万亿参数,支持 200k tokens 的上下文长度;

abab 6.5s:与 abab 6.5 使用了同样的训练技术和数据,但是更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近 3 万字的文本。

自一月发布国内首个基于 MoE 架构的 abab 6 模型后,MiniMax 通过改进模型架构,重构数据 pipeline,训练算法及并行训练策略优化等,在加速 Scaling Laws 过程上取得阶段性成果。

IT之家附 abab 6.5 系列模型测试结果如下:

abab 6.5 系列模型测试结果

官方在 200k token 内进行了业界常用的“大海捞针”测试,即在很长的文本中放入一个和该文本无关的句子(针),然后通过自然语言提问模型,看模型是否准确将这个针回答出来。在 891 次测试中,abab 6.5 均能正确回答。

海螺 AI 页面

▲ 海螺 AI 页面

abab 6.5 与 abab 6.5s 模型将滚动更新至 MiniMax 旗下产品,包括海螺 AI 与 MiniMax 开放平台。

相关资讯

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型 abab 6.5。根据 MiniMax 发布的技术报告,在各类核心能力测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。 MiniMax 用业界标准的开源测试集测试两个模型。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s,在知识、推理、数

消息称国内 AI 大模型初创公司 MiniMax 产品负责人张前川离职

感谢据《智能涌现》报道,中国 AI 大模型初创公司 MiniMax 产品负责人、前今日头条用户产品负责人张前川,因个人原因目前已淡出公司事务,改任产品顾问一职。MiniMax 回应称,消息内容属实,感谢前川的付出和努力。一名知情者表示,产品顾问其实是虚职,张前川已经不参与公司业务,与离职无异。报道称,张前川此前在 MiniMax 内负责“星野”和“海螺”两款公司主力产品。2024 年中,张前川又淡出“星野”的决策,参与 MiniMax 生产力工具“海螺 AI”和部分其他产品的日常事务。张前川离职后,MiniMax

个性经济时代,MiniMax 语音大模型如何 To C?

大约一个月前,距离 GPT Store 上线还有两周,一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent(又称“GPTs”),其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”,它能访问当地 SEPTA 公共交通 API,为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、预计抵达时间等等。 具体可访问 PhillyGPT 链接:,实际是人们对于 GPT 时代 C 端个性消费产品的真正想象。 无独有偶,1 月 11 日 OpenAI 正式上线 GPT Store 后,公布 300 万个 GPTs 之余,也将与用户日常消费活动息息相关的徒步路线指南“AllTrails”放在推荐榜单上。