MiniMax 稀宇科技发布万亿参数 MoE 模型 abab 6.5,核心能力接近 GPT-4

国内 AI 首创企业 MiniMax 稀宇科技今日正式推出 MoE 混合专家模型架构的 abab 6.5 系列模型,核心能力开始接近 GPT-4、 Claude-3、 Gemini-1.5。abab 6.5 系列包孕两个模型:abab 6.5:包孕万亿参数,支援 200k tokens 的上下文长度;abab 6.5s:与 abab 6.5 使用了同样的训练技术和数据,但是更高效,支援 200k tokens 的上下文长度,可以 1 秒内处理近 3 万字的文本。自一月发布国内首个基于 MoE 架构的 abab 6

国内 AI 首创企业 MiniMax 稀宇科技今日正式推出 MoE 混合专家模型架构的 abab 6.5 系列模型,核心能力开始接近 GPT-4、 Claude-3、 Gemini-1.5。

MiniMax 稀宇科技发布万亿参数 MoE 模型 abab 6.5,核心能力接近 GPT-4

abab 6.5 系列包孕两个模型:

abab 6.5:包孕万亿参数,支援 200k tokens 的上下文长度;

abab 6.5s:与 abab 6.5 使用了同样的训练技术和数据,但是更高效,支援 200k tokens 的上下文长度,可以 1 秒内处理近 3 万字的文本。

自一月发布国内首个基于 MoE 架构的 abab 6 模型后,MiniMax 通过改进模型架构,重构数据 pipeline,训练算法及并行训练策略优化等,在加速 Scaling Laws 过程上取得阶段性成果。

IT之家附 abab 6.5 系列模型尝试结果如下:

MiniMax 稀宇科技发布万亿参数 MoE 模型 abab 6.5,核心能力接近 GPT-4

官方在 200k token 内进行了业界常用的“水中捞月”尝试,即在很长的文本中放入一个和该文本无关的句子(针),然后通过自然语言提问模型,看模型是否准确将这个针回覆出来。在 891 次尝试中,abab 6.5 均能正确回覆。

MiniMax 稀宇科技发布万亿参数 MoE 模型 abab 6.5,核心能力接近 GPT-4

▲ 海螺 AI 页面

abab 6.5 与 abab 6.5s 模型将滚动更新至 MiniMax 旗下产品,包括海螺 AI 与 MiniMax 开放平台。

给TA打赏
共{{data.count}}人
人已打赏
AI

展望蛋白质共调控和功效,哈佛&MIT训练含19层transformer的基因组谈话模型

2024-4-17 14:08:00

AI

英特尔用 AI 简化酷睿 Ultra 处理器计划进程,将数周剖析作业压缩至几分钟

2024-4-17 14:53:38

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索