稀宇科技发布并开源新一代 MiniMax 01 系列模型,参数量达 4560 亿

该系列模型首次大规模实现线性注意力机制,打破 Transformer 传统架构记忆瓶颈,能够处理 400 万 token 的输入,可输入长度是 GPT-4o 的 32 倍,Claude-3.5-Sonnet 的 20 倍。
感谢稀宇科技(MiniMax)今日宣布推出新一代 01 系列模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01。

为方便开发者研究,该公司还在 Github 上开源了两个模型的完整权重。这一系列模型的后续更新,包括代码和多模态相关的后续强化仍待上传。

该系列模型首次大规模实现线性注意力机制打破 Transformer 传统架构记忆瓶颈,能够处理 400 万 token 的输入,可输入长度是 GPT-4o 的 32 倍,Claude-3.5-Sonnet 的 20 倍。

稀宇科技发布并开源新一代 MiniMax 01 系列模型,参数量达 4560 亿

据介绍,这个模型的参数量高达 4560 亿,其中单次激活 459 亿,模型综合性能比肩海外顶尖模型,在大多数任务上追平了海外公认最先进的两个模型,GPT-4o-1120 以及 Claude-3.5-Sonnet-1022。

在长文任务上,随着输入长度变长,MiniMax-Text-01 性能衰减更少,显著优于谷歌 Gemini。因此,01 系列模型在处理长输入的时候有非常高的效率,接近线性复杂度。

图片

定价方面,AI在线发现该系列模型标准定价是输入 1 元 / 百万输入 token、8 元 / 百万输出 token。

相关资讯

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型 abab 6.5。根据 MiniMax 发布的技术报告,在各类核心能力测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。 MiniMax 用业界标准的开源测试集测试两个模型。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s,在知识、推理、数

VBench评测第一,5周访问量暴增8倍多! 这款国产AI视频生成器「压番」Runway

「这可能是目前国内最好的视频大模型。」家人们,这难道不是一部电影的切片?                                来自@StevieMac03(I2V,图生视频)谁能不被这头苏醒过来的小飞象萌化?

实测字节豆包·视频生成模型:Sora画的饼被实现了......

但更多的网友则是期待字节的视频生成模型,因为早在去年11月,字节的项目Make Pixels Dance就展示字节具备了解决长AI视频中角色一致性难以保持的问题。 所以我也看到很多外网网友的另一个问题“Where is ByteDacne?”。 而就在9.24火山引擎AI创新巡展深圳站上,火山引擎一口气发布了个视频生成模型PixelDance和Seaweed模型。