人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

在 4 月 27 日召开的中关村论坛通用人工智能平行论坛上，人大系初创公司智子引擎隆重发布全新的多模态大模型 Awaker 1.0，向 AGI 迈出至关重要的一步。相对于智子引擎前代的 ChatImg 序列模型，Awaker 1.0 采用全新的 MOE 架构并具备自决革新本领，是业界首个兑现 “真正” 自决革新的多模态大模型。在视觉生成方面，Awaker 1.0 采用完全自研的视频生成底座 VDT，在写真视频生成上取得好于 Sora 的效果，打破大模型 “最后一公里” 落地难的困境。Awaker 1.0 是一个将视

在 4 月 27 日召开的中关村论坛通用人工智能平行论坛上，人大系初创公司智子引擎隆重发布全新的多模态大模型 Awaker 1.0，向 AGI 迈出至关重要的一步。

相对于智子引擎前代的 ChatImg 序列模型，Awaker 1.0 采用全新的 MOE 架构并具备自决革新本领，是业界首个兑现 “真正” 自决革新的多模态大模型。

在视觉生成方面，Awaker 1.0 采用完全自研的视频生成底座 VDT，在写真视频生成上取得好于 Sora 的效果，打破大模型 “最后一公里” 落地难的困境。

人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

Awaker 1.0 是一个将视觉理解与视觉生成从事超级融合的多模态大模型。在理解侧，Awaker 1.0 与数字世界和现实世界从事交互，在执行恣意的过程中将场景行为数据反哺给模型，以兑现继续革新与训练；在生成侧，Awaker 1.0 可以生成高质量的多模态内容，对现实世界从事模拟，为理解侧模型提供更多的训练数据。

尤其重要的是，因为具备 “真正” 的自决革新本领，Awaker 1.0 适用于更广泛的行业场景，可以解决更复杂的实际恣意，比如 AI Agent、具身智能、综合治理、安防巡检等。

人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

Awaker 的 MOE 基座模型

在理解侧，Awaker 1.0 的基座模型主要解决了多模态多恣意预训练存在严重冲突的问题。受益于精心设计的多恣意 MOE 架构，Awaker 1.0 的基座模型既能继承智子引擎前代多模态大模型 ChatImg 的基础本领，还能进修各个多模态恣意所需的独特本领。相对于前代多模态大模型 ChatImg，Awaker 1.0 的基座模型本领在多个恣意上都有了大幅提升。

鉴于主流的多模态评测榜单存在评测数据泄露的问题，我们采取严格的标准构建自有的评测集，其中大部分的测试图片来自个人的手机相册。在该多模态评测集上，我们对 Awaker 1.0 和国内外最先进的三个多模态大模型从事公平的人工评测，详细的评测结果如下表所示。注意到 GPT-4V 和 Intern-VL 并不直接支持检测恣意，它们的检测结果是通过要求模型使用语言描述物体方位得到的。

人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

我们发现，Awaker 1.0 的基座模型在视觉问答和业务应用恣意上超过了 GPT-4V、Qwen-VL-Max 和 Intern-VL，同时它在描述、推理和检测恣意上也达到了次好的效果。总体而言，Awaker 1.0 的平均得分超过国内外最先进的三个模型，验证了多恣意 MOE 架构的有效性。下面是几个具体的对比分析例子。

人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

从这些对比例子可以看到，在计数和 OCR 问题上，Awaker 1.0 能正确地给出答案，而其它三个模型均回答错误（或部分错误）。在详细描述恣意上，Qwen-VL-Max 比较容易出现幻觉，Intern-VL 可以准确地描述图片的内容但在某些细节上不够准确和具体。GPT-4V 和 Awaker 1.0 不但可以详细地描述图片的内容，而且可以准确地识别出图片中的细节，如图中展示的可口可乐。

Awaker + 具身智能：迈向 AGI

多模态大模型与具身智能的连系是非常自然的，因为多模态大模型所具有的视觉理解本领可以天然与具身智能的摄像头从事连系。在人工智能领域，“多模态大模型 + 具身智能” 甚至被认为是兑现通用人工智能（AGI）的可行路径。

一方面，人们期望具身智能拥有适应性，即智能体可以通过继续进修来适应不断变化的应用环境，既能在已知多模态恣意上越做越好，也能快速适应未知的多模态恣意。

另一方面，人们还期望具身智能具有真正的创造性，希望它通过对环境的自决索求，可以发现新的策略和解决方案，并索求人工智能的本领边界。通过将多模态大模型用作具身智能的 “大脑”，我们有可能大幅地提升具身智能的适应性和创造性，从而最终接近 AGI 的门槛（甚至兑现 AGI）。

但是，现有的多模态大模型都存在两个明显的问题：一是模型的迭代革新周期长，需要大量的人力和财力投入；二是模型的训练数据都源自现有的数据，模型不能继续获得大量的新常识。虽然通过 RAG 和长上下文的方式也可以注入继续出现的新常识，但是多模态大模型本身并没有进修到这些新常识，同时这两种补救方式还会带来额外的问题。

总之，目前的多模态大模型在实际应用场景中均不具备很强的适应性，更不具备创造性，导致在行业落地时总是出现各种各样的困难。

人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

智子引擎此次发布的 Awaker 1.0，是世界上首个具有自决革新机制的多模态大模型，可以用作具身智能的 “大脑”。Awaker 1.0 的自决革新机制，包含三大关键技术：数据主动生成、模型反思评估、模型连续革新。

区别于所有其它多模态大模型，Awaker 1.0 是 “活” 的，它的参数可以实时继续地革新。

从上方的框架图中可以看出，Awaker 1.0 可以与各种智能设置装备摆设连系，通过智能设置装备摆设观察世界，产生动作意图，并自动构建指令控制智能设置装备摆设完成各种动作。智能设置装备摆设在完成各种动作后会自动产生各种反馈，Awaker 1.0 可以从这些动作和反馈中获取有效的训练数据从事继续的自我革新，不断强化模型的各种本领。

以新常识注入为例，Awaker 1.0 可以不断地在互联网上进修最新的新闻信息，并连系新进修到的新闻信息回答各种复杂问题。不同于 RAG 和长上下文的传统方式，Awaker 1.0 能真正学到新常识并 “记忆” 在模型的参数上。

人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

从上述例子可以看到，在连续三天的自我革新中，Awaker 1.0 每天都能进修当天的新闻信息，并在回答问题时准确地说出对应信息。同时，Awaker 1.0 在连续进修的过程中并不会遗忘学过的常识，例如智界 S7 的常识在 2 天后仍然被 Awaker 1.0 记住或理解。

Awaker 1.0 还可以与各种智能设置装备摆设连系，兑现云边协同。Awaker 1.0 作为 “大脑” 部署在云端，控制各种边端智能设置装备摆设执行各项恣意。边端智能设置装备摆设执行各项恣意时获得的反馈又会源源不断地传回给 Awaker 1.0，让它继续地获得训练数据，不断从事自我革新。人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

上述云边协同的技术路线已经应用在电网智能巡检、智慧城市等应用场景中，取得了远远好于传统小模型的识别效果，并获得了行业客户的高度认可。

人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

现实世界的模拟器：VDT

Awaker 1.0 的生成侧，是智子引擎自决研发的类 Sora 视频生成底座 VDT，可以用作现实世界的模拟器。VDT 的研究成果于 2023 年 5 月发布在 arXiv 网站，比 OpenAI 发布 Sora 提前 10 个月。VDT 的学术论文已经被国际顶级人工智能会议 ICLR 2024 接收。

人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

视频生成底座 VDT 的创新之处，主要包括以下几个方面：

将 Transformer 技术应用于基于扩散的视频生成，展现了 Transformer 在视频生成领域的巨大潜力。VDT 的优势在于其出色的时间依赖性捕获本领，可以生成时间上连贯的视频帧，包括模拟三维对象随时间的物理动态。

提出统一的时空掩码建模机制，使 VDT 可以处理多种视频生成恣意，兑现了该技术的广泛应用。VDT 灵活的条件信息处理方式，如简单的 token 空间拼接，有效地统一了不同长度和模态的信息。同时，通过与时空掩码建模机制连系，VDT 成为了一个通用的视频扩散工具，在不修改模型结构的情况下可以应用于无条件生成、视频后续帧预测、插帧、图生视频、视频画面补全等多种视频生成恣意。

我们重点索求了 VDT 对简单物理规律的模拟，在 Physion 数据集上对 VDT 从事训练。在下面的示例中，我们发现 VDT 成功模拟了物理过程，如小球沿抛物线轨迹运动和小球在平面上滚动并与其他物体碰撞等。同时也能从第 2 行第 2 个例子中看出 VDT 捕捉到了球的速度和动量规律，因为小球最终由于冲击力不够而没有撞倒柱子。这证明了 Transformer 架构可以进修到一定的物理规律。

人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

我们还在写真视频生成恣意上从事了深度索求。该恣意对视频生成质量的要求非常高，因为我们天然对人脸以及人物的动态变化更加敏感。鉴于该恣意的特殊性，我们需要连系 VDT（或 Sora）和可控生成来应对写真视频生成面临的挑战。目前智子引擎已经突破写真视频生成的大部分关键技术，取得比 Sora 更好的写真视频生成质量。智子引擎还将继续优化人像可控生成算法，同时也在积极从事商业化索求。目前已经找到确定的商业落地场景，有望近期就打破大模型 “最后一公里” 落地难的困境。人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

未来更加通用的 VDT 将成为解决多模态大模型数据来源问题的得力工具。使用视频生成的方式，VDT 将可以对现实世界从事模拟，进一步提高视觉数据生产的效率，为多模态大模型 Awaker 的自决革新提供助力。

结语

Awaker 1.0 是智子引擎团队向着 “兑现 AGI” 的终极目标迈进的关键一步。团队认为 AI 的自我索求、自我反思等自决进修本领是智能水平的重要评估标准，与继续加大参数规模（Scaling Law）相比是同等重要的。Awaker 1.0 已兑现 “数据主动生成、模型反思评估、模型连续革新” 等关键技术框架，在理解侧和生成侧都兑现了效果突破，有望加速多模态大模型行业的发展，最终让人类兑现 AGI。

{{userData.name}}已认证

人大系多模态模型迈向AGI：首次兑现自决革新，写真视频生成力压Sora

首届AI方程式大赛，8圈开了一个小时

GTC大会开完一个月，英伟达的Omniverse Cloud API在快速落地

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩