首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

AIxiv专栏是机器之心发布学术、技能内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]生成式人工智能钻研实验室（GAIR，主页：）由上海交通大学刘鹏飞副教授2023年4月回国创建，是国内首个聚焦于生成式人工智能的高校钻研组。汇聚了来自于CMU、复旦、交大（ACM班、IEEE

AIxiv专栏是机器之心发布学术、技能内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

生成式人工智能钻研实验室（GAIR，主页：https://plms.ai/）由上海交通大学刘鹏飞副教授2023年4月回国创建，是国内首个聚焦于生成式人工智能的高校钻研组。汇聚了来自于CMU、复旦、交大（ACM班、IEEE试点班等）等顶尖高校的年轻本硕博人才。实验室专注于三大核心领域：大模型基础钻研、对齐系统和社会影响，致力于培养顶尖人工智能人才（具有原创、批判精神等）、开发尖端的生成式人工智能技能，赋能人类解决搀杂问题，提升人类生活质量。

自LLaMa自返回文本生成大模型耀眼登场以来，整个AI界翘首以盼，期待一个可以或许真正实现原生、自返回图文生成的开源大模型。17个月的漫长等待，我们见证了以文本为核心的LLaVa的崛起，目睹了鉴于Diffusion的Dalle的惊艳，却始终未能一睹那个可以或许完美融合笔墨与图象的模型真容。

直到今天，Anole的诞生，终于填补了这一空白，满足了AI钻研者和开发者的殷切期盼，让每个人都可以用开发LLaMa的方式去开发多模态大模型。

想象一下，你只需敲击几个键盘，就能唤醒一位虚拟大厨，为你展示一道完美煎蛋的每一个精妙步骤。这不再是科幻，而是由上海交通大学GAIR团队带来的创新成果——Anole模型。

Anole是多模态大模型领域发展的一次重要技能突破，作为全球首个完全开源、自返回、原生的（文本与图片一起从头训练）多模态大模型。无需搀杂的扩散模型，Anole凭借纯粹的"token"自返回预测，就能实现笔墨与图象的无缝交织。如图所示，当你在Anole的界面上输入"用图片和笔墨讲解煎鸡蛋的每一步"时，它会瞬间化身为你的私人厨艺导师。一系列生动形象的步骤图随即呈现，每一幅图都配有清晰明了的笔墨说明，仿佛一位耐心的大厨在为你量身定制教程。

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

这仅仅是Anole众多强大功能中的一个。接下来，让我们深入了解这个创新的多模态生成模型及其背后的技能。

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

项目主页：https://gair-nlp.github.io/anole

Github: https://github.com/GAIR-NLP/anole

Huggingface: https://huggingface.co/GAIR/Anole-7b-v0.1

Anole是首个可以或许实现交织图文生成的开源、自返回、原生训练的大型多模态模型（无需使用稳定扩散技能）。虽然它建立在Meta 开源的Chameleon[1]的优势基础之上，但Anole新增了生成连贯的交替文本和图象序列这一搀杂任务。通过使用精心构建的的约6,000张图象数据集进行创新性微调，Anole以最少的额外训练实现了出色的图象生成和理解才能。这种高效的步骤，加上其开源特性，使Anole成为加速多模态AI钻研和开发的催化剂。初步测试表明，Anole具有卓越的才能，可以或许遵循细致入微的指令，产生高质量的图象和交织的文本-图象内容，与用户提示密切吻合。

除了具备常规多模态模型的“文本生成”和“多模态理解”才能外，Anole还展现了出色的图文交织生成和文本生成图象的才能。

文本 → 图片 + 文本：可以或许生成图象并附带相关文本描述。除开上文中使用Anole以生成一系列煎蛋步骤的图片并附上相关描述笔墨的例子外。模型还可以生成其他图文交织的数据。这种才能在初步测试中表现良好，可以或许生成有意义的图象并准确传达文本信息。

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

文本 → 图片：可以或许根据文本生成图象。

指令: A piece of paper with word like "Anole" written on it, and a drawing of an Anole.

生成结果:

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

指令: An image depicting three cubes stacked on a table. Each cube has a random color and a letter on it.

生成结果:

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

更多例子：

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

训练技能

近年来，多模态AI技能取得了显著进展，Meta AI推出的Chameleon模型便是其中的代表。Chameleon通过在预训练期间融合图象和文本语料的步骤，展示了在视觉和语言整合方面的潜力。然而，尽管Chameleon具有突破性，其图象生成的关键网络参数并未开源，限制了其进一步的钻研和实际应用。

Chameleon的预训练数据本身就包含了文本和图象两种模态，理论上赋予了它图象生成的才能。我们的目标是在不影响其文本理解、生成和多模态理解才能的前提下，激活这种才能。为实现这一目标，我们冻结了Chameleon的大部分参数，仅对transformer的输出头层中与图象token ID对应的logits进行了微调。

具体而言，Anole具体如下特性：

快速高效的微调手段：通过创新的局部微调步骤，只调整不到40m参数，在短时间内（8 个 A100 GPU 上大约 30 分钟），便成功激发出Chameleon的图象生成才能，使钻研人员和开发者可以或许充分利用并鉴于Chameleon的架构进行后续的多模态AI钻研工作。

少即是多（Less is More)的微调数据：仅需5,859个图片样本便可有效激发Chameleon的图象生成才能，展示了在大型多模态模型中恢复搀杂功能的高效性。

全面的微调和推理代码：供给了一整套用于微调、推理Chameleon和Anole的代码库，显著降低了开发和实验的门槛。

丰富的资源以提升可及性：供给了丰富的数据资源和详细的教程，旨在帮助各级别的钻研人员更容易上手和实验。

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

全方位开源

值得注意的是，GAIR团队已经对 Anole项目进行完全开源（供给了开源的模型权重、推理与训练代码和详细使用教程），以确保每个感兴趣的钻研者都能重现这些结果，可以微调模型，创建自己的风格变体。该项目旨在建立和共享一个具有完整图文理解和生成才能的多模态模型，并通过完全开源实现多模态技能民主化，让更多人可以加入多模态大模型的开发中。

当前版本(v1.0)具体供给了如下的资源：

模型微调代码（鉴于HuggingFace Trainer）

权重转换代码（Hf->Meta & Meta->Hf)

与图象生成有关的推理代码：包括文生图以及图文交互

5k+图片用于微调模型以赋予其图象生成的才能

更重要的是，Anole 为学术界开启了一系列重要且富有挑战性的钻研方向。具体而言：

它为探索统一的鉴于分词器的多模态模型（token-based）的性能上限供给了新的途径，使得与扩散模型（diffusion-based) 等步骤的比较成为可能。

同时，它推动了高效交织文本-图象解码技能的发展，这对实时应用至关重要（比如动漫生成、教材生成）

此外，Anole 为探索这类搀杂模型的最优微调策略创造了契机，并提出了如何确保生成图象安全性和伦理使用等亟待解决的问题。

从根本上说，Anole 不仅是一个强大的工具，更是为未来钻研供给了沃土，为 AI 社区构建了一个稳固的资源和基础设施平台，使其可以或许在此基础上不断创新和发展。这种开放的步骤有望加速多模态 AI 的进展，有可能带来突破性成果，而这些成果在过去因缺乏先进模型和技能的获取途径而难以实现。

参考链接：

[1] Chameleon: Mixed-Modal Early-Fusion Foundation Models, Chameleon, et al.2024

{{userData.name}}已认证

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

揭秘：阶跃星斗万亿MoE+多模态大模型矩阵表态

8月正式发布，小鹏MONA M03开启全球首秀

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩