Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

应用
8月24日
编辑

故渊

Meta AI 公司最新推出了 Transfusion 新方法，可以结合语言模型和图像生成模型，将其整合到统一的 AI 系统中。AI在线援引团队介绍，Transfusion 结合了语言模型在处理文本等离散数据方面的优势，以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说，目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词，然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似，它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。不过 Transfusion

Meta AI 公司最新推出了 Transfusion 新方法，可以结合语言模型和图像生成模型，将其整合到统一的 AI 系统中。

AI在线援引团队介绍，Transfusion 结合了语言模型在处理文本等离散数据方面的优势，以及扩散模型在生成图像等连续数据方面的能力。

Meta 解释说，目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词，然后将其与单独的扩散模型结合起来生成图像。

许多多模态语言模型的工作原理与此类似，它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。

不过 Transfusion 采用单一、统一的 Transformer 架构，适用于所有模式，对文本和图像数据进行端到端训练。文本和图像使用不同的损失函数：文本使用下一个标记预测，图像使用扩散。

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

为了同时处理文本和图像，图像被转换成图像片段序列。这样，模型就能在一个序列中同时处理文本标记和图像片段，特殊的注意力掩码（attention mask）还能让模型捕捉图像内部的关系。

有别于 Meta 现有的 Chameleon（将图像转换成离散的标记，然后用处理文本的方式处理）等方法，Transfusion 保留了图像的连续表示法，避免了量化造成的信息损失。

实验还表明，与同类方法相比，”融合” 的扩展效率更高。在图像生成方面，它取得了与专门模型相似的结果，但计算量却大大减少，令人惊讶的是，整合图像数据还提高了文本处理能力。

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

研究人员在 2 万亿个文本和图像标记上训练了一个 70 亿参数的模型。该模型在图像生成方面取得了与 DALL-E 2 等成熟系统相似的结果，同时还能处理文本。

AI在线附上参考地址

Meta’s “Transfusion” blends language models and image generation into one unified model

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

{{userData.name}}已认证

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

摩尔线程开源音频理解大模型 MooER：基于国产全功能 GPU 训练和推理

Ideogram 倒逼 Midjourney“拔剑”，开放网页版后再向免费用户开放 AI 文生图提示词描述工具

谷歌这款新概念键盘，治好了我多年的老病

消息称微软 AI 助手 Copilot 已可在中国内地正常使用

苹果为其 AI 构筑“云处理安全堡垒”：公开指南和研究环境，漏洞悬赏最高 100 万美元

无需训练即可创建数字人，字节PersonaTalk视频口型编辑超SOTA

字节跳动内测 AI 模型分享社区“炉米 Lumi”，据称集成 LLM 分享 / 搭建 / 训练等功能

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

消息称谷歌将推出“Project Jarvis”：可实现网页任务自动化