Meta 研发新方法:整合语言和扩散 AI 模型,降低计算量、提高运算效率、优化生成图像

Meta AI 公司最新推出了 Transfusion 新方法,可以结合语言模型和图像生成模型,将其整合到统一的 AI 系统中。AI在线援引团队介绍,Transfusion 结合了语言模型在处理文本等离散数据方面的优势,以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说,目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词,然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似,它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。不过 Transfusion

Meta AI 公司最新推出了 Transfusion 新方法,可以结合语言模型和图像生成模型,将其整合到统一的 AI 系统中。

AI在线援引团队介绍,Transfusion 结合了语言模型在处理文本等离散数据方面的优势,以及扩散模型在生成图像等连续数据方面的能力。

Meta 解释说,目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词,然后将其与单独的扩散模型结合起来生成图像。

许多多模态语言模型的工作原理与此类似,它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。

不过 Transfusion 采用单一、统一的 Transformer 架构,适用于所有模式,对文本和图像数据进行端到端训练。文本和图像使用不同的损失函数:文本使用下一个标记预测,图像使用扩散。

Meta 研发新方法:整合语言和扩散 AI 模型,降低计算量、提高运算效率、优化生成图像

为了同时处理文本和图像,图像被转换成图像片段序列。这样,模型就能在一个序列中同时处理文本标记和图像片段,特殊的注意力掩码(attention mask)还能让模型捕捉图像内部的关系。

有别于 Meta 现有的 Chameleon(将图像转换成离散的标记,然后用处理文本的方式处理)等方法,Transfusion 保留了图像的连续表示法,避免了量化造成的信息损失。

实验还表明,与同类方法相比,”融合” 的扩展效率更高。在图像生成方面,它取得了与专门模型相似的结果,但计算量却大大减少,令人惊讶的是,整合图像数据还提高了文本处理能力。

Meta 研发新方法:整合语言和扩散 AI 模型,降低计算量、提高运算效率、优化生成图像

研究人员在 2 万亿个文本和图像标记上训练了一个 70 亿参数的模型。该模型在图像生成方面取得了与 DALL-E 2 等成熟系统相似的结果,同时还能处理文本。

AI在线附上参考地址

Meta’s “Transfusion” blends language models and image generation into one unified model

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

给TA打赏
共{{data.count}}人
人已打赏
应用

摩尔线程开源音频理解大模型 MooER:基于国产全功能 GPU 训练和推理

2024-8-23 18:21:35

应用

Ideogram 倒逼 Midjourney“拔剑”,开放网页版后再向免费用户开放 AI 文生图提示词描述工具

2024-8-24 7:43:05

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索