规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

工程
23年11月28日
编辑

机器之心

性能优于规模更大的模型。多模态进修面临的主要挑战之一是需要融合文本、音频、视频等异构的模态，多模态模型需要拉拢不同来源的旌旗灯号。然而，这些模态具有不同的特性，很难通过单一模型来拉拢。例如，视频和文本具有不同的采样率。最近，来自 Google DeepMind 的钻研团队将多模态模型解耦成多个独立的、专门的自返回模型，根据各种模态的特性来处置惩罚输出。具体来说，该钻研提出了多模态模型 Mirasol3B。Mirasol3B 由空儿同步模态（音频和视频）自返回组件，以及用于上下文模态的自返回组件组成。这些模态不一定在空儿上对

性能优于规模更大的模型。

多模态进修面临的主要挑战之一是需要融合文本、音频、视频等异构的模态，多模态模型需要拉拢不同来源的旌旗灯号。然而，这些模态具有不同的特性，很难通过单一模型来拉拢。例如，视频和文本具有不同的采样率。

最近，来自 Google DeepMind 的钻研团队将多模态模型解耦成多个独立的、专门的自返回模型，根据各种模态的特性来处置惩罚输出。

具体来说，该钻研提出了多模态模型 Mirasol3B。Mirasol3B 由空儿同步模态（音频和视频）自返回组件，以及用于上下文模态的自返回组件组成。这些模态不一定在空儿上对齐，但是按顺序排列的。

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

论文地址：https://arxiv.org/abs/2311.05698

Mirasol3B 在多模态基准尝试中达到了 SOTA 水平，优于规模更大的模型。通过进修更紧凑的表征，控制音频 – 视频特性表征的序列长度，并根据空儿对应关系进行建模，Mirasol3B 能够有效满足多模态输出的高计算要求。

方法简介

Mirasol3B 是一个音频 – 视频 – 文本多模态模型，其中将自返回建模解耦成空儿对齐模态（例如音频、视频）的自返回组件，以及针对非空儿对齐的上下文模态（例如文本）的自返回组件。Mirasol3B 使用交叉注意力权重来协调这些组件的进修进程。这种解耦使得模型内部的参数分布更合理，也为模态（视频和音频）分配了足够的容量，并使得整体模型更加轻量。

以下图 1 所示，Mirasol3B 主要由两个进修组件组成：自返回组件，旨在处置惩罚（几乎）同步的多模态输出，例如视频 + 音频，并及时拉拢输出。

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

该钻研还提出将空儿对齐的模态分割成空儿段，在空儿段中进修音频 – 视频联合表征。具体来说，该钻研提出了一种名为「Combiner」的模态联合特性进修机制。「Combiner」融合了同一空儿段中的模态特性，产生了更紧凑的表征。

「Combiner」从原始的模态输出中提取初级的时空表示，捕捉视频的动态特性，并结合与其共时的音频特性，模型可以在不同的速率接收多模态输出，在处置惩罚较长的视频时表现良好。

「Combiner」有效地满足了模态表征既要高效又要信息量丰富的需求。它可以充分涵盖视频与其他同时发生的模态中的事件和活动，并能够用于后续的自返回模型，进修长期依赖关系。

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

为了处置惩罚视频和音频旌旗灯号，并适应更长的视频 / 音频输出，它们被分割成（在空儿上大致同步）的小块，再通过「Combiner」进修联合视听表示。第二个组件处置惩罚上下文，或空儿上未对齐的旌旗灯号，如全局文本信息，这些信息通常仍然是连续的。它也是自返回的，并使用拉拢的潜在空间作为交叉注意力输出。

视频 + 音频进修组件有 3B 参数；没有音频的组件是 2.9B。多半参数用于音频 + 视频自返回模型。Mirasol3B 通常处置惩罚 128 帧的视频，也可以处置惩罚更长（例如 512 帧）的视频。

由于设计了分区和「Combiner」的模型架构，增加更多帧，或增加块的大小、数目等，只会使参数略有增加，解决了更长视频需要更多参数、更大的内存的问题。

实验及结果

该钻研在标准 VideoQA 基准、长视频 VideoQA 基准和音频 + 视频基准上对 Mirasol3B 进行了尝试评价。

在 VideoQA 数据集 MSRVTTQA 上的尝试结果以下表 1 所示，Mirasol3B 超越了目前的 SOTA 模型，以及规模更大的模型，如 PaLI-X、Flamingo。

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

在长视频问答方面，该钻研在 ActivityNet-QA、NExTQA 数据集上对 Mirasol3B 进行了尝试评价，结果以下表 2 所示：

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

最后，该钻研选择使用 KineticsSound、VGG-Sound、Epic-Sound 进行音频 – 视频基准尝试，采用开放式生成评价，实验结果以下表 3 所示：

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

感兴趣的读者可以阅读论文原文，了解更多钻研内容。

给TA打赏

共{{data.count}}人

人已打赏

Google DeepMind Mirasol3B

单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

2023-11-28 11:24:00

ChatGPT提醒词新玩法「make it more」，文生图效果翻倍

2023-11-28 14:54:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代
12月20日
Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作
12月27日
劲爆！理想汽车转做大模型，主持人质疑李想是否跟风：你有理想吗？李想自曝三次创业心得：终极是硅基家人，要做中国第一！
12月26日
2024年AI 编程现在可以做到什么程度？
12月18日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部