参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

理论
5月1日
编辑

机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

多模态 AI 体系的特点在于不妨处置惩罚和进修包括自然谈话、视觉、音频等各种类型的数据，从而指导其行为决策。近期，将视觉数据纳入大型谈话模型 (如 GPT-4V) 的研究取得了重要进展，但如何有效地将图象信息转化为 AI 体系的可执行动作仍面临挑战。

在最近的一篇论文中，研究者提出了一种专为 AI 应用设计的多模态模型，引入了「functional token」的概念。

论文标题：Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent

论文链接：https://arxiv.org/pdf/2404.11459.pdf

模型权重和推理代码：https://www.nexa4ai.com/apply

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

为确保该模型能兼容边缘设备，研究者将其参数量优化至 10 亿以内。与 GPT-4 类似，该模型能同时处置惩罚英文和中文。实验表明，该模型能在包括树莓派等各类资源受限的终端设备上高效运行。

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

研究背景

人工智能技术的飞速发展彻底改变了人机交互的方式，催生出一批不妨根据自然谈话 \ 视觉等多种形式的输出执行复杂任务、做出决策的智能 AI 体系。这些体系有望实现从图象识别、谈话翻译等简单任务到医疗诊断、自动驾驶等复杂应用的自动化。多模态谈话模型是这些智能体系的核心，使其不妨通过处置惩罚整合文本、图象乃至音视频等多模态数据，理解和生成近乎人类的回复。相较于主要关注文本处置惩罚和生成的传统谈话模型，多模态谈话模型是一大飞跃。通过纳入视觉信息，这些模型不妨更好地理解输出数据的语境和语义，从而给出更加准确、相关的输出。例如，一个在图文匹配数据上训练的多模态谈话模型，相比单纯的文本模型，不妨为新图生成更具描述性、更符合上下文的文字说明。处置惩罚和整合多模态数据的能力，对于开发多模态 AI 体系至关重要，使其能完成需要同时理解谈话和视觉信息的任务，如视觉问答、图象导航、多模态情感分析等。

开发多模态谈话模型的一大挑战在于，如何将视觉信息有效地编码为模型可处置惩罚的格式。这通常借助卷积神经网络 (CNN) 或 transformer 等架构来实现，如视觉 transformer (ViT) 。CNN 凭借从图象中提取层次化特征的能力，在计算机视觉任务中得到广泛应用，使模型不妨进修到输出数据越来越复杂的表示。另一方面，ViT 等基于 transformer 的架构由于能捕捉长距离依赖、建模全局上下文，在理解图象中物体间关系方面优势突出，近年来备受青睐。这些架构使模型不妨从输出图象中提取有意义的特征，并将其转化为可与文本输出整合的向量表示。

编码视觉信息的另一种要领是图象符号化 (tokenization), 即将图象分割为更小的离散单元或 token。这种要领让模型能以类似处置惩罚文本的方式来处置惩罚图象，实现两种模态的更无缝融合。图象 token 信息可与文本输出一同送入模型，使其能同时关注两种模态并生成更准确、更契合上下文的输出。例如，OpenAI 开发的 DALL-E 模型选拔 VQ-VAE (向量量化变分自编码器) 的变体对图象做符号化，使模型能根据文本描述生成新颖图象。开发出不妨根据用户提供的查询和图象采取行动的小型高效模型，对 AI 体系的未来发展影响深远。这些模型可部署于智能手机、物联网设备等资源受限的设备上，扩大其应用范围和场景。借助多模态谈话模型的威力，这些小型体系能以更自然、直观的方式理解和回应用户的问询，同时考虑用户提供的视觉语境。这为实现更具吸引力、个性化的人机互动开启了可能，如根据用户喜好提供视觉推荐的虚拟助手，或根据用户面部表情调节设置的智能家居设备。

此外，多模态 AI 体系的发展有望实现人工智能技术的民主化，让更广泛的用户和行业受益。更小巧高效的模型可在算力较弱的硬件上训练，降低部署所需的计算资源和能耗。这可能带来 AI 体系在医疗、教育、娱乐、电商等各个领域的广泛应用，最终改变人们的生活和工作方式。

相关工作

多模态模型由于不妨处置惩罚和进修文本、图象、音频等多种数据类型而备受关注。这类模型能捕捉不同模态间复杂的交互，并利用它们的互补信息来提升各类任务的性能。视觉 – 谈话预训练 (VLP) 模型如 ViLBERT、LXMERT、VisualBERT 等，通过跨模态注意力进修视觉和文本特征的对齐，生成丰富的多模态表征。多模态 transformer 架构如 MMT、ViLT 等则对 transformer 做了改进，以高效处置惩罚多种模态。研究者还尝试将音频、面部表情等其他模态纳入模型，如多模态情感分析 (MSA) 模型、多模态情绪识别 (MER) 模型等。通过利用不同模态的互补信息，多模态模型相比单模态要领取得了更优的性能和泛化能力。

终端谈话模型定义为参数量少于 70 亿的模型，因为研究者发现即使选拔量化，在边缘设备上运行 130 亿参数的模型也非常困难。这一领域近期的进展包括 Google 的 Gemma 2B 和 7B、Stable Diffusion 的 Stable Code 3B 以及 Meta 的 Llama 7B。有趣的是，Meta 的研究表明，与大型谈话模型不同，小型谈话模型选拔深而窄的架构会有更好的表现。其他对终端模型有益的技术还包括 MobileLLM 中提出的 embedding 共享、分组 query 注意力以及即时分块权重共享等。这些发现凸显了在开发终端应用的小型谈话模型时，需要考虑不同于大模型的优化要领和设计策略。

Octopus 要领

Octopus v3 模型开发中选拔的主要技术。多模态模型开发的两个关键方面是：将图象信息与文本输出相整合，以及优化模型预测动作的能力。

视觉信息编码

图象处置惩罚中存在多种视觉信息编码要领，常用隐藏层的 embedding。例如，VGG-16 模型的隐藏层 embedding 被用于风格迁移任务。OpenAI 的 CLIP 模型展示了对齐文本和图象 embedding 的能力，利用其图象编码器来嵌入图象。ViT 等要领则选拔了图象 tokenization 等更先进的技术。研究者评估了多种图象编码技术，发现 CLIP 模型的要领最为有效。因此，本文选拔基于 CLIP 的模型进行图象编码。

Functional token

与应用于自然谈话和图象的 tokenization 类似，特定 function 也可封装为 functional token。研究者为这些 token 引入了一种训练策略，借鉴了自然谈话模型处置惩罚未见词的技术。这一要领与 word2vec 类似，通过 token 的上下文环境来丰富其语义。例如，高级谈话模型最初可能难以应对 PEGylation 和 Endosomal Escape 等复杂化学术语。但通过因果谈话建模，尤其是在包含这些术语的数据集上训练，模型不妨习得这些术语。类似地，functional token 也可通过并行策略习得，其中 Octopus v2 模型可为此类进修过程提供强大的平台。研究表明，functional token 的定义空间是无限的，从而不妨将任意特定 function 表示为 token。

多阶段训练

为开发出高性能的多模态 AI 体系，研究者选拔了集成因果谈话模型和图象编码器的模型架构。该模型的训练过程分为多个阶段。首先，因果谈话模型和图象编码器分别训练，建立基础模型。随后，将这两个部件合并，并进行对齐训练以同步图象和文本处置惩罚能力。在此基础上，借鉴 Octopus v2 的要领来促进 functional token 的进修。最后一个训练阶段中，这些不妨与环境交互的 functional token 提供反馈，用于进一步优化模型。因此，最后阶段研究者选拔强化进修，并选择另一个大型谈话模型作为奖励模型。这种迭代训练方式增强了模型处置惩罚和整合多模态信息的能力。

模型评估

本节介绍模型的实验结果，并与集成 GPT-4V 和 GPT-4 模型的效果进行对比。在对比实验中，研究者首先选拔 GPT-4V (gpt-4-turbo) 处置惩罚图象信息。然后将提取的数据输出 GPT-4 框架 (gpt-4-turbo-preview), 将所有 function 描述纳入上下文并应用小样本进修以提升性能。在演示中，研究者将 10 个常用的智能手机 API 转化为 functional token 并评估其表现，详见后续小节。

值得注意的是，虽然本文仅展示了 10 个 functional token, 但该模型可以训练更多 token 以创建更通用的 AI 体系。研究者发现，对于选定的 API, 参数量不到 10 亿的模型作为多模态 AI 表现可与 GPT-4V 和 GPT-4 的组合相媲美。

此外，本文模型的可扩展性允许纳入广泛的 functional token, 从而不妨打造高度专业化的 AI 体系，适用于特定领域或场景。这种适应性使本文要领在医疗、金融、客户服务等行业尤为有价值，这些领域中 AI 驱动的解决方案可显著提升效率和用户体验。

在下面的所有 function 名称中，Octopus 仅输出 functional token 如 < nexa_0>,…,<nexa_N>, 研究者将 functional token 替换为相应的函数名称以便更好地演示。以下所有结果都是直接生成的，无需任何输出解析器。Octopus v3 是一个单一模型，可同时处置惩罚中文和英文，这意味着无需专门训练另一个中文模型。

发送邮件

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

发送短信

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

Google 搜索

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

亚马逊购物

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

智能回收

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

失物招领

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

室内设计

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

Instacart 购物

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

DoorDash 外卖

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

宠物护理

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

社会影响

在 Octopus v2 的基础上，更新后的模型纳入了文本和视觉信息，从其前身纯文本要领迈出了重要一步。这一显著进展实现了视觉和自然谈话数据的同步处置惩罚，为更广泛的应用铺平了道路。Octopus v2 引入的 functional token 可适应多个领域，如医疗和汽车行业。随着视觉数据的加入，functional token 的潜力进一步扩展到自动驾驶、机器人等领域。此外，本文的多模态模型让树莓派等设备实际转化为 Rabbit R1 、Humane AI Pin 之类的智能硬件成为可能，它选拔终端模型而非基于云的方案。

Functional token 目前已获得授权，研究者鼓励开发者参与本文框架，在遵守许可协议的前提下自由创新。在未来的研究中，研究者旨在开发一个不妨容纳音频、视频等额外数据模态的训练框架。此外，研究者发现视觉输出可能带来相当大的延迟，目前正在优化推理速度。

给TA打赏

共{{data.count}}人

人已打赏

AI Token 图象模型模态

AI知道苹果是什么吗？DeepMind说话模型迷信家正把这些观念变得可量化、可测试

2024-4-30 17:03:00

打破「非此即彼」，倾斜 AI 与物理，中国迷信院提出建立可进修的景象模型

2024-5-2 17:14:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP2

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等
12月3日
TOP3

关于LLM-as-a-judge范式，终于有综述讲明白了
12月3日
ChatGPT遇到这些人名开始自闭，OpenAI回应了
12月4日
平安人寿ChatBI：大模型智能化报表的深度实践
12月4日
李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”
12月3日
字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片
12月5日
李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则
12月3日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部