吴恩达团队新作:多模态百般本上下文进修,无需微调快速适应新恣意

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本研讨评估了先进多模态底子模型在 10 个数据集上的百般本上下文进修,揭示了持续的本能提升。批量盘问昭著降低了每个示例的迟延和推理老本而不牺牲本能。这些发现表明:利用大量演示示例可以快速适

吴恩达团队新作:多模态百般本上下文进修,无需微调快速适应新恣意

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

本研讨评估了先进多模态底子模型在 10 个数据集上的百般本上下文进修,揭示了持续的本能提升。批量盘问昭著降低了每个示例的迟延和推理老本而不牺牲本能。这些发现表明:利用大量演示示例可以快速适应新恣意和新范围,而无需传统的微调

吴恩达团队新作:多模态百般本上下文进修,无需微调快速适应新恣意

论文地址:https://arxiv.org/abs/2405.09798

代码地址:https://github.com/stanfordmlgroup/ManyICL

背景介绍

在近期的多模态底子模型(Multimodal Foundation Model)研讨中,上下文进修(In-Context Learning, ICL)已被证明是提高模型本能的有效方法之一。

然而,受限于底子模型的上下文长度,尤其是对于需要大量视觉 token 来表示图片的多模态底子模型,已有的相关研讨只局限于在上下文中提供少量样本。

令人激动的是,最新的技术进步大大增加了模型的上下文长度,这为探索使用更多示例进行上下文进修提供了可能性。

基于此,斯坦福吴恩达团队的最新研讨——ManyICL,主要评估了目前最先进的多模态底子模型在从少样本 (少于 100) 到百般本(最高至 2000)上下文进修中的施展阐发。通过对多个范围和恣意的数据集进行测试,团队验证了百般本上下文进修在提高模型本能方面的昭著效果,并探讨了批量盘问对本能和老本及迟延的影响。

吴恩达团队新作:多模态百般本上下文进修,无需微调快速适应新恣意

                           Many-shot ICL与零样本、少样本ICL的比较。

方法概览

本研讨选择了三种先进的多模态底子模型:GPT-4o、GPT4 (V)-Turbo 和 Gemini 1.5 Pro。出于 GPT-4o 优越的施展阐发,研讨团队在正文中着重讨论 GPT-4o 和 Gemini 1.5 Pro, GPT4 (V)-Turbo 的相关内容请于附录中查看。

数据集方面,研讨团队在 10 个跨越不同范围(包括自然影象、医学影象、遥感影象和分子影象等)和恣意(包括多分类、多标签分类和细粒度分类)的数据集上进行了广泛的实验。

吴恩达团队新作:多模态百般本上下文进修,无需微调快速适应新恣意

                                             基准数据集汇总。

为了测试增加示例数量对模型本能的影响,研讨团队逐步增加了上下文中提供的示例数量,最高达到近 2000 个示例。同时,考虑到百般本进修的高老本和高迟延,研讨团队还探索了批量处理盘问的影响。在这里,批量盘问指的是在单次 API 调用中处理多个盘问。

实验结果

百般本上下文进修本能评估

总体施展阐发:包含近 2000 个示例的百般本上下文进修在所有数据集上均优于少样本进修。随着示例数量的增加,Gemini 1.5 Pro 模型的本能呈现出持续的对数线性提升,而 GPT-4o 的施展阐发则较不稳定。

吴恩达团队新作:多模态百般本上下文进修,无需微调快速适应新恣意

数据效率:研讨测量了模型的上下文进修数据效率,即模型从示例中进修的速度。结果表明,Gemini 1.5 Pro 在绝大部分数据集上显示出比 GPT-4o 更高的上下文进修数据效率,意味着它能够更有效地从示例中进修。

吴恩达团队新作:多模态百般本上下文进修,无需微调快速适应新恣意

批量盘问的影响

总体施展阐发:在选择最优示例集大小下的零样本和百般本情境中,将多个盘问合并为一次请求,不会降低本能。值得注意的是,在零样本场景中,单个盘问在许多数据集上施展阐发较差。相比之下,批量盘问甚至可以提高本能。

吴恩达团队新作:多模态百般本上下文进修,无需微调快速适应新恣意

零样本场景下的本能提升:对于某些数据集(如 UCMerced),批量盘问在零样本场景下昭著提高了本能。研讨团队分析认为,这主要归因于范围校准 (domain calibration)、类别校准 (class calibration) 以及自我进修 (self-ICL)。

吴恩达团队新作:多模态百般本上下文进修,无需微调快速适应新恣意

老本和迟延分析

百般本上下文进修虽然在推理时需要处理更长的输入上下文,但通过批量盘问可以昭著降低每个示例的迟延和推理老本。例如,在 HAM10000 数据集中,使用 Gemini 1.5 Pro 模型进行 350 个示例的批量盘问,迟延从 17.3 秒降至 0.54 秒,老本从每个示例 0.842 美元降至 0.0877 美元。

吴恩达团队新作:多模态百般本上下文进修,无需微调快速适应新恣意

结论

研讨结果表明,百般本上下文进修能够昭著提高多模态底子模型的施展阐发,尤其是 Gemini 1.5 Pro 模型在多个数据集上施展阐发出持续的本能提升,使其能够更有效地适应新恣意和新范围,而无需传统的微调。

其次,批量处理盘问可以在相似甚至更好的模型施展阐发的同时,降低推理老本和迟延,显示出在实际应用中的巨大潜力。

总的来说,吴恩达团队的这项研讨为多模态底子模型的应用开辟了新的路径,特别是在快速适应新恣意和范围方面。

给TA打赏
共{{data.count}}人
人已打赏
AI

“AI 教父”杰弗里・辛顿履新,担任绿色质料草创公司 CuspAI 董事会顾问

2024-6-19 13:57:44

AI

IMF:不建议对生成式 AI 直接征收特别税,但各经济体需针对 AI 调整税收制度

2024-6-19 19:17:27

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索