北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路

由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队,最新推出了 LLaVA-o1,这是首个具备自发性、类似于 GPT-o1 的系统性推理视觉语言模型。

IT之家 11 月 19 日消息,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队,最新推出了 LLaVA-o1,这是首个具备自发性(Spontaneous,具体解释可参考文末)、类似于 GPT-o1 的系统性推理视觉语言模型。

UP 主:唐国梁 Tommy

LLaVA-o1 是一种新型的视觉语言模型(VLM),其设计目标是进行自主的多阶段推理。

北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路

LLaVA-o1 拥有 110 亿个参数,基于 Llama-3.2-Vision-Instruct 模型开发,设计了总结(summary)、描述(caption)、推理(reasoning)和结论(conclusion)4 个推理阶段。

北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路

该模型使用名为 LLaVA-o1-100k 的数据集进行微调,该数据集源自视觉问答(VQA)来源和由 GPT-4o 生成的结构化推理注释。

北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路

北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路

北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路

LLaVA-o1 采用了阶段级束搜索(stage-level beam search)的推理时间 Scaling 技术,能够在每个推理阶段生成多个候选答案,并选取最佳答案。

该模型在处理复杂任务时具备较强的能力,在复杂视觉问答任务中,可以突破传统视觉语言模型的局限性。

与基础模型相比,LLaVA-o1 在多模态推理基准测试中提高了 8.9% 的性能,超过了许多大型和闭源的竞争对手。

北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路

北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路

LLaVA-o1 的推出填补了文本和视觉问答模型之间的重要空白,在多个基准测试中的优异表现,特别是在数学和科学视觉问题的推理领域,展示了结构化推理在视觉语言模型中的重要性。

自发性人工智能(Spontaneous AI)是指能够模拟动物自发行为的人工智能系统。这种技术的研究主要集中在如何通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。

IT之家附上参考地址

  • 北大发布多模态大模型 LLaVA-o1,推理计算 Scaling 新思路

  • Meet LLaVA-o1: The First Visual Language Model Capable of Spontaneous, Systematic Reasoning Similar to GPT-o1

  • LLaVA-o1: Let Vision Language Models Reason Step-by-Step

  • Github

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关资讯

清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制

清华大学智能产业研究院(AIR)于 2024 年 12 月 24 日发布论文,介绍推出 AutoDroid-V2 AI 模型,在移动设备上利用小语言模型,显著提升了自然语言控制的自动化程度。

BAAI、北大&港中文团队提出 SegVol:通用且可交互的医学体素分割模型

编辑 | ScienceAI上周,北京智源人工智能研究院(BAAI)、北京大学和香港中文大学的研究团队开源了 SegVol 医学通用分割模型。与过去一些很棒的 Medical SAM 工作不同,SegVol 是第一个能够同时支持 box,point 和 text prompt 进行任意尺寸原分辨率的 3D 体素分割模型。作为一个便捷的通用分割工具,研究人员将 SegVol 代码和模型开源到 GitHub:BAAI-DCAI/SegVol,欢迎大家使用。目前开源的模型权重文件包括(1)使用 96k CTs 预训练 2

加速量子化学计算,字节&北大团队量子蒙特卡罗研究新进展登Nature子刊

编辑 | 萝卜皮基于神经网络的变分蒙特卡罗(NN-VMC)已成为一种有前途、有潜力的从头计算量子化学的尖端技术。然而,现有方法的高计算成本,阻碍了它们在现实化学问题中的应用。字节跳动与北京大学团队介绍了 NN-VMC 的最新研究进展,它实现了显著的加速率,从而极大地将 NN-VMC 的适用性扩展到更大的系统。该团队的关键设计是一个名为 Forward Laplacian 的计算框架,它通过有效的前向传播(forward)过程来计算与神经网络相关的 Laplacian(这是 NN-VMC 的瓶颈)。然后,研究人员证明