AI在线 AI在线

上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入

作者:清源
2025-04-17 12:39
该团队提出了一种创新的原生多模态预训练方法,与传统的先优化大语言模型再添加视觉能力的方法不同,这种方法在模型的预训练阶段将文本数据与多模态数据无缝结合,让模型能够同时学习语言和视觉。

据上海人工智能实验室官方公众号,4 月 16 日,上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生・万象 3.0(InternVL3)。

官方介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10 亿~780 亿参数的全量级版本在开源模型中性能均位列第一,同时大幅提升了图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入

据介绍,该团队提出了一种创新的原生多模态预训练方法,与传统的先优化大语言模型再添加视觉能力的方法不同,这种方法在模型的预训练阶段将文本数据与多模态数据无缝结合,让模型能够同时学习语言和视觉,从而能够同时处理文本和多模态输入。

除了可以处理通用的多模态任务之外,InternVL3 还拓展了多方面的多模态能力,如图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理、通识学科推理等。

据介绍,InternVL3 可作为 GUI 智能体,遵循指令去操作电脑或者手机上的专业软件

上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入

上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入

AI在线汇总有关链接如下:

  • 技术报告链接:https://huggingface.co/ papers / 2504.10479

  • 代码开源 / 模型使用方法:https://github.com/ OpenGVLab / InternVL

  • 模型地址:https://huggingface.co/ OpenGVLab / InternVL3-78B

  • 公测版本:https://chat.intern-ai.org.cn/

相关标签:

相关资讯

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

思谋发布首个工业大模型开发底座 大模型开发成本直降40%

6月27日,华南工博会现场,思谋科技宣布行业首个工业大模型开发与应用底座SMoreLrMo正式发布。SMoreLrMo是面向工业场景的大模型开发与应用平台,覆盖了应用层面、算法框架、基础设施服务等开发全场景,涉及算力资源调度管理能力、数据自动标注管理能力、应用开发管理能力、算法服务管理能力等人工智能模型全生命周期。今年以来,大模型的火热点燃了新一轮人工智能发展浪潮,也正在引领新一轮工业革命,帮助企业重塑生产及经营各环节以实现提质降本增效。而SMoreLrMo平台的发布,将为大模型在工业领域的应用提供了基础,进一步降
6/27/2023 3:51:00 PM
新闻助手

集聚场景驱动力,激发AI生产力——WAIC 2024“人工智能+”应用场景持续广泛征集

今年的政府工作报告提出,大力推进现代化产业体系建设,加快发展新质生产力。同时要深化大数据、人工智能等研发应用,开展“人工智能 ”行动。近年来,上海市委、市政府不断创新政策举措,探索应用场景,深入推进城市转型、产业升级,为新一代人工智能发展开辟了广阔天地。世界人工智能大会(WAIC)作为行业标杆性盛会,每年都集聚了全球人工智能领域最具影响力的科学家、企业家、政界人士、高校组织、投资人及初创团队,已然成为全球人工智能领域学术与行业交流、展览展示、合作洽谈的重要平台和窗口。2024世界人工智能大会将于7月初在上海举办,大
5/20/2024 4:33:00 PM
新闻助手