上海人工智能实验室开源多模态大模型“书生・万象 3.0”：能同时处理文本和多模态输入

2025-04-17 12:39

该团队提出了一种创新的原生多模态预训练方法，与传统的先优化大语言模型再添加视觉能力的方法不同，这种方法在模型的预训练阶段将文本数据与多模态数据无缝结合，让模型能够同时学习语言和视觉。

据上海人工智能实验室官方公众号，4 月 16 日，上海人工智能实验室（上海 AI 实验室）升级并开源了通用多模态大模型书生・万象 3.0（InternVL3）。

官方介绍，通过采用创新的多模态预训练和后训练方法，InternVL3 多模态基础能力全面提升，在专家级基准测试、多模态性能全面测试中，10 亿~780 亿参数的全量级版本在开源模型中性能均位列第一，同时大幅提升了图形用户界面（GUI）智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

据介绍，该团队提出了一种创新的原生多模态预训练方法，与传统的先优化大语言模型再添加视觉能力的方法不同，这种方法在模型的预训练阶段将文本数据与多模态数据无缝结合，让模型能够同时学习语言和视觉，从而能够同时处理文本和多模态输入。

除了可以处理通用的多模态任务之外，InternVL3 还拓展了多方面的多模态能力，如图形用户界面（GUI）智能体、建筑场景图纸理解、空间感知推理、通识学科推理等。

据介绍，InternVL3 可作为 GUI 智能体，遵循指令去操作电脑或者手机上的专业软件。

上海人工智能实验室开源多模态大模型“书生・万象 3.0”：能同时处理文本和多模态输入

AI在线汇总有关链接如下：

技术报告链接：https://huggingface.co/ papers / 2504.10479
代码开源 / 模型使用方法：https://github.com/ OpenGVLab / InternVL
模型地址：https://huggingface.co/ OpenGVLab / InternVL3-78B
公测版本：https://chat.intern-ai.org.cn/

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

思谋发布首个工业大模型开发底座大模型开发成本直降40%

6月27日，华南工博会现场，思谋科技宣布行业首个工业大模型开发与应用底座SMoreLrMo正式发布。SMoreLrMo是面向工业场景的大模型开发与应用平台，覆盖了应用层面、算法框架、基础设施服务等开发全场景，涉及算力资源调度管理能力、数据自动标注管理能力、应用开发管理能力、算法服务管理能力等人工智能模型全生命周期。今年以来，大模型的火热点燃了新一轮人工智能发展浪潮，也正在引领新一轮工业革命，帮助企业重塑生产及经营各环节以实现提质降本增效。而SMoreLrMo平台的发布，将为大模型在工业领域的应用提供了基础，进一步降

6/27/2023 3:51:00 PM

新闻助手

集聚场景驱动力，激发AI生产力——WAIC 2024“人工智能+”应用场景持续广泛征集

今年的政府工作报告提出，大力推进现代化产业体系建设，加快发展新质生产力。同时要深化大数据、人工智能等研发应用，开展“人工智能 ”行动。近年来，上海市委、市政府不断创新政策举措，探索应用场景，深入推进城市转型、产业升级，为新一代人工智能发展开辟了广阔天地。世界人工智能大会（WAIC）作为行业标杆性盛会，每年都集聚了全球人工智能领域最具影响力的科学家、企业家、政界人士、高校组织、投资人及初创团队，已然成为全球人工智能领域学术与行业交流、展览展示、合作洽谈的重要平台和窗口。2024世界人工智能大会将于7月初在上海举办，大

5/20/2024 4:33:00 PM

新闻助手

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

上海人工智能实验室开源多模态大模型“书生・万象 3.0”：能同时处理文本和多模态输入

相关资讯

调查：超72% 的企业选择 AI 工具时最看重易用性

思谋发布首个工业大模型开发底座 大模型开发成本直降40%

集聚场景驱动力，激发AI生产力——WAIC 2024“人工智能+”应用场景持续广泛征集

思谋发布首个工业大模型开发底座大模型开发成本直降40%