MLLM

上海AI实验室开源InternVL3系列多模态大型语言模型

4月11日，OpenGVLab开源发布了InternVL3系列模型，这标志着多模态大型语言模型（MLLM）领域迎来了新的里程碑。 InternVL3系列包含从1B到78B共7个尺寸的模型，能够同时处理文字、图片、视频等多种信息，展现出卓越的整体性能。与前代产品InternVL2.5相比，InternVL3在多模态感知和推理能力上有了显著提升，其多模态能力进一步扩展至工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。

4/14/2025 9:01:07 AM

AI在线

科学家构建多模态LLM框架，进行3D脑CT放射学报告生成

编辑 | 烂菜叶多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局，其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。虽然基于 2D MLLM 的 RRG 已经得到充分认可，但其在 3D 医学图像中的实用性仍未得到充分开发。在这方面，台北荣民总医院（Taipei Veterans General Hospital）、台湾阳明交通大学（National Yang Ming Chiao Tung University）以及美国加州大学的研究人员整理了 3D-BrainCT 数据集（18,885 个文本扫描对）并开发了 BrainGPT，这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。

3/13/2025 2:23:00 PM

ScienceAI

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型，就看到这个工作，本文一起看看，供参考。先提出问题，仅靠 RL 是否足以激励 MLLM 的推理能力？结论：不能，因为如果 RL 能有效激励推理能力，Vision-R1-Zero 应该表现出生成复杂 CoT 的能力，并在基准测试中提升准确率。

3/13/2025 8:13:47 AM

余俊晖

登Nature，超越GPT-4V，MIT、哈佛开发人类病理学多模态AI「副驾驶」

编辑 | KX多年来，计算病理学领域在基于图像、基因组学数据开发越来越准确、针对特定任务的预测模型方面取得了显著进步。然而，尽管生成式人工智能 (AI) 呈爆炸式增长，但在构建针对病理学的通用、多模态 AI 助手和「副驾驶」（Copilot）方面的研究却有限。近日，哈佛大学和 MIT 的研究团队提出了一种用于人类病理学的视觉语言通才 AI 助手：PathChat。研究人员将 PathChat 与几种多模态视觉语言 AI 助手和 GPT-4V 进行了比较。PathChat 在来自不同组织来源和疾病模型的病例的多项选择

6/20/2024 3:56:00 PM

ScienceAI

一句指令自动玩手机，网上冲浪神器Mobile-Agent来了

一直以来，让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下，AI 需要根据用户的要求自动操作手机，逐步完成任务。随着多模态大语言模型（Multimodal Large Language Model，MLLM）的快速发展，以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中，这使得借助多模态 agent 实现手机操作助手成为了可能。本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobil

2/4/2024 3:25:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶文本搜索字节跳动大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind