模态

成效初显！基于DeepSeek强化学习的医疗VLM策略来了

编辑 | ScienceAI在人工智能跨界医疗的浪潮中，如何赋能视觉语言模型（VLM）去 “看懂” 多种类型的医学影像，并在疾病诊断、病灶分析等任务中给出可信解释，已成关键挑战。近期，来自埃默里大学、南加州大学等机构的联合研究团队基于 DeepSeek 强化学习提出了一套医疗 VLM 策略，称之为 “Med-R1”，通过鼓励模型在 “推理过程” 上不断探索，大大提升了跨模态、跨任务的泛化能力。本文将结合实验结果和推理案例，为大家展示 DeepSeek 在医疗 VLM 中的实战成效。

3/21/2025 2:05:00 PM

ScienceAI

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理

12月16日，无问芯穹宣布正式开源其“端模型端软件端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni，并同步开源了纯语言版本模型Megrez-3B-Instruct。据介绍，Megrez-3B-Omni是一个为端而生的全模态理解模型，选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，推理速度最大领先同精度模型300%。作为一个全模态模型，Megrez-3B-Omni同时具备图片、音频、文本三种模态数据的处理能力，并在三个模态的多种测评基准中取得了最优性能。

12/16/2024 2:26:00 PM

新闻助手

图像伪造照妖镜：北大发布多模态 LLM 图像篡改检测定位框架 FakeShield

北京大学的研究人员开发了一种新型多模态框架 FakeShield，能够检测图像伪造、定位篡改区域，并提供基于像素和图像语义错误的合理解释，可以提高图像伪造检测的可解释性和泛化能力。随着生成式人工智能（AIGC）的迅猛发展，图像编辑与合成技术变得愈加成熟与普及。这一趋势为图像内容创作带来了便捷的同时，也显著增加了篡改检测的难度。

10/24/2024 11:36:51 PM

问舟

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

感谢智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。

10/21/2024 11:25:48 PM

沛霖（实习）

vivo 全新蓝心大模型矩阵发布，推出 30 亿蓝心端侧大模型 3B、语音大模型

在今日上午的 2024 vivo 开发者大会开幕演讲中，vivo 正式发布了自研的全新蓝心大模型矩阵，全面升级语言大模型和端侧大模型能力，并带来 vivo 自研的语音大模型、图像大模型以及多模态大模型。据AI在线了解，全新蓝心大模型矩阵包括语言大模型、端侧大模型、语音大模型、图像大模型、多模态大模型。vivo 推出了全新的 30 亿蓝心端侧大模型 3B，官方称在对话写作、摘要总结、信息抽取等能力上，蓝心 3B 可以越级比肩行业 7B-9B 模型。相比蓝心 7B，蓝心 3B 极致性能提升 300%，平衡模式下功耗优化

10/10/2024 10:58:51 AM

远洋

华知大模型 5.0 发布：同方知网与华为云打造，7B~135B 尺寸

以“数智共生、行业共赢”为主题的华知大模型行业应用研讨会于 9 月 21 日在上海举行，会议由同方知网与华为云联合主办。会上，华知大模型 5.0 发布，并全新上线智能 PPT、AI 科技查新、华知 App、3D 全息交互数字人等应用。据同方知网介绍，此次发布的华知大模型 5.0 实现了：“全系列、多模态、强知识、高可信”的能力跃升，针对多样化大模型建设需求，训练了 7B、13B、38B、135B 从端侧到千亿级多尺寸模型；跨模态多层语义融合的多模态大模型，可实现学术图片、统计表格理解以及复杂场景下实体智能识别和分割

9/22/2024 11:11:24 AM

汪淼

英伟达 NVLM 1.0 引领多模态 AI 变革：媲美 GPT-4o，不牺牲性能平衡文本和图像处理难题

科技媒体 marktechpost 昨日（9 月 20 日）发布博文，报道了英伟达（Nvidia）最新发布的论文，介绍了多模态大语言模型系列 NVLM 1.0。多模态大型语言模型（MLLM）多模态大型语言模型（MLLM）所创建的 AI 系统，能够无缝解读文本和视觉数据等，弥合自然语言理解和视觉理解之间的差距，让机器能够连贯地处理从文本文档到图像等各种形式的输入。多模态大型语言模型在图像识别、自然语言处理和计算机视觉等领域拥有广阔应用前景，改进人工智能整合和处理不同数据源的方式，帮助 AI 朝着更复杂的应用方向发展。

9/21/2024 11:53:13 AM

故渊

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态大模型能够处理和理解多种不同类型的数据输入，例如文本、图像。与大型语言模型（LLMs）相比，大语言模型在处理和生成文本数据方面有专长，而多模态大模型能够处理非文本数据，如图像等等。根据多模态权威综合评测平台OpenCompass的数据，Ovis1.6-Gemma2

9/19/2024 10:47:00 AM

新闻助手

华为昇腾 AI 云服务：万亿参数模型训练无中断时长由 2.8 天提升至 40 天

华为云 Marketing 部部长董理斌在第五届深圳国际人工智能展（GAIE）上深入介绍了昇腾 AI 云服务与盘古大模型。与业界平均相比，昇腾 AI 云服务将万亿参数模型的训练无中断时长从 2.8 天提升至 40 天，并将集群故障恢复时间从 60 分钟缩短至 10 分钟。目前昇腾 AI 云服务已适配 100 多个行业主流大模型，为客户提供从开发到应用的全方位云服务支持。▲ 图源“华为云”AI在线获悉，华为云盘古大模型 5.0 目前已在 30 多个行业、400 多个场景中落地，并实现了全系列、多模态、强思维三大升级：

9/9/2024 10:37:08 PM

沛霖（实习）

中国科学院、阿里云发布首个月球专业大模型，撞击坑年代判别准确率超 80%

感谢据阿里云今日消息，在 8 月 29 日的 2024 数博会上，中国科学院地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”。该大模型基于阿里云通义系列模型构建，目前在月球撞击坑年代和形态判别上，准确率已达到 80% 以上。据阿里云介绍，月球专业大模型以视觉、多模态及自然语言等通义系列模型为基模，结合 RAG 检索增强等技术，于阿里云百炼专属版进行微调及训练。目前，月球专业大模型的最佳落地场景是月球撞击坑识别，并且准确率已达到 80% 以上。人类对月球地质演化的研究除了探测返回的样品，主要依靠撞击

8/29/2024 2:18:13 PM

汪淼

云知声推出山海多模态大模型：实时生成文本、音频和图像

云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲ 云知声山海助手微信小程序AI在线获悉，山海多模态大模型有如下特点：实时秒回，自由插话：与现实对话中人类的响应时间相似；支持对话随时打断，用户可在对话中任意插话感知情绪，表达情绪：通过语音文本判断用户情绪，还能捕捉用户语音的语气、节奏和音调等微妙变化，感知对方情绪状态音色自由切换：根据用户的个性化需求，自由切换音色；学习用户的音色、风格，复刻用户声音

8/26/2024 1:56:12 PM

沛霖（实习）

面壁智能开源 MiniCPM-V 2.6 模型：号称端侧 AI 多模态能力对标 GPT-4V，6G 内存可用

面壁智能昨日开源了 MiniCPM-V 2.6 模型，官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。官方称 MiniCPM-V 2.6 模型仅 8B 参数，取得 20B 以下单图、多图、视频理解 3 SOTA 成绩，有以下特点：“三合一最强”端侧多模态：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini多项功能首次上端：实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图

8/7/2024 10:05:21 AM

沛霖（实习）

中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布，腾讯混元居首

感谢据腾讯科技今日报道，中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布，腾讯混元大模型位居国内大模型首位（71.95 分）。腾讯科技方面宣称，该模型准确识别图像元素并生成自然语言描述，全方位理解并洞察细节。此次测评覆盖了 12 个国内外高代表性的多模态理解大模型，腾讯混元模型在多模态基础能力和应用能力中获得 71.95 的分数。AI在线查询得知，8 月榜单中涵盖国内外最具代表性的 12 个多模态理解大模型。腾讯混元大模型在总榜上位居第二，仅次于 GPT-4o。GPT-4o 取得 74.36 分，领跑

8/5/2024 8:19:22 AM

清源

国际首个，我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM

感谢AI在线从上海市第六人民医院官方公众号获悉，上海交通大学医学院附属第六人民医院贾伟平教授和李华婷教授团队与上海交通大学电院计算机系 / 教育部人工智能重点实验室盛斌教授团队，携手清华大学黄天荫教授团队与新加坡国立大学覃宇宗教授团队，通过医工交叉合作研究，构建了全球首个面向糖尿病诊疗的视觉-大语言模型的多模态集成智能系统 DeepDR-LLM，成果于 2024 年 7 月 19 日在 Nature Medicine 发表（题为 Integrated image-based deep learning and la

7/25/2024 4:45:33 PM

清源

商汤绝影行业首发原生多模态大模型车端部署：80 亿参数、每秒 40 Tokens

商汤科技联合创始人、首席科学家王晓刚 17 日宣布，商汤绝影在行业内率先实现了原生多模态大模型的车端部署。车载端侧 8B 模型首包延迟在 300 毫秒以内，推理速度 40 Tokens / 秒，覆盖主流算力平台。商汤绝影为多模态大模型打造计算引擎“HyperPPL”，目前扩展并支持主流车载计算硬件，兼容多种主流操作系统，适配多个车载芯片的部署平台。商汤绝影称 HyperPPL 针对车载多人场景进行优化，使得车内多人并发情况下，车端多模态大模型的模型推理效率相比单人没有明显降低。据AI在线此前报道，商汤绝影此前表示，

7/19/2024 10:44:19 AM

沛霖（实习）

因监管问题，Meta 将不会在欧盟发布新的多模态 AI 模型

据 Axios 报道，Meta 在一份声明中表示，他们即将发布一个多模态的 Llama 模型，但由于监管环境的不确定性，该模型不会在欧盟发布。Meta 表示，这一决定也意味着即使在开放许可下发布，欧盟的客户和公司也无法使用多模态模型，Meta 将向欧盟的客户和公司提供仅支持文本（text only）的 Llama 3 模型。报道称，Meta 的问题不在于《人工智能法案》，而在于如何在遵守《通用数据保护条例》（GDPR）的同时，使用欧盟客户的数据来训练模型。Meta 表示使用当地数据进行训练，对于确保其产品正确反映该

7/18/2024 9:01:21 AM

沛霖（实习）

多模态遥感大模型的探索与实践，蚂蚁集团遥感大模型负责人王剑带来深度解读

7月5日，在世界人工智能大会组委会办公室、上海市徐汇区人民政府指导下，由上海人工智能实验室、AI在线、全球高校人工智能学术联盟主办的 2024 WAIC 云帆奖暨人工智能青年论坛成功举办。论坛汇聚来自斯坦福大学、牛津大学、UCLA、加州大学、苏黎世联邦理工学院、香港大学、清华大学、北京大学、上海交通大学等海内外高校、研究机构及企业的30余位往届及新晋云帆奖得主线下参会，凝聚国际青年AI科学家的智慧，积极探索AI能力边界，为中国AI发展蓝图贡献新生力量。蚂蚁集团遥感大模型负责人王剑作作为2024 WAIC 云帆奖代表

7/12/2024 10:57:00 AM

新闻助手

商汤大语言模型应用 SenseChat 向香港用户免费开放，支持广东话聊天

商汤科技今日宣布，旗下 Sensechat 手机 App 及网页版向香港用户免费开放。该服务此前已在中国大陆推出。Sensechat 基于商汤今年 5 月推出的“商量多模态大模型粤语版”，依托商汤“日日新”语言和多模态能力，以及对粤语及本地文化、热点的理解，用户可以直接用最熟悉的广东话跟它聊天，直接文字或语音输入，问问题、搜东西、生成图片、写文案等。AI在线附示例如下：香港的苹果 iPhone 用户可通过 App Store 下载「Sensechat」iOS 手机 App，使用香港手机号或电子邮件注册，即可免费体验

7/9/2024 3:42:48 PM

汪淼

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型