多模态大模型

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

第一作者为哈尔滨工业大学（深圳）博士生王霄和华为大模型研究员佀庆一，该工作完成于王霄在华为实习期间。王霄的研究方向为多模态视频理解和生成，佀庆一的研究方向为多模态理解、LLM post-training和高效推理。随着视频内容的重要性日益提升，如何处理理解长视频成为多模态大模型面临的关键挑战。

4/4/2025 1:39:00 PM

机器之心

百度发布文心4.5与X1大模型，价格大幅降低引关注

近日，百度正式推出其最新的文心大模型4.5及文心大模型 X1，用户可在文心一言官网免费体验这两款先进的模型。文心4.5是百度首个原生多模态大模型，专注于多模态理解和逻辑推理，其性能在多项基准测试中超越了 GPT-4.5，API 调用价格仅为后者的1%。这一显著的价格优势，无疑会吸引更多开发者和企业的关注。

3/16/2025 11:35:00 AM

AI在线

阿里巴巴推出AI旗舰应用“新夸克” 全面升级为“AI超级框”

3月13日，阿里巴巴正式推出其AI旗舰应用——新夸克。这款全新升级的夸克基于阿里通义领先的推理及多模态大模型，打造了一个无边界的“AI超级框”，为用户带来全新的AI体验。新夸克的创新之处在于将AI对话、深度思考、深度搜索、深度研究和深度执行等功能整合到一个极简的“AI超级框”中，一站式满足用户多样化的需求。

3/13/2025 11:29:00 AM

AI在线

谷歌开源新一代多模态模型 Gemma-3：性能卓越、成本降低 10 倍

谷歌 CEO 桑达尔・皮查伊（Sundar Pichai）在一场发布会上宣布，谷歌开源了最新的多模态大模型 Gemma-3，该模型以低成本、高性能为特点，备受关注。 Gemma-3提供了四种不同参数规模的选项，分别为10亿、40亿、120亿和270亿参数。令人惊讶的是，最大参数的270亿模型只需一张 H100显卡即可高效推理，而同类模型往往需要十倍的算力，这使 Gemma-3成为目前算力要求最低的高性能模型之一。

3/13/2025 8:52:00 AM

AI在线

华为昇腾携手阶跃星辰推出开源多模态模型，进军 AI 新领域

近日，魔乐社区（Modelers）正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。这两款模型分别用于视频生成和语音交互，旨在为开发者和企业用户提供更强大的 AI 工具。 Step-Video 模型的全名为 Step-Video-T2V，这是一款参数量高达300亿的全球最大开源视频生成模型。

3/10/2025 4:04:00 PM

AI在线

效果最佳！阶跃星辰开源Step-Video-T2V 视频生成模型

今日，阶跃星辰与吉利汽车集团宣布，联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。其中，阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。该模型拥有300亿参数量，能够直接生成204帧、540P分辨率的高质量视频，确保生成内容信息密度高、一致性强。

2/18/2025 8:55:00 AM

AI在线

当虹科技的BlackEye大模型与DeepSeek深度融合

近日，当虹科技宣布其 BlackEye 多模态视听大模型成功完成与 DeepSeek-R1和 DeepSeek Janus Pro 的深度融合。这一里程碑式的进展标志着当虹科技在视听传媒、工业与卫星、车载智能座舱等多个行业的应用潜力将得到进一步释放。随着科技的迅猛发展，多模态大模型正逐渐成为推动各行业创新的重要力量。

2/5/2025 3:25:00 PM

AI在线

几十个测试后，发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的

试想一个场景，职场中接到一个香港客户的单子，但是在交付的过程中耽搁了时间，现在要进行线上沟通解释，那么你面对的情况大致是这样的：如果不对这段音频进行标注，可能大部分人会认为这一粤语、英语混用的片段是真实发生或从TVB电视剧里截出来的。但其实，这是由 AI 完成的配音，背后所使用的工具是海螺语音。今年 1 月，继 MiniMax 发布并开源基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01 后，再次推出了升级的语音大模型 T2A-01 系列，搭载于海螺 AI 之上，开辟海螺语音板块。

1/22/2025 2:07:00 PM

王悦

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/15/2024 10:12:00 PM

机器之心

首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

9/21/2024 8:31:00 PM

机器之心

最晚明年上半年落地L3：理想端到端自动驾驶，性能大幅提升

最近一段时间，生成式 AI 技术兴起，众多造车新势力都在探索视觉语言模型与世界模型的新方法，端到端的智能驾驶新技术似乎成为了共同的研究方向。上个月，理想汽车发布了端到端 VLM 视觉语言模型世界模型的第三代自动驾驶技术架构。此架构已推送千人内测，将智能驾驶行为拟人化，提高了 AI 的信息处理效率，增强了对复杂路况的理解和应对能力。李想曾在公开的分享中表示，面对大部分算法难以识别和处理的罕见驾驶环境，VLM（Visual Language Model）即视觉语言模型可以系统地提升自动驾驶的能力，这种方法从理

8/6/2024 6:18:00 PM

李泽南

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来，团队着眼于目前人工智能发展的瓶颈问题，探索原创性人工智能理论和关键技术，在智能算法的对抗安全理论和方法研究中处于国际领先水平，

7/24/2024 2:22:00 PM

机器之心

华为云董理斌：做难事解难题，盘古大模型以“智”重塑千行万业

7 月 5 日，2024 世界人工智能大会暨人工智能全球治理高级别会议 —“盘古大模型重塑千行万业” 分论坛于上海世博中心举办。在 “盘古大模型做难事解难题，以‘智’重塑千行万业” 主题演讲中，华为云 Marketing 部部长董理斌向出席会议的百余名人工智能领域顶尖专家、业界领军人物分享了盘古大模型 5.0 的全新能力，以及盘古大模型深入高铁、钢铁、工业设计、建筑设计、气象等领域，重塑千行万业的应用进展。他表示，盘古大模型 5.0 通过更多的模态和更强的思维能力，重塑云服务，为开发者、客户和伙伴提供更强大、更丰富

7/5/2024 3:08:00 PM

新闻助手

国内首个！商汤科技发布“日日新5o”，实时多模态流式交互对标GPT-4o

2024 年 7 月 5 日，上海 ——2024 世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）战略合作伙伴商汤科技召开 “大爱无疆・向新力” 人工智能论坛，发布国内首个所见即所得模型 “日日新 5o”，交互体验对标 GPT-4o，实现全新 AI 交互模式。通过整合跨模态信息，基于声音、文本、图像和视频等多种形式，国内首个所见即所得模型 “日日新 5o” 带来一种全新的 AI 交互模式，即实时的流式多模态交互。现场也为大家展示了这种创新交互模式 ——工作人员刚开始仅是和 “日日新 5o” 打个招

7/5/2024 3:02:00 PM

新闻助手

联汇科技赵天成：从 CMU 天才少年，到多模态创业先行者

CMU LTI （卡内基梅隆大学语言技术研究所）每年在全球范围内只有十个左右的博士录取名额，其中的华人学者凤毛麟角。本次以 OpenAI 发布 ChatGPT 为标志掀起的人工智能浪潮，CMU 也在各大主流 AI 公司中扮演了技术核心。这群 CMU 中的华人学者，在中西争夺人工智能高地的竞争中，归国人才显得尤其弥足珍贵。

5/29/2024 10:36:00 AM

王悦

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

人类获取的信息83%来自视觉，图文多模态大模型能感知更丰富和精确的真实世界信息，构建更全面的认知智能，从而向AGI（通用人工智能）迈出更大步伐。元象今日发布多模态大模型 XVERSE-V ，支持任意宽高比图像输入，在主流评测中效果领先。该模型全开源，无条件免费商用，持续推动海量中小企业、研究者和开发者的研发和应用创新。

4/28/2024 12:09:00 PM

我在思考中

苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

编译 | 赖文昕编辑 | 陈彩娴大模型的诞生，让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发，OpenAI、Anthropic、Mistral等创业之星的升起更是证明了在新技术的影响下，大厂并不存在绝对的优势。不久前，苹果叫停了启动十多年且投入数十亿美元的自动驾驶电动汽车项目，美国总部裁员了600多人，另有近2000名员工转到AI部门。然而，在目前市场上的主流智能手机品牌中，苹果几乎是唯一一家尚未正式推出大模型的厂商。

4/10/2024 2:31:00 PM

赖文昕

亚马逊云科技展示Claude 3大模型能力，生成式AI落地正在加速

上周日，亚马逊云科技宣布 Mistral AI 的 Mistral Large 模型在Amazon Bedrock上正式可用。随着知名 AI 初创公司 Mistral AI、Anthropic 的前沿的大语言模型（LLM）陆续登陆 Amazon Bedrock，人们在构建生成式 AI 应用程序时，已经有了一系列先进模型的选择。

4/8/2024 7:47:00 PM

李泽南

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

多模态大模型

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

百度发布文心4.5与X1大模型，价格大幅降低引关注

阿里巴巴推出AI旗舰应用“新夸克” 全面升级为“AI超级框”

​谷歌开源新一代多模态模型 Gemma-3：性能卓越、成本降低 10 倍

华为昇腾携手阶跃星辰推出开源多模态模型，进军 AI 新领域

效果最佳！阶跃星辰开源Step-Video-T2V 视频生成模型

当虹科技的BlackEye大模型与DeepSeek深度融合

几十个测试后，发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理

最晚明年上半年落地L3：理想端到端自动驾驶，性能大幅提升

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？

华为云董理斌：做难事解难题，盘古大模型以“智”重塑千行万业

国内首个！商汤科技发布“日日新5o”，实时多模态流式交互对标GPT-4o

联汇科技赵天成：从 CMU 天才少年，到多模态创业先行者

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

亚马逊云科技展示Claude 3大模型能力，生成式AI落地正在加速

谷歌开源新一代多模态模型 Gemma-3：性能卓越、成本降低 10 倍