AI在线 AI在线

多模态大模型

上海人工智能实验室推出升级版多模态大模型 “书生・万象 3.0”

在人工智能迅速发展的今天,上海人工智能实验室再次引领潮流,推出了全新的多模态大模型 “书生・万象3.0”。 这一升级版本不仅在技术上进行了全面提升,还在多模态预训练和后训练方法的加持下,展现出了更强大的基础能力和应用潜力。 “书生・万象3.0” 具备同时处理文本和多种多模态输入的能力,这使得它在多个应用场景中都能表现出色。
4/17/2025 2:01:15 PM
AI在线

多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

第一作者为哈尔滨工业大学(深圳)博士生王霄和华为大模型研究员佀庆一,该工作完成于王霄在华为实习期间。 王霄的研究方向为多模态视频理解和生成,佀庆一的研究方向为多模态理解、LLM post-training和高效推理。 随着视频内容的重要性日益提升,如何处理理解长视频成为多模态大模型面临的关键挑战。
4/4/2025 1:39:00 PM
机器之心

百度发布文心4.5与X1大模型,价格大幅降低引关注

近日,百度正式推出其最新的文心大模型4.5及文心大模型 X1,用户可在文心一言官网免费体验这两款先进的模型。 文心4.5是百度首个原生多模态大模型,专注于多模态理解和逻辑推理,其性能在多项基准测试中超越了 GPT-4.5,API 调用价格仅为后者的1%。 这一显著的价格优势,无疑会吸引更多开发者和企业的关注。
3/16/2025 11:35:00 AM
AI在线

阿里巴巴推出AI旗舰应用“新夸克” 全面升级为“AI超级框”

3月13日,阿里巴巴正式推出其AI旗舰应用——新夸克。 这款全新升级的夸克基于阿里通义领先的推理及多模态大模型,打造了一个无边界的“AI超级框”,为用户带来全新的AI体验。 新夸克的创新之处在于将AI对话、深度思考、深度搜索、深度研究和深度执行等功能整合到一个极简的“AI超级框”中,一站式满足用户多样化的需求。
3/13/2025 11:29:00 AM
AI在线

​谷歌开源新一代多模态模型 Gemma-3:性能卓越、成本降低 10 倍

谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)在一场发布会上宣布,谷歌开源了最新的多模态大模型 Gemma-3,该模型以低成本、高性能为特点,备受关注。 Gemma-3提供了四种不同参数规模的选项,分别为10亿、40亿、120亿和270亿参数。 令人惊讶的是,最大参数的270亿模型只需一张 H100显卡即可高效推理,而同类模型往往需要十倍的算力,这使 Gemma-3成为目前算力要求最低的高性能模型之一。
3/13/2025 8:52:00 AM
AI在线

华为昇腾携手阶跃星辰推出开源多模态模型,进军 AI 新领域

近日,魔乐社区(Modelers)正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。 这两款模型分别用于视频生成和语音交互,旨在为开发者和企业用户提供更强大的 AI 工具。 Step-Video 模型的全名为 Step-Video-T2V,这是一款参数量高达300亿的全球最大开源视频生成模型。
3/10/2025 4:04:00 PM
AI在线

效果最佳!阶跃星辰开源Step-Video-T2V 视频生成模型

今日,阶跃星辰与吉利汽车集团宣布,联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。 其中,阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。 该模型拥有300亿参数量,能够直接生成204帧、540P分辨率的高质量视频,确保生成内容信息密度高、一致性强。
2/18/2025 8:55:00 AM
AI在线

当虹科技的BlackEye大模型与DeepSeek深度融合

近日,当虹科技宣布其 BlackEye 多模态视听大模型成功完成与 DeepSeek-R1和 DeepSeek Janus Pro 的深度融合。 这一里程碑式的进展标志着当虹科技在视听传媒、工业与卫星、车载智能座舱等多个行业的应用潜力将得到进一步释放。 随着科技的迅猛发展,多模态大模型正逐渐成为推动各行业创新的重要力量。
2/5/2025 3:25:00 PM
AI在线

几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的

试想一个场景,职场中接到一个香港客户的单子,但是在交付的过程中耽搁了时间,现在要进行线上沟通解释,那么你面对的情况大致是这样的:如果不对这段音频进行标注,可能大部分人会认为这一粤语、英语混用的片段是真实发生或从TVB电视剧里截出来的。 但其实,这是由 AI 完成的配音,背后所使用的工具是海螺语音。 今年 1 月,继 MiniMax 发布并开源基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01 后,再次推出了升级的语音大模型 T2A-01 系列,搭载于海螺 AI 之上,开辟海螺语音板块。
1/22/2025 2:07:00 PM
王悦

决策过程是魔法还是科学?首个多模态大模型的可解释性综述全面深度剖析

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/15/2024 10:12:00 PM
机器之心

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]
9/21/2024 8:31:00 PM
机器之心

最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

最近一段时间,生成式 AI 技术兴起,众多造车新势力都在探索视觉语言模型与世界模型的新方法,端到端的智能驾驶新技术似乎成为了共同的研究方向。上个月,理想汽车发布了端到端 VLM 视觉语言模型 世界模型的第三代自动驾驶技术架构。此架构已推送千人内测,将智能驾驶行为拟人化,提高了 AI 的信息处理效率,增强了对复杂路况的理解和应对能力。李想曾在公开的分享中表示,面对大部分算法难以识别和处理的罕见驾驶环境,VLM(Visual Language Model)即视觉语言模型可以系统地提升自动驾驶的能力,这种方法从理
8/6/2024 6:18:00 PM
李泽南

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来,团队着眼于目前人工智能发展的瓶颈问题,探索原创性人工智能理论和关键技术,在智能算法的对抗安全理论和方法研究中处于国际领先水平,
7/24/2024 2:22:00 PM
机器之心

华为云董理斌:做难事解难题,盘古大模型以“智”重塑千行万业

7 月 5 日,2024 世界人工智能大会暨人工智能全球治理高级别会议 —“盘古大模型重塑千行万业” 分论坛于上海世博中心举办。在 “盘古大模型做难事解难题,以‘智’重塑千行万业” 主题演讲中,华为云 Marketing 部部长董理斌向出席会议的百余名人工智能领域顶尖专家、业界领军人物分享了盘古大模型 5.0 的全新能力,以及盘古大模型深入高铁、钢铁、工业设计、建筑设计、气象等领域,重塑千行万业的应用进展。他表示,盘古大模型 5.0 通过更多的模态和更强的思维能力,重塑云服务,为开发者、客户和伙伴提供更强大、更丰富
7/5/2024 3:08:00 PM
新闻助手

国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT-4o

2024 年 7 月 5 日,上海 ——2024 世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)战略合作伙伴商汤科技召开 “大爱无疆・向新力” 人工智能论坛,发布国内首个所见即所得模型 “日日新 5o”,交互体验对标 GPT-4o,实现全新 AI 交互模式。通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,国内首个所见即所得模型 “日日新 5o” 带来一种全新的 AI 交互模式,即实时的流式多模态交互。现场也为大家展示了这种创新交互模式 ——工作人员刚开始仅是和 “日日新 5o” 打个招
7/5/2024 3:02:00 PM
新闻助手

联汇科技赵天成:从 CMU 天才少年,到多模态创业先行者

CMU LTI (卡内基梅隆大学语言技术研究所)每年在全球范围内只有十个左右的博士录取名额,其中的华人学者凤毛麟角。 本次以 OpenAI 发布 ChatGPT 为标志掀起的人工智能浪潮,CMU 也在各大主流 AI 公司中扮演了技术核心。 这群 CMU 中的华人学者,在中西争夺人工智能高地的竞争中,归国人才显得尤其弥足珍贵。
5/29/2024 10:36:00 AM
王悦

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更大步伐。 元象今日发布多模态大模型 XVERSE-V ,支持任意宽高比图像输入,在主流评测中效果领先。 该模型全开源,无条件免费商用 ,持续推动海量中小企业、研究者和开发者的研发和应用创新。
4/28/2024 12:09:00 PM
我在思考中

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

编译 | 赖文昕编辑 | 陈彩娴大模型的诞生,让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发,OpenAI、Anthropic、Mistral等创业之星的升起更是证明了在新技术的影响下,大厂并不存在绝对的优势。 不久前,苹果叫停了启动十多年且投入数十亿美元的自动驾驶电动汽车项目,美国总部裁员了600多人,另有近2000名员工转到AI部门。 然而,在目前市场上的主流智能手机品牌中,苹果几乎是唯一一家尚未正式推出大模型的厂商。
4/10/2024 2:31:00 PM
赖文昕