多模态

微软发布 Phi-4 多模态与迷你模型，语音视觉文本处理再升级

近日，微软进一步扩展了 Phi-4家族，推出了两款新模型:Phi-4多模态（Phi-4-multimodal）和 Phi-4迷你(Phi-4-mini)，这两款模型的亮相，无疑将为各类 AI 应用提供更加强大的处理能力。 Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型，拥有5600万参数。这款模型在多项基准测试中表现优异，超越了目前市场上的许多竞争对手，例如谷歌的 Gemini2.0系列。

2/27/2025 9:38:00 AM

AI在线

微软 Phi-4 多模态及迷你模型上线，语音视觉文本全能

微软推出Phi-4多模态和Phi-4迷你模型，多模态模型集成语音、视觉和文本处理，表现卓越；迷你模型专注于文本任务，性能优异。两款模型已在多个平台上线，为AI应用带来强大处理能力。#微软#AI技术#多模态模型

2/27/2025 9:04:02 AM

远洋

商汤小浣熊家族全面升级：多模态融合 10秒钟即可复刻网页

2月25日，商汤科技在2025全球开发者先锋大会上宣布其AI生产力工具——商汤小浣熊家族全面升级，进一步强化多模态能力，推动AI应用加速落地，向AI Agent演进。此次升级不仅提升了工具的性能，还让AI回归其最朴素的使命——成为强有力的生产力工具。商汤小浣熊家族的升级涵盖了多个方面。

2/25/2025 11:15:00 AM

AI在线

一文读懂多模态 embeddings

传统上，AI研究被划分为不同的领域：自然语言处理（NLP）、计算机视觉（CV）、机器人学、人机交互（HCI）等。然而，无数实际任务需要整合这些不同的研究领域，例如自动驾驶汽车（CV 机器人学）、AI代理（NLP CV HCI）、个性化学习（NLP HCI）等。尽管这些领域旨在解决不同的问题并处理不同的数据类型，但它们都共享一个基本过程。

2/10/2025 7:10:00 AM

二旺

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

作者｜朱可轩编辑｜陈彩娴春节将近，各家厂商似乎都在争取休假前的最后一博，此时步入 2025 年也才半月有余，大模型玩家们已然卷上了新高度。先是 OpenAI 打响了开年第一“枪”，ChatGPT 上线了新功能“Tasks”，主打提升了任务执行能力，之后国内一众厂商也先后发布了自家成果——月之暗面发布了全新的多模态图片理解模型 moonshot-v1-vision-preview；MiniMax 开源了基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01；生数科技上新了视频大模型 Vidu 2.0；接着，智谱 AI 推出了端到端多模态大模型 GLM-Realtime；面壁智能带来了端侧多模态模型 MiniCPM-o 2.6；DeepSeek 开源了 DeepSeek-R1 推理模型......刚开年，模型更新便多到让人眼花缭乱，当中也不难发现，多模态、推理和端侧依旧是今年各家寻求突破的重点方向。不得不提的是，在这一各厂商密集上新的“黄金节点”，AI 科技评论关注到，阶跃星辰一周内竟一口气批量更新了 6 款模型，全方位涵盖语言、语音、推理、图片理解、视频生成等多类别。

1/22/2025 5:02:00 PM

朱可轩

过年了！Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）昨晚十点，Kimi弹了条推送。大晚上的，他们就这么波澜不惊地发了一个SOTA 模型出来！就是这个 k1.5 多模态思考模型，性能实现有多逆天呢：在 short-CoT 模式下， Kimi k1.5 的多项能力，大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平，领先达到 550%；在 long-CoT 模式下，Kimi k1.5 的数学、代码、多模态推理能力，也达到长思考 SOTA 模型 OpenAI o1 满血版的水平！

1/21/2025 1:15:15 PM

伊风

Kimi 多模态图片理解模型 API 发布，1M tokens 定价 12 元起

Vision 模型具备图像识别能力，能够识别出图像中的复杂细节和细微的差别，无论是食物还是动物，能够区分出相似但又不相同的对象。

1/15/2025 12:24:29 PM

汪淼

【多模态&LLM】POINTS多模态大模型浅谈

NaViT概述NaViT利用序列打包训练，处理任意分辨率和长宽比的输入，在大规模监督和对比图像文本预训练中提高了训练效率，可以用于图像和视频分类、目标检测和语义分割，并在鲁棒性和公平性基准测试中取得了改进的结果。图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结：数据预处理：如上图展示了NaViT在处理任意分辨率的方法，将不同分辨率的图像分割成补丁（patches），然后应用令牌丢弃（token drop）操作，类似于dropout，以加速训练过程。预处理后，将三张图像生成的补丁展平为一个序列，不足的部分用填充（padding）补充。

1/8/2025 8:21:16 AM

余俊晖

智象未来多模态大模型3.0全球首发，创始人兼CEO梅涛演讲实录来了

2024年12月28日，智象未来科技有限公司在安徽省人工智能产业先导区启动仪式中，宣布智象多模态生成大模型3.0与智象多模态理解大模型1.0同时发布。上海电影集团、中国移动咪咕音乐、科大讯飞等企业参加。加拿大工程院外籍院士、智象未来创始人兼CEO梅涛进行现场演讲。

1/2/2025 4:20:00 PM

新闻助手

网页多模态建模思考

1.综述网页本质上是一种超文本，一般由超文本标记语言来定义（例如HTML）。 HTML是一种基础技术，常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面。网页浏览器内核通过解释HTML文件，通过视觉引擎将其渲染成可视化网页。

12/26/2024 1:20:53 AM

百度Geek说

李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在

李飞飞谢赛宁再发新成果：直接把o1式思考拉至下一个level——多模态大语言模型的空间思维！这项研究系统评估了多模态大模型的视觉空间智能，结果发现：当前，即使是最先进的多模态大模型，在空间认知方面与人类相比仍有显著差距，测试中约71%的错误都源于空间推理方面的缺陷，即空间推理能力是当前主要瓶颈。图片更为有趣的是，在这种情况下，思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现，反而会使性能下降。

12/23/2024 12:37:34 PM

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办？像文生图那样有ControlNet即可解决。这就是由360人工智能研究院提出的IAA的核心思路。

12/17/2024 12:08:21 PM

【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节

目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务，然而，纯OCR任务偏向于模型的感知能力，对于文档场景，由于文字密度较高，现有方法往往通过增加图像token的数量来提升性能。这种策略在增加新的语言时，需要重新进行训练，计算开销较大，成本较高。因此，本文再来看看vary和got这两个衔接工作，看看其完整的技术链路。

12/12/2024 12:25:09 AM

余俊晖

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/7/2024 4:59:00 PM

机器之心

Mistral 发布 Pixtral Large 多模态 AI 模型：登顶复杂数学推理，图表 / 文档推理超过 GPT-4o

Mistral AI 公司昨日（11 月 18 日）发布公告，宣布了全新的多模态 AI 模型 Pixtral Large。该模型拥有 1240 亿参数，基于 Mistral Large 2，主要用于处理文本和图片。

11/19/2024 2:57:21 PM

故渊

人工智能的下一个前沿：多模态系统将重塑我们的世界

人工智能的世界正在以惊人的速度发展。多模态人工智能处在这场革命的前沿，这项技术将重新定义我们人类与机器的交互方式。多模态人工智能不仅仅是另一个热词，多模态人工智能是一个正在改变各个行业并有望重塑数字格局的范式转变。

11/14/2024 6:00:00 AM

至顶网

实时音视频领域拓荒者的十年

2015 年，声网将WebRTC大会引入中国，筹办了第一届面向国内开发者、业务人员和用户的RTC（实时视音频）大会。在大会开始的前夕，现任声网市场VP、RTC大会主策人彭小欢失眠了，她非常担心明天会不会有人来。一晃十年过去了，当年的RTC大会早已升级为RTE（实时互联网）大会， 10 月 25 日RTE 2024也如期而至，但早已不用担心是否有人光顾，现场可谓是座无虚席。

10/31/2024 10:31:00 AM

张进

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

真实世界的视觉信息是流动的，而在处理流动性的视觉信息上，端侧视频理解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入能力。与云端相比，端侧离用户更近，链路更短，效率更高，同时具有更强的信息安全优势。今日，面壁正式发布了 MiniCPM-V 2.6，在端侧性能实现全面对标 GPT-4V——据介绍，MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V，三项能力均取得 20B 以下 SOTA 成绩，单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

8/7/2024 9:42:00 AM

朱可轩

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本人形机器人 xAI 搜索大语言模型 Copilot 字节跳动神器推荐 LLaMA 具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练