微软 Phi-4 多模态及迷你模型上线，语音视觉文本全能

2025-02-27 09:04

微软推出Phi-4多模态和Phi-4迷你模型，多模态模型集成语音、视觉和文本处理，表现卓越；迷你模型专注于文本任务，性能优异。两款模型已在多个平台上线，为AI应用带来强大处理能力。#微软#AI技术#多模态模型

感谢微软于 2024 年 12 月发布了 Phi-4，这是一款在同类产品中表现卓越的小型语言模型（SLM）。今日，微软进一步扩展 Phi-4 家族，推出了两款全新模型：Phi-4 多模态（Phi-4-multimodal）和 Phi-4 迷你（Phi-4-mini）。

Phi-4 多模态模型是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型，参数量达 56 亿。在多项基准测试中，Phi-4 多模态的表现优于其他现有的先进全模态模型，例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。

微软 Phi-4 多模态及迷你模型上线，语音视觉文本全能

在语音相关任务中，Phi-4 多模态在自动语音识别（ASR）和语音翻译（ST）方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业语音模型。微软表示，该模型在 Hugging Face OpenASR 排行榜上以 6.14% 的词错误率位居榜首。

微软 Phi-4 多模态及迷你模型上线，语音视觉文本全能

在视觉相关任务中，Phi-4 多模态在数学和科学推理方面表现出色。在文档理解、图表理解、光学字符识别（OCR）和视觉科学推理等常见多模态能力方面，该模型与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美甚至超越。

AI在线注意到，Phi-4 迷你模型则专注于文本任务，参数量为 38 亿。其在文本推理、数学计算、编程、指令遵循和函数调用等任务中表现优异，超越了多款流行的大型语言模型。

为确保新模型的安全性和可靠性，微软邀请了内部和外部安全专家进行测试，并采用了微软人工智能红队（AIRT）制定的策略。经过进一步优化后，Phi-4 迷你和 Phi-4 多模态模型均可通过 ONNX Runtime 部署到设备端，实现跨平台使用，适用于低成本和低延迟场景。

目前，Phi-4 多模态和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目录中上线，供开发者使用。

Phi-4 系列新模型的推出，标志着高效 AI 技术的重大进步，为各类人工智能应用带来了强大的多模态和文本处理能力。

微软推出 14B 参数小语言模型 Phi-4：专攻数学等领域复杂推理

微软今天宣布推出14B参数“最先进”小型语言模型（SLM）Phi-4，除了传统的语言处理外，它还擅长数学等领域的复杂推理。Phi-4是Phi系列小型语言模型的最新成员，官方表示其展示了微软继续探索SLM边界的可能性。

12/13/2024 12:42:39 PM

清源

微软发布 Phi-4 多模态与迷你模型，语音视觉文本处理再升级

近日，微软进一步扩展了 Phi-4家族，推出了两款新模型:Phi-4多模态（Phi-4-multimodal）和 Phi-4迷你(Phi-4-mini)，这两款模型的亮相，无疑将为各类 AI 应用提供更加强大的处理能力。 Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型，拥有5600万参数。这款模型在多项基准测试中表现优异，超越了目前市场上的许多竞争对手，例如谷歌的 Gemini2.0系列。

2/27/2025 9:38:00 AM

AI在线

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

作者｜朱可轩编辑｜陈彩娴春节将近，各家厂商似乎都在争取休假前的最后一博，此时步入 2025 年也才半月有余，大模型玩家们已然卷上了新高度。先是 OpenAI 打响了开年第一“枪”，ChatGPT 上线了新功能“Tasks”，主打提升了任务执行能力，之后国内一众厂商也先后发布了自家成果——月之暗面发布了全新的多模态图片理解模型 moonshot-v1-vision-preview；MiniMax 开源了基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01；生数科技上新了视频大模型 Vidu 2.0；接着，智谱 AI 推出了端到端多模态大模型 GLM-Realtime；面壁智能带来了端侧多模态模型 MiniCPM-o 2.6；DeepSeek 开源了 DeepSeek-R1 推理模型......刚开年，模型更新便多到让人眼花缭乱，当中也不难发现，多模态、推理和端侧依旧是今年各家寻求突破的重点方向。不得不提的是，在这一各厂商密集上新的“黄金节点”，AI 科技评论关注到，阶跃星辰一周内竟一口气批量更新了 6 款模型，全方位涵盖语言、语音、推理、图片理解、视频生成等多类别。

1/22/2025 5:02:00 PM

朱可轩

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用全日程揭晓！ICLR 2025论文分享会我们北京见「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本人形机器人 xAI 搜索大语言模型 Copilot 字节跳动神器推荐 LLaMA 具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

微软 Phi-4 多模态及迷你模型上线，语音视觉文本全能

相关资讯

微软推出 14B 参数小语言模型 Phi-4：专攻数学等领域复杂推理

微软发布 Phi-4 多模态与迷你模型，语音视觉文本处理再升级

阶跃星辰再拿多模态榜首，全方位升级发布六款模型