微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级

近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。 Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。 这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。

近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。

Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。在自动语音识别(ASR)和语音翻译(ST)任务中,Phi-4多模态模型表现尤为突出,成功击败了如 WhisperV3和 SeamlessM4T-v2-Large 等专业语音模型,词错误率更是以6.14% 的成绩位居 Hugging Face OpenASR 排行榜首位。

微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级

在视觉处理方面,Phi-4多模态模型同样表现出色。其在数学和科学推理方面的能力令人印象深刻,能够有效理解文档、图表和执行光学字符识别(OCR)。与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相比,该模型的表现不相上下,甚至更胜一筹。

微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级

另一款新发布的 Phi-4迷你模型则专注于文本处理任务,参数量为3800万。在文本推理、数学计算、编程和指令遵循等方面,Phi-4迷你表现卓越,超越了多款流行的大型语言模型。为了确保新模型的安全性和可靠性,微软邀请了内部与外部的安全专家进行全面测试,并按照微软人工智能红队(AIRT)的标准进行优化。

这两款新模型均可通过 ONNX Runtime 部署到不同设备上,适用于多种低成本和低延迟的应用场景。它们已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目录中上线,供开发者使用。毫无疑问,Phi-4系列的新模型标志着微软在高效 AI 技术上的重大进步,为未来的人工智能应用打开了新的可能性。

相关资讯

iPhone 上本地每秒生成 12 个 tokens,微软发布 phi-3-mini 模型:38 亿参数

微软研究院近日发布技术报告,公布了 Phi-3 系列 AI 模型,共有 mini(38 亿参数)、small(70 亿参数)和 medium(140 亿参数)三个版本。微软表示拥有 38 亿参数的 phi-3-mini 通过 3.3 万亿个 tokens 上训练,其基准跑分性能超出 Mixtral 8x7B 和 GPT-3.5。微软表示 phi-3-mini 模型可以部署在手机等设备上,在 27 亿参数的 Phi-2 模型上,进一步整合了严格过滤的网络数据和合成数据。微软也坦言 phi-3-mini 模型虽然通过优

微软深夜再掀 AI 生产力革命:阿尔特曼登台“自曝”新模型、定制 Copilot

【新智元导读】微软昨夜刚上演了一波 AI PC 革命,今天又全是 Copilot。而最让人意外的,竟是阿尔特曼本人登台预告了下一代模型将会带来新的模态和整体智能。AI 生产力的革命,微软怎会缺席?在今天的开发者大会上,曾经誓要「颠覆」10 亿打工人的 Copilot,依然是全程的主角。▲ 没想到 70 年后,还是要靠微软重新定义软件不仅有 Copilot 加持的全新 AI PC,日常生活助手 Copilot,还有为全世界开发者提供的 AI 工具堆栈。更惊喜的是,Sam Altman 竟然在发布会的最后,被 CTO

微软 Phi-3-vision 基准测试:和 Claude 3-haiku、Gemini 1.0 Pro 相当

微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision,主打“视觉能力”,能够理解图文内容,同时据称可以在移动平台上流畅高效运行。Phi-3-vision 是一款多模态小型语言模型(SLM),主要用于本地 AI 场景,该模型参数量为 42 亿,上下文长度为 128k token,能够为常规视觉推理任务和其他任务提供支持。那么 Phi-3-vision 有多厉害?微软今天发布了新的论文 [PDF],表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pr