微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

作者：故渊

2024-05-28 08:45

微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision，主打“视觉能力”，能够理解图文内容，同时据称可以在移动平台上流畅高效运行。Phi-3-vision 是一款多模态小型语言模型（SLM），主要用于本地 AI 场景，该模型参数量为 42 亿，上下文长度为 128k token，能够为常规视觉推理任务和其他任务提供支持。那么 Phi-3-vision 有多厉害？微软今天发布了新的论文 [PDF]，表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pr

微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision，主打“视觉能力”，能够理解图文内容，同时据称可以在移动平台上流畅高效运行。

Phi-3-vision 是一款多模态小型语言模型（SLM），主要用于本地 AI 场景，该模型参数量为 42 亿，上下文长度为 128k token，能够为常规视觉推理任务和其他任务提供支持。

那么 Phi-3-vision 有多厉害？微软今天发布了新的论文 [PDF]，表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pro 等其他模型不相上下。

微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

微软在论文中对比了 ScienceQA、MathVista 和 ChartQA 等模型，Phi-3-vision 的参数虽然不多，但性能非常优秀。

IT之家此前报道，微软提供了 Phi-3-vision 相较于字节跳动 Llama3-Llava-Next（8B）、微软研究院和威斯康星大学、哥伦比亚大学合作的 LlaVA-1.6（7B）、阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品模型的比较图表，其中显示 Phi-3-vision 模型在多个项目上表现优异。

微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

目前微软已经将该模型上传至 Hugging Face，感兴趣的小伙伴们可以访问项目地址：点此进入。

微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

相关资讯

iPhone 上本地每秒生成 12 个 tokens，微软发布 phi-3-mini 模型：38 亿参数

微软颠覆生产力：Copilot推自定义版，AI PC原生支持PyTorch，奥特曼预告新模型

大模型已过时，小模型SLM才是未来？苹果正在研究这个