微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

2025-02-17 10:28

微软近日发布了 OmniParser V2.0，这是一个旨在将用户界面（UI）截图转换为结构化格式的全新解析工具。 OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能，帮助用户更好地理解和操作屏幕上的信息。该工具的训练数据集包括一个可交互图标检测数据集，该数据集从热门网页中精心挑选并自动注释，以突出可点击和可操作的区域。

微软近日发布了 OmniParser V2.0，这是一个旨在将用户界面（UI）截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能，帮助用户更好地理解和操作屏幕上的信息。

该工具的训练数据集包括一个可交互图标检测数据集，该数据集从热门网页中精心挑选并自动注释，以突出可点击和可操作的区域。此外，还有一个图标描述数据集，旨在将每个 UI 元素与其对应的功能相结合。

在 V2.0版本中，OmniParser 进行了显著改进，更新后的数据集更大且更干净，图标的描述与定位效果提高了60%。根据测试，该版本的平均延迟也大幅降低，在 A100设备上约为0.6秒 / 帧，而在单个4090显卡上为0.8秒 / 帧。性能方面，OmniParser 在 ScreenSpot Pro 测试中获得了39.6的平均准确率。

用户只需使用 OmniTool 这一工具即可控制 Windows11虚拟机，OmniTool 与 OmniParser 结合使用，用户还可以选择适合的视觉模型。当前 OmniTool 支持多种大型语言模型，如 OpenAI 的多个版本、DeepSeek（R1）、Qwen(2.5VL)和 Anthropic Computer Use，方便用户进行各种操作。

OmniParser 旨在将非结构化的截图图像转换为结构化的元素列表，包括可交互区域的位置和图标的潜在功能描述。使用该工具的用户需具备基本的分析能力和批判性思维，因为虽然 OmniParser 能够提取信息，最终的判断仍需用户自行做出。此工具可用于多种类型的截图，包括 PC 和手机界面，适应性强。

不过，OmniParser 的局限性也值得注意。该工具并不检测输入中的有害内容，因此用户应当谨慎提供输入，确保不含有害信息。同时，尽管 OmniParser 仅将截图转化为文本，它仍可用于构建可操作的图形用户界面代理。开发者在使用 OmniParser 构建和运营代理时，需遵循安全标准和道德规范。

模型:https://huggingface.co/microsoft/OmniParser-v2.0

项目:https://github.com/microsoft/OmniParser/tree/master

划重点:
🔍 OmniParser V2.0是一款智能解析工具，能将 UI 截图转换为结构化信息，提升用户操作体验。
⚡ 新版本改进显著，平均延迟减少至0.6秒 / 帧，准确率达39.6%。
🔐 使用时需注意输入内容的安全性，开发者应遵循安全标准与伦理规范。

DeepSeek 等秒变操控电脑 AI 智能体，微软开源工具 OmniParser V2.0 发布

微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具，此前搭配 GPT-4V 可显著增强识别能力。

2/17/2025 9:16:40 AM

汪淼

控制电脑手机的智能体人人都能造，微软开源OmniParser

大模型控制计算机果真就是未来方向？最近这几天，让大模型具备控制计算机（包括电脑和手机）的相关研究和应用如雨后春笋般不断涌现。先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet，之后荣耀 MagicOS 9.0 来了个全局智能体，再然后，昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM，同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC。

10/26/2024 3:10:00 PM

机器之心

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

10/29/2024 10:01:35 AM

故渊

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

相关资讯

DeepSeek 等秒变操控电脑 AI 智能体，微软开源工具 OmniParser V2.0 发布

控制电脑手机的智能体人人都能造，微软开源OmniParser

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑