微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。

而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

项目简介

微软为了克服这些障碍，推出了 OmniParser，是一种纯视觉基础的工具，旨在填补当前屏幕解析技术中的空白。

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

该工具并不需要依赖额外的上下文数据，可以理解更复杂的图形用户界面（GUI），是智能 GUI 自动化领域的一项令人兴奋的进展。

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等，不需要 HTML 标签或视图层次结构等显式基础数据，能够在桌面、移动设备和网页等上跨平台工作，提高用户界面的解析准确性。

OmniParser 除了识别屏幕上的元素，还能将这些元素转换成结构化的数据。

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如，在 ScreenSpot 数据集中，其准确率提高了 73%，显著超越依赖 HTML 解析的模型。

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

这一设计不仅能生成类似文档对象模型（DOM）的结构化表示，还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。

同时，GPT-4V 在使用 OmniParser 输出后，图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明，OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。

OmniParser 的发布不仅拓宽了智能体的应用范围，也为开发者提供了一个强大的工具，助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser，普及这一前沿技术，将进一步推动多模态 AI 的发展，特别是在无障碍、自动化和智能用户辅助等领域。

AI在线附上参考地址

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured Elements
Microsoft’s New vision based GUI agent — OmniParser
OmniParser for Pure Vision Based GUI Agent

{{userData.name}}已认证

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

项目背景

项目简介

测试表现

消息称 Meta 正开发自家 AI 搜索引擎：追赶 OpenAI，降低对微软、谷歌的依赖

华为云董理斌：解难题做难事，AI重塑千行万业

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！