微软发布 OmniParser V2.0:把屏幕截图转化成LLM可处理的结构化格式

微软近日发布了 OmniParser V2.0,这是一个旨在将用户界面(UI)截图转换为结构化格式的全新解析工具。 OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能,帮助用户更好地理解和操作屏幕上的信息。 该工具的训练数据集包括一个可交互图标检测数据集,该数据集从热门网页中精心挑选并自动注释,以突出可点击和可操作的区域。

微软近日发布了 OmniParser V2.0,这是一个旨在将用户界面(UI)截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能,帮助用户更好地理解和操作屏幕上的信息。

该工具的训练数据集包括一个可交互图标检测数据集,该数据集从热门网页中精心挑选并自动注释,以突出可点击和可操作的区域。此外,还有一个图标描述数据集,旨在将每个 UI 元素与其对应的功能相结合。

QQ_1739759294065.png

在 V2.0版本中,OmniParser 进行了显著改进,更新后的数据集更大且更干净,图标的描述与定位效果提高了60%。根据测试,该版本的平均延迟也大幅降低,在 A100设备上约为0.6秒 / 帧,而在单个4090显卡上为0.8秒 / 帧。性能方面,OmniParser 在 ScreenSpot Pro 测试中获得了39.6的平均准确率。

用户只需使用 OmniTool 这一工具即可控制 Windows11虚拟机,OmniTool 与 OmniParser 结合使用,用户还可以选择适合的视觉模型。当前 OmniTool 支持多种大型语言模型,如 OpenAI 的多个版本、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic Computer Use,方便用户进行各种操作。

OmniParser 旨在将非结构化的截图图像转换为结构化的元素列表,包括可交互区域的位置和图标的潜在功能描述。使用该工具的用户需具备基本的分析能力和批判性思维,因为虽然 OmniParser 能够提取信息,最终的判断仍需用户自行做出。此工具可用于多种类型的截图,包括 PC 和手机界面,适应性强。

不过,OmniParser 的局限性也值得注意。该工具并不检测输入中的有害内容,因此用户应当谨慎提供输入,确保不含有害信息。同时,尽管 OmniParser 仅将截图转化为文本,它仍可用于构建可操作的图形用户界面代理。开发者在使用 OmniParser 构建和运营代理时,需遵循安全标准和道德规范。

模型:https://huggingface.co/microsoft/OmniParser-v2.0

项目:https://github.com/microsoft/OmniParser/tree/master

划重点:  

🔍 OmniParser V2.0是一款智能解析工具,能将 UI 截图转换为结构化信息,提升用户操作体验。  

⚡ 新版本改进显著,平均延迟减少至0.6秒 / 帧,准确率达39.6%。  

🔐 使用时需注意输入内容的安全性,开发者应遵循安全标准与伦理规范。  

相关资讯

DeepSeek 等秒变操控电脑 AI 智能体,微软开源工具 OmniParser V2.0 发布

微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具,此前搭配 GPT-4V 可显著增强识别能力。

控制电脑手机的智能体人人都能造,微软开源OmniParser

大模型控制计算机果真就是未来方向? 最近这几天,让大模型具备控制计算机(包括电脑和手机)的相关研究和应用如雨后春笋般不断涌现。 先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet,之后荣耀 MagicOS 9.0 来了个全局智能体,再然后,昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM,同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC。

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 / 电脑

科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。 项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。 而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。