DeepSeek 等秒变操控电脑 AI 智能体，微软开源工具 OmniParser V2.0 发布

2025-02-17 09:16

微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具，此前搭配 GPT-4V 可显著增强识别能力。

感谢微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具，此前搭配 GPT-4V 可显著增强识别能力。

2 月 12 日，微软在官网发布了 OmniParser 最新版本 V2.0，可将 OpenAI（4o / o1 / o3-mini）、DeepSeek（R1）、Qwen（2.5VL）和 Anthropic（Sonnet）等模型，变成可以操控计算机的 AI 智能体。

与 V1 版本相比，OmniParser V2 使用了更大规模的交互元素检测数据和图标功能标题数据进行了训练，在检测较小的可交互 UI 元素时准确率更高、推理速度更快，延迟降低了 60%。

在高分辨率 Agent 基准测试 ScreenSpot Pro 中，V2+GPT-4o 的准确率达到了 39.6%，而 GPT-4o 原始准确率只有 0.8%。

DeepSeek 等秒变操控电脑 AI 智能体，微软开源工具 OmniParser V2.0 发布

为了能够更快地实验不同的智能体设置，微软还开源了 OmniTool，这是一个集成了智能体所需一系列基本工具的 Docker 化 Windows 系统，涵盖屏幕理解、定位、动作规划和执行等功能，也是将大模型变成智能体的关键工具。

AI在线附开源地址：

https://github.com/microsoft/OmniParser

微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

微软近日发布了 OmniParser V2.0，这是一个旨在将用户界面（UI）截图转换为结构化格式的全新解析工具。 OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能，帮助用户更好地理解和操作屏幕上的信息。该工具的训练数据集包括一个可交互图标检测数据集，该数据集从热门网页中精心挑选并自动注释，以突出可点击和可操作的区域。

2/17/2025 10:28:00 AM

AI在线

控制电脑手机的智能体人人都能造，微软开源OmniParser

大模型控制计算机果真就是未来方向？最近这几天，让大模型具备控制计算机（包括电脑和手机）的相关研究和应用如雨后春笋般不断涌现。先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet，之后荣耀 MagicOS 9.0 来了个全局智能体，再然后，昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM，同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC。

10/26/2024 3:10:00 PM

机器之心

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

10/29/2024 10:01:35 AM

故渊

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

DeepSeek 等秒变操控电脑 AI 智能体，微软开源工具 OmniParser V2.0 发布

相关资讯

微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

控制电脑手机的智能体人人都能造，微软开源OmniParser

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑