微软开源创新框架：可将DeepSeek，变成AI Agent

2025-02-17 10:36

微软在官网发布了视觉Agent解析框架OmniParser最新版本V2.0，可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型，变成可在计算机使用的AI Agent。与V1版本相比，V2在检测较小的可交互UI元素时准确率更高、推理速度更快，延迟降低了60%。在高分辨率Agent基准测试ScreenSpot Pro中，V2 GPT-4o的准确率达到了惊人的39.6%，而GPT-4o原始准确率只有0.8%，整体提升非常大。

微软在官网发布了视觉Agent解析框架OmniParser最新版本V2.0，可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型，变成可在计算机使用的AI Agent。

与V1版本相比，V2在检测较小的可交互UI元素时准确率更高、推理速度更快，延迟降低了60%。在高分辨率Agent基准测试ScreenSpot Pro中，V2+GPT-4o的准确率达到了惊人的39.6%，而GPT-4o原始准确率只有0.8%，整体提升非常大。

除了V2，微软还开源了omnitool，这是一个基于Docker的 Windows 系统，涵盖屏幕理解、定位、动作规划和执行等功能，也是将大模型变成Agent的关键工具。

开源地址：https://huggingface.co/microsoft/OmniParser-v2.0

Github：https://github.com/microsoft/OmniParser/

https://github.com/microsoft/OmniParser/tree/master/omnitool

OmniParser V2简单介绍

目前，将大模型变成Agent的关键难点在于，需要能够可靠地识别用户界面中的可交互图标，同时必须理解截图中各种元素的语义，并准确将预期动作与屏幕上的对应区域关联起来。

而V2通过将用户界面从像素空间“标记化”解析为结构化元素，使得大模型能够理解和操作这些元素。这有点类似于自然语言处理中的分词操作，但针对的是视觉信息。通过这种方式，大模型可以在解析后的可交互元素集合上进行基于检索的下一步动作预测。

微软开源创新框架：可将DeepSeek，变成AI Agent

案例演示

例如，当一个大模型需要完成一个复杂的网页操作任务时， V2可以帮助它识别网页中的按钮、输入框等元素，并理解这些元素的功能如登录按钮、搜索框等。

大模型就可以更准确地预测下一步需要执行的动作，比如点击登录按钮，或在搜索框中输入关键词。

简单来说，你可以把V2看成是大模型的“眼睛”，可以让其更好地理解和操作复杂的用户界面。

OmniTool是一个集成化工具，支持开箱即用，可以将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型变成Agent，一共由V2、OmniBox和Gradio三大块组成。

V2上面已经介绍过了，OmniBox则是一个基于 Docker 的轻量级Windows 11虚拟机。与传统的Windows虚拟机相比，OmniBox占用的磁盘空间减少了50%，同时提供了相同的计算机使用 API。

用户可以在更小的资源消耗下，快速搭建和运行 GUI 自动化任务的测试环境。这对于硬件资源有限的开发者来说非常方便。

Gradio UI提供了一个交互界面，可以帮助开发者轻松地与V2和大模型进行交互，快速测试和验证自动化任务的效果。

Gradio UI的使用非常简单，只需要在本地机器上启动OmniBox和 Gradio服务器，然后通过浏览器访问Gradio UI提供的界面即可。

OmniParser核心架构

OmniParser的核心思想是将用户界面的视觉信息，转化为易于理解和操作的结构化数据。不过这个过程比较复杂，需要多个模块协作才能完成。

首先，OmniParser需要从用户界面截图中识别出所有可交互的元素，例如，按钮、图标和输入框等。这些元素是用户与界面交互的基础，因此准确地检测它们是至关重要的第一步。

接下来，OmniParser不仅要识别这些元素的位置，还要理解它们的功能和语义。例如，一个带有三个点的图标可能表示“更多选项”，而一个放大镜图标则可能代表“搜索”。这种对功能的深入理解，才能使得大模型能够更准确地预测用户可能需要执行的操作。

为了实现这些目标，OmniParser采用了多阶段的解析流程。在第一阶段，可交互区域检测模块利用深度学习技术，从用户界面截图中识别出所有可能的交互点。这一模块的训练数据集，包含了来自流行网页的67,000张独特截图，每张截图都标注了从DOM树中提取的可交互区域的边界框。

通过使用模型对这些数据进行训练，OmniParser能够以极高的准确率识别出屏幕上的可交互元素，并为每个元素分配一个唯一的标识符。

但仅仅识别出可交互元素的位置是不够的。在复杂的用户界面中，一个按钮的形状和颜色可能与其他按钮相似，其功能却截然不同。所以，OmniParser内置了功能语义模块。

该模块的目标是为每个检测到的图标生成一个描述其功能的文本。微软开发了一个包含7,185个图标描述对的数据集，并使用BLIP-v2模型对其进行微调，能够更准确地描述常见应用图标的语义信息。

例如，它不再仅仅描述一个图标为“带有三个点的圆形图标”，而是能够理解并生成“用于访问更多选项的图标”这样的描述。

OmniParser的第三个重要模块是结构化表示与动作生成模块。这一模块将前两个模块的输出整合在一起，形成一个结构化的、类似DOM的UI表示。不仅包含了叠加了边界框和唯一ID的截图，还包含了每个图标的语义描述。

这可以帮助DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型更轻松地理解屏幕内容，并专注于动作预测。例如，当任务是“点击设置按钮”时，OmniParser不仅提供了设置按钮的边界框和ID，还提供了其功能描述，颗显著提高了模型的准确性和鲁棒性。

微软开源多模态AI基础模型！无需额外微调轻松拿捏网页、机器人

微软研究院官宣开源多模态AI——Magma模型。首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。该模型近期已被计算机视觉顶会CVPR接收，只要给定一个目标描述，Magma就能制定计划、执行行动，无论是在数字界面中还是物理世界里，都能展现出灵活而高效的交互能力。

3/11/2025 9:35:00 AM

量子位

仅需0.4GB，参数只有0和±1！微软开源首个原生1 bit模型，CPU轻松跑

大模型轻量化终于又有好玩的了。就在最近，微软亚研院开源了第一款参数量达到20亿，并且还是原生1bit精度的LLM——BitNet b1.58 2B4T。论文地址：，其实都在模型名字里了：1.

4/21/2025 8:30:00 AM

新智元

微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同规模全精度开源模型相当

微软以小搏大，发布首个开源2B参数规模“原生1bit”LLM——BitNet b1.58 2B4T，单CPU就能跑，性能与同规模全精度开源模型相当。它采用三进制{-1, 0, 1}存储权重，相较于传统的16位浮点数可大幅降低显存需求。只需0.4GB内存即可运行。

4/21/2025 6:43:31 PM

量子位

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验 Figma 推 AI 革命：开发智能应用制作器与网站创建工具扣子空间Coze Space正式开启内测支持 MCP 扩展集成腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本神器推荐具身智能 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉训练 2024 AGI

顶部

微软开源创新框架：可将DeepSeek，变成AI Agent

OmniParser V2简单介绍

案例演示

OmniParser核心架构

相关资讯

微软开源多模态AI基础模型！无需额外微调轻松拿捏网页、机器人

仅需0.4GB，参数只有0和±1！微软开源首个原生1 bit模型，CPU轻松跑

微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同规模全精度开源模型相当