一、环境准备
1. 硬件要求
-
CPU: 最低 i5-11400F(推荐多核处理器)
-
内存: 16GB 起步
-
显卡: NVIDIA RTX 3060 或更高(需支持 CUDA 加速)
2. 软件依赖
# 安装 Python 3.12
winget install Python.Python.3.12
二、安装本体程序
1. 克隆仓库与虚拟环境
git clone https://github.com/microsoft/OmniParser.git
cd OmniParser
conda create -n "omni_agent" python==3.12 -y
conda activate omni_agent
pip install -r requirements.txt
2. GPU 加速支持
pip uninstall torch torchvision torchaudio -y
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
三、模型权重与 OCR 配置
1. 下载预训练模型
huggingface-cli login
huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights
mv weights/icon_caption weights/icon_caption_florence
2. 安装 Tesseract OCR
# PowerShell 命令
choco install tesseract --params '"/AdditionalLanguages:chi_sim"'
四、验证与运行
1. 启动 Gradio 界面
python gradio_demo.py
2. 代码调用示例
from omniparser import OmniParser
agent = OmniParser()
result = agent.parse_file("screenshot.png", parser_type="ImageParser", lang="chi_sim+eng")
print(result)
五、常见问题
GPU 加速失败验证
import torch
print(torch.cuda.is_available()) # 应输出 True