微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能。Windows Agent Arena 基准框架微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 浏览器,Visual Studio Code 等编程应用,记事本、时钟和画图等预装 Windows 应用,VLC 等主流

科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能

Windows Agent Arena 基准框架

微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 浏览器,Visual Studio Code 等编程应用,记事本、时钟和画图等预装 Windows 应用,VLC 等主流媒体播放器。

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

AI在线翻译部分微软官方博文内容如下:

我们采用 OSWorld 框架,构建了横跨代表性领域的 150 多项多样化 Windows 任务,这些任务要求代理具备规划、屏幕理解和工具使用的能力。

我们的基准测试同样具有可扩展性,能够在 Azure 上无缝并行化,从而在最短 20 分钟内完成全面评估。

Navi

微软研究院也打造了自己的多模态 Agents Navi,并在 Windows Agent Arena 基准测试中对其进行了试验。

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

它被要求根据特定文本提示执行任务,例如:“你能将我正在浏览的网页转换成 PDF 文件并放置在我的主屏幕上吗,就是那个桌面?”结果显示,Navi 的平均任务成功率为 19.5%,相较于人类 74.5% 的表现评分,这一成绩仍显偏低。

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

AI在线附上参考地址

Windows Agent Arena

给TA打赏
共{{data.count}}人
人已打赏
应用

大厂AI设计实战!飞猪如何用AI打造100种不可思议的旅行?

2024-9-15 8:10:53

应用

DeepMind又损大将,AI总监Nando de Freitas离职,曾领导开发Gato、Genie

2024-9-15 13:43:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索