微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

应用
9月15日
编辑

故渊

科技媒体 NeoWin 昨日（9 月 14 日）发布博文，报道称微软官方推出了 Windows Agent Arena 基准框架，用于评估生成式 AI Agents 在 Windows PC 上的性能。Windows Agent Arena 基准框架微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度，其中包括 Microsoft Edge 和谷歌 Chrome 浏览器，Visual Studio Code 等编程应用，记事本、时钟和画图等预装 Windows 应用，VLC 等主流

科技媒体 NeoWin 昨日（9 月 14 日）发布博文，报道称微软官方推出了 Windows Agent Arena 基准框架，用于评估生成式 AI Agents 在 Windows PC 上的性能。

Windows Agent Arena 基准框架

微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度，其中包括 Microsoft Edge 和谷歌 Chrome 浏览器，Visual Studio Code 等编程应用，记事本、时钟和画图等预装 Windows 应用，VLC 等主流媒体播放器。

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

AI在线翻译部分微软官方博文内容如下：

我们采用 OSWorld 框架，构建了横跨代表性领域的 150 多项多样化 Windows 任务，这些任务要求代理具备规划、屏幕理解和工具使用的能力。

我们的基准测试同样具有可扩展性，能够在 Azure 上无缝并行化，从而在最短 20 分钟内完成全面评估。

Navi

微软研究院也打造了自己的多模态 Agents Navi，并在 Windows Agent Arena 基准测试中对其进行了试验。

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

它被要求根据特定文本提示执行任务，例如：“你能将我正在浏览的网页转换成 PDF 文件并放置在我的主屏幕上吗，就是那个桌面？”结果显示，Navi 的平均任务成功率为 19.5%，相较于人类 74.5% 的表现评分，这一成绩仍显偏低。

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

AI在线附上参考地址

Windows Agent Arena

给TA打赏

共{{data.count}}人

人已打赏

Agent AI Arena Windows 基准

大厂AI设计实战！飞猪如何用AI打造100种不可思议的旅行？

2024-9-15 8:10:53

DeepMind又损大将，AI总监Nando de Freitas离职，曾领导开发Gato、Genie

2024-9-15 13:43:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP2

关于LLM-as-a-judge范式，终于有综述讲明白了
12月3日
TOP3

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等
12月3日
李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”
12月3日
ChatGPT遇到这些人名开始自闭，OpenAI回应了
12月4日
平安人寿ChatBI：大模型智能化报表的深度实践
12月4日
字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片
12月5日
李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则
12月3日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部