微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能。Windows Agent Arena 基准框架微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 浏览器,Visual Studio Code 等编程应用,记事本、时钟和画图等预装 Windows 应用,VLC 等主流

科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能

Windows Agent Arena 基准框架

微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 浏览器,Visual Studio Code 等编程应用,记事本、时钟和画图等预装 Windows 应用,VLC 等主流媒体播放器。

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

AI在线翻译部分微软官方博文内容如下:

我们采用 OSWorld 框架,构建了横跨代表性领域的 150 多项多样化 Windows 任务,这些任务要求代理具备规划、屏幕理解和工具使用的能力。

我们的基准测试同样具有可扩展性,能够在 Azure 上无缝并行化,从而在最短 20 分钟内完成全面评估。

Navi

微软研究院也打造了自己的多模态 Agents Navi,并在 Windows Agent Arena 基准测试中对其进行了试验。

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

它被要求根据特定文本提示执行任务,例如:“你能将我正在浏览的网页转换成 PDF 文件并放置在我的主屏幕上吗,就是那个桌面?”结果显示,Navi 的平均任务成功率为 19.5%,相较于人类 74.5% 的表现评分,这一成绩仍显偏低。

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

AI在线附上参考地址

Windows Agent Arena

相关资讯

Windows 竞技场:面向下一代AI Agent的测试集

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected] 和 ChatGPT 这样的 AI 助手已经成为了百万用户的日常工具, 它们可以帮我们完成各种任务:写代码开发程序、 回答问题、 甚至研究创新食谱。那么,随着大语言模型的发展

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

谷歌在 I / O 2024 开发者大会上,宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens,那么 Gemini 1.5 Pro 性能究竟有多强悍?根据 LMSYS Org 公布的总排行榜对比,通过 Arena Elo 系统的测量,Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。上述两款模型在中文方面的表现也非常优秀,Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。IT之家注:Aren

贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM

用来运行 Llama 3 405B 优势明显。最近,Meta 开源了最新的 405B 模型(Llama 3.1 405B),把开源模型的性能拉到了新高度。由于模型参数量很大,很多开发者都关心一个问题:怎么提高模型的推理速度?时隔才两天,LMSYS Org 团队就出手了,推出了全新的 SGLang Runtime v0.2。这是一个用于 LLM 和 VLM 的通用服务引擎。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM。在某些情况下(运行 Llama 系列