Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

2024-05-30 10:32

谷歌在 I / O 2024 开发者大会上，宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens，那么 Gemini 1.5 Pro 性能究竟有多强悍？根据 LMSYS Org 公布的总排行榜对比，通过 Arena Elo 系统的测量，Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。上述两款模型在中文方面的表现也非常优秀，Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。IT之家注：Aren

谷歌在 I / O 2024 开发者大会上，宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens，那么 Gemini 1.5 Pro 性能究竟有多强悍？

根据 LMSYS Org 公布的总排行榜对比，通过 Arena Elo 系统的测量，Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

上述两款模型在中文方面的表现也非常优秀，Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

IT之家注：Arena Elo 系统通过让用户匿名投票决定哪个模型在随机对战中表现更好来衡量大型语言模型（LLMs）的技能，并像国际象棋中的 Elo 系统一样更新用户的评分，整体而言更加客观。

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

太卷了，大模型迭代开始以「周」为单位了吗？一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的胜利十分振奋人心。

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

用来运行 Llama 3 405B 优势明显。最近，Meta 开源了最新的 405B 模型（Llama 3.1 405B），把开源模型的性能拉到了新高度。由于模型参数量很大，很多开发者都关心一个问题：怎么提高模型的推理速度？时隔才两天，LMSYS Org 团队就出手了，推出了全新的 SGLang Runtime v0.2。这是一个用于 LLM 和 VLM 的通用服务引擎。在运行 Llama 3.1 405B 时，它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM。在某些情况下（运行 Llama 系列

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

科技媒体 NeoWin 昨日（9 月 14 日）发布博文，报道称微软官方推出了 Windows Agent Arena 基准框架，用于评估生成式 AI Agents 在 Windows PC 上的性能。Windows Agent Arena 基准框架微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度，其中包括 Microsoft Edge 和谷歌 Chrome 浏览器，Visual Studio Code 等编程应用，记事本、时钟和画图等预装 Windows 应用，VLC 等主流

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手从DeepSeek-V3发布谈大模型的技术突破与未来机遇别再将LLM当成数据库了 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机

标签云

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

相关资讯

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能