OpenAI 曾秘密尝试 GPT-4o，力压群雄登顶谈天机器人竞技场排行榜

OpenAI 员工 William Fedus 周一在社交平台 X 证实，近期在 LMSYS 谈天机器人竞技场 (Chatbot Arena) 上表现优异的神秘谈天机器人“gpt-chatbot”，正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露，GPT-4o 在尝试中登顶了竞技场排行榜，取得了有史以来的最高分。“GPT-4o 是我们最先进的尖端模型，”Fedus 在推特上写道，“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的称号尝试该模型的一个版本。”谈天机器

“GPT-4o 是我们最先进的尖端模型，”Fedus 在推特上写道，“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的称号尝试该模型的一个版本。”

OpenAI 曾秘密尝试 GPT-4o，力压群雄登顶谈天机器人竞技场排行榜

谈天机器人竞技场是一个网站，访客可以同时与两个随机的 AI 语言模型对话，却不知道哪个是哪个，然后选择提供更好回复的模型。

从今年 4 月份开始，OpenAI 在竞技场尝试了多个版本的 GPT-4o，该模型最初以“gpt2-chatbot” 的称号出现，然后变成了“im-a-good-gpt2-chatbot”，最后是“im-also-a-good-gpt2-chatbot”。

自 GPT-4o 今日发布以来，多方消息人士透露，该模型以巨大优势登顶了 LMSYS 的内部排行榜，逾越了之前排名最高的模型 Claude 3 Opus 和 GPT-4 Turbo。

lmsys.org 的官方账号分享了一张图表，并写道：“‘gpt2-chatbot’系列模型刚刚飙升至榜首，以显著的优势（约 50 Elo）逾越了所有其他模型，它已经成为竞技场中最强大的模型。这是一张内部截图，公开版本的‘gpt-4o’现已进入竞技场，并很快将出现在公开排行榜上！”

OpenAI 曾秘密尝试 GPT-4o，力压群雄登顶谈天机器人竞技场排行榜

截至IT之家发稿时，“im-also-a-good-gpt2-chatbot” 的 Elo 分数为 1309，领先于 GPT-4-Turbo-2023-04-09 的 1253 分和 Claude 3 Opus 的 1246 分。在三个“gpt2-chatbot” 出现并搅局之前，Claude 3 和 GPT-4 Turbo 一直在排行榜上争夺冠军。

{{userData.name}}已认证

OpenAI 曾秘密尝试 GPT-4o，力压群雄登顶谈天机器人竞技场排行榜

AI 谈天机器人大战升温：google Gemini 预告片展现惊艳语音视频交互能力

google Gemini 家族添 Flash 新成员：平衡规模和能力、支持多模态，单次可分析 3 万行代码

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

消息称 AI 创企边塞科技被蚂蚁集团收购：公司会独立运营，投资人已退出

登Science封面！基因组基础模型Evo重磅发布，AI解码分子、DNA、RNA和蛋白质