Arena Elo 基准测试:google Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

google在 I / O 2024 开发者大会上,宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens,那么 Gemini 1.5 Pro 性能究竟有多刁悍?根据 LMSYS Org 公布的总排行榜对比,通过 Arena Elo 体系的测量,Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都靠近 GPT-4o。上述两款模型在中文方面的体现也极度优秀,Gemini 1.5 Pro 在“hard prompts”类别中也极度靠近。IT之家注:Aren

google在 I / O 2024 开发者大会上,宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens,那么 Gemini 1.5 Pro 性能究竟有多刁悍?

Arena Elo 基准测试:google Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

根据 LMSYS Org 公布的总排行榜对比,通过 Arena Elo 体系的测量,Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都靠近 GPT-4o。

Arena Elo 基准测试:google Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

上述两款模型在中文方面的体现也极度优秀,Gemini 1.5 Pro 在“hard prompts”类别中也极度靠近。

Arena Elo 基准测试:google Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试:google Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试:google Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试:google Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

IT之家注:Arena Elo 体系通过让用户匿名投票决定哪个模型在随机对战中体现更好来衡量大型语言模型(LLMs)的技能,并像国际象棋中的 Elo 体系一样更新用户的评分,整体而言更加客观。

给TA打赏
共{{data.count}}人
人已打赏
AI

欧盟宣布建立人工智能办公室,对 AI 举行禁锢

2024-5-30 9:12:17

AI

220 亿参数,Mistral AI 发布编程大模型 Codestral:支持 Python 等 80 多种言语

2024-5-30 12:28:48

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索