AI在线 AI在线

ZeroBench

这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

眼下最顶尖的一批 LMM 是哪些? 你可能想到了无所不能的 GPT-4o、Gemini 2 Flash 等等……但这些大模型,遇到一个名为「ZeroBench」的视觉基准之后,纷纷败下阵来。 20 多个知名模型,首次作答成绩如下,全部是零分:震惊之后,我们仔细研究了这个 ZeroBench 基准里的问题。
2/18/2025 12:34:00 PM
机器之心
  • 1