LMArena正式成立公司，致力于提供中立的AI评估平台

2025-04-18 11:01

近日，备受关注的人工智能评估平台 LMArena 宣布将成立一家新公司，名为 Arena Intelligence Inc.，以便为未来的项目改进提供更强大的资源。 LMArena 的创始团队在博客中表示，新公司的成立将帮助他们在保持中立的同时，增强大型语言模型（LLM）测试平台的功能，致力于为 AI 用户提供一个不受任何企业影响的公平评估环境。 LMArena 于2023年由加州大学伯克利分校的研究人员创建，迅速发展成为业内最受认可的 AI 基准测试平台之一。

近日，备受关注的人工智能评估平台 LMArena 宣布将成立一家新公司，名为 Arena Intelligence Inc.，以便为未来的项目改进提供更强大的资源。LMArena 的创始团队在博客中表示，新公司的成立将帮助他们在保持中立的同时，增强大型语言模型（LLM）测试平台的功能，致力于为 AI 用户提供一个不受任何企业影响的公平评估环境。

LMArena 于2023年由加州大学伯克利分校的研究人员创建，迅速发展成为业内最受认可的 AI 基准测试平台之一。该平台与谷歌、OpenAI 及 Anthropic 等多家知名公司建立了合作关系，成为 AI 社区评估模型的重要工具。最初，LMArena 的资金主要来自捐赠和资助，包括来自风险投资公司 Andreessen Horowitz、谷歌的 Kaggle 数据科学平台及 Together Computer Inc. 的支持。

在博客中，LMArena 团队指出，部分成员最近毕业于 UC Berkeley，希望能继续参与这个项目。他们希望能为 AI 社区提供更好的服务，同时坚守 LMArena 的初衷，保持平台的中立性和开放性。他们强调:“我们的排行榜不会偏向任何提供者，而是会真实反映社区的偏好，这是我们设计的初衷。保持中立和赢得社区信任将始终是我们成功的关键。”

成立新公司后，创始团队表示，他们已经开始重建 LMArena 平台的核心功能，目前新版本已在 beta 测试中，欢迎社区反馈。他们已经着手修复多个 bug，并增强了用户体验，增加了登录、聊天记录和个人排行榜等新功能。此外，新公司还将支持更多开放研究，关注 WebDev Arena、RepoChat Arena 和 Search Arena 等新评估项目。

尽管创始团队没有详细透露盈利计划，但他们表示尚未完全敲定商业模式，也没有获得任何资金支持。不过，他们对未来的盈利前景充满信心，认为 AI 公司迫切需要中立且可靠的评估服务，以加速模型开发和提升实际性能。

xAI 新模型 Grok 3 逻辑推理能力获 OpenAI 创始人点赞

埃隆・马斯克的人工智能公司 xAI 于本周一发布了其最新的语言模型 Grok3，标志着该公司在人工智能领域的重要进展。据马斯克介绍，新模型所需的计算能力是其前身的十倍，使用了位于孟菲斯的数据中心，配备了约20万块 GPU。 Grok3系列模型推出了多种变体，其中包括一个精简版，旨在提高速度但牺牲部分准确性。

2/19/2025 10:19:00 AM

AI在线

Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭

4/7/2025 10:01:20 AM

AI在线

Meta 新模型 Llama-4-Maverick 排名骤降，引发刷榜质疑

近日，Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名，这一剧烈波动引发了开发者们的广泛质疑，认为 Meta 可能通过提交特供版本以刷榜。事情的起因要追溯到4月6日，Meta 发布了其最新的大模型 Llama4，包括 Scout、Maverick 和 Behemoth 三个版本。其中，Llama-4-Maverick 在初期的评估中表现亮眼，位列 LMArena 排行榜的第二名，仅次于 Gemini2.5Pro。

4/14/2025 6:01:07 PM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

LMArena正式成立公司，致力于提供中立的AI评估平台

相关资讯

xAI 新模型 Grok 3 逻辑推理能力获 OpenAI 创始人点赞

Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭

Meta 新模型 Llama-4-Maverick 排名骤降，引发刷榜质疑