LMArena

LMArena正式成立公司，致力于提供中立的AI评估平台

近日，备受关注的人工智能评估平台 LMArena 宣布将成立一家新公司，名为 Arena Intelligence Inc.，以便为未来的项目改进提供更强大的资源。 LMArena 的创始团队在博客中表示，新公司的成立将帮助他们在保持中立的同时，增强大型语言模型（LLM）测试平台的功能，致力于为 AI 用户提供一个不受任何企业影响的公平评估环境。 LMArena 于2023年由加州大学伯克利分校的研究人员创建，迅速发展成为业内最受认可的 AI 基准测试平台之一。

4/18/2025 11:01:57 AM

AI在线

Perplexity 竞技场夺冠，Sonar挑战谷歌Gemini的搜索霸主地位

在最新的 LM Arena Search Arena 评估中，Perplexity 公司的 Sonar-Reasoning-Pro-High 模型表现优异，与谷歌的 Gem-2.5-Pro-Grounding 模型并列第一，直接对决的胜率达到53%。这一消息无疑给搜索引擎领域带来了新的震动，显示了 Perplexity 在 AI 搜索技术上的强大实力。 Sonar 系列模型在此次评估中包揽了前四名，这不仅彰显了其深度搜索能力，也显示了其在严谨引证方面的出色表现。

4/16/2025 4:01:05 PM

AI在线

Meta 新模型 Llama-4-Maverick 排名骤降，引发刷榜质疑

近日，Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名，这一剧烈波动引发了开发者们的广泛质疑，认为 Meta 可能通过提交特供版本以刷榜。事情的起因要追溯到4月6日，Meta 发布了其最新的大模型 Llama4，包括 Scout、Maverick 和 Behemoth 三个版本。其中，Llama-4-Maverick 在初期的评估中表现亮眼，位列 LMArena 排行榜的第二名，仅次于 Gemini2.5Pro。

4/14/2025 6:01:07 PM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型