AI在线 AI在线

AI 基准测试平台 Chatbot Arena 成立一家新公司

作者:AI在线
2025-04-18 12:02
在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。 根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。

在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。

QQ_1744948775002.png

Chatbot Arena 成立于2023年,主要由加州大学伯克利分校的研究人员主导。该平台为大型 AI 实验室提供了一个共享的测试环境,许多知名企业,如 OpenAI、谷歌和 Anthropic 等,均与 Chatbot Arena 合作,让其旗舰模型在这个社区中进行评估和测试。这个平台的兴起,吸引了众多关注,成为了 AI 行业的重要组成部分。

在此之前,Chatbot Arena 的运营资金主要来源于各种资助和捐款,包括谷歌的 Kaggle 数据科学平台、Andreessen Horowitz 和 Together AI 等机构。如今,随着 Arena Intelligence Inc. 的成立,尽管该组织尚未披露新公司的潜在投资者,也未决定未来的商业模式,但他们表示,将继续为 AI 提供一个中立的测试平台,确保不受外部利益的影响。

通过新公司的成立,Chatbot Arena 团队希望能够提升测试平台的能力,为 AI 行业提供更优质的服务。这一进展将进一步推动 AI 技术的发展,并为研究人员、开发者以及相关企业提供更为可靠的基准测试工具。

划重点:

🌟 Chatbot Arena 成立新公司 Arena Intelligence Inc.,旨在获取更多资源以改善平台功能。  

🤝 该平台由 UC Berkeley 研究人员主导,与 OpenAI、谷歌和 Anthropic 等公司合作,提供 AI 模型评测。  

💼 运营资金来源于各种资助和捐款,未来的商业模式尚未确定,但将继续保持中立性。  

相关标签:

相关资讯

贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM

用来运行 Llama 3 405B 优势明显。最近,Meta 开源了最新的 405B 模型(Llama 3.1 405B),把开源模型的性能拉到了新高度。由于模型参数量很大,很多开发者都关心一个问题:怎么提高模型的推理速度?时隔才两天,LMSYS Org 团队就出手了,推出了全新的 SGLang Runtime v0.2。这是一个用于 LLM 和 VLM 的通用服务引擎。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM。在某些情况下(运行 Llama 系列
7/27/2024 11:08:00 PM
机器之心

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能。Windows Agent Arena 基准框架微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 浏览器,Visual Studio Code 等编程应用,记事本、时钟和画图等预装 Windows 应用,VLC 等主流
9/15/2024 10:04:37 AM
故渊

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

谷歌在 I / O 2024 开发者大会上,宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens,那么 Gemini 1.5 Pro 性能究竟有多强悍?根据 LMSYS Org 公布的总排行榜对比,通过 Arena Elo 系统的测量,Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。上述两款模型在中文方面的表现也非常优秀,Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。IT之家注:Aren
5/30/2024 10:32:50 AM
故渊