AI在线 AI在线

OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系

作者:远洋
2025-04-10 07:52
OpenAI宣布启动先锋计划,旨在改善AI模型评分方式,创建更符合实际应用场景的评估体系。该计划将专注于法律、金融、医疗等特定领域,并与初创公司合作设计定制化基准测试。#AI技术# #OpenAI#

OpenAI 宣布启动 OpenAI 先锋计划(OpenAI Pioneers Program),致力于改善当前 AI 模型的评分方式。该公司认为现有的 AI 基准测试存在缺陷,而该计划将专注于创建能够“设定优秀标准”的评估体系。

OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系

随着 AI 技术在各行业的应用加速普及,深入了解并提升其在现实世界中的影响力变得至关重要。OpenAI 在其博客中指出,创建特定领域的评估指标是更好地反映实际应用场景、帮助团队在实际且高风险环境中评估模型性能的有效途径之一。

近期,众包基准测试平台 LM Arena 与 Meta 的 Maverick 模型引发的争议凸显了一个问题:如今,人们很难明确区分不同 AI 模型之间的差异。许多广泛使用的 AI 基准测试侧重于衡量模型在一些晦涩任务上的表现,例如解决博士级别的数学难题。还有一些基准测试容易被操纵,或者与大多数人的偏好不一致。

据AI在线了解,通过先锋计划,OpenAI 希望为法律、金融、保险、医疗保健和会计等特定领域创建基准测试。该实验室表示,在未来几个月内,将与“多家公司”合作设计定制化的基准测试,并最终将这些基准测试公开,同时提供“行业特定”的评估。

OpenAI 在博客中提到,先锋计划的第一批参与者将专注于初创公司,这些公司将帮助奠定该计划的基础。他们将从众多初创公司中挑选出少数几家,这些公司都在从事高价值、应用广泛的用例,AI 在其中可以产生实际影响。

参与该计划的公司还将有机会与 OpenAI 团队合作,通过强化微调技术改进模型。这种技术可以针对一组特定任务优化模型,从而提升其在特定领域的表现。

然而,一个关键问题是 AI 社区是否会接受由 OpenAI 资助创建的基准测试。此前,OpenAI 曾在财务上支持过基准测试工作,并设计了自己的评估方法。但与客户合作发布 AI 测试可能会被视为在道德上存在争议。

相关标签:

相关资讯

发烧友!一国外软件工程师买下OGOpenAI.com域名并重定向至DeepSeek

最近,一位软件工程师安纳奈・阿罗拉(Ananay Arora)以 “不到一顿 Chipotle 餐” 的价格购买了域名 OGOpenAI.com,并将其重定向至中国的 AI 实验室 DeepSeek。 这个决定引发了许多人的关注,因为 DeepSeek 近期在开源 AI 领域中取得了显著进展,成为了热议的话题。 DeepSeek 发布的 AI 模型在技术上与早期的 OpenAI 模型相似,能够离线使用,并且任何具备相应硬件的开发者都可以免费使用。
1/24/2025 10:31:00 AM
AI在线

人形机器人新秀 Figure 宣布独立研发,终止与OpenAI的合作关系

近日,硅谷人形机器人公司 Figure 通过社交媒体宣布,正式终止与人工智能巨头 OpenAI 的合作。 这一决定令业内人士颇感意外,尤其是 Figure 曾在去年与 OpenAI 达成协议,共同开发新一代面向人形机器人的 AI 模型。 Figure 创始人布雷特・阿德科克(Brett Adcock)表示,公司在端到端机器人 AI 技术上取得了 “重大突破”,因此决定将重心转向自主研发。
2/5/2025 9:45:00 AM
AI在线

最贵!OpenAI重磅推出升级版AI模型o1-pro,生成价格是o1的十倍

人工智能研究公司OpenAI近日宣布,已在其开发者API中推出一款名为o1-pro的全新“推理”AI模型。 据OpenAI透露,o1-pro相较于其现有模型o1,投入了更多的计算资源,旨在提供“始终如一的更优响应”。 然而,这款高性能模型目前仅面向部分特定的开发者开放——具体而言,是那些在OpenAI API服务上至少消费过5美元的用户。
3/20/2025 9:22:00 AM
AI在线