OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

一天前,OpenAI 官方 X 账户的一条推文将 AI 社区的期待值拉满了。 这家世界头部 AI 公司宣布将在未来的 12 天进行 12 场直播,发布一些「大大小小的新东西」。 这是 OpenAI 准备的圣诞礼物。

一天前,OpenAI 官方 X 账户的一条推文将 AI 社区的期待值拉满了。这家世界头部 AI 公司宣布将在未来的 12 天进行 12 场直播,发布一些「大大小小的新东西」。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

这是 OpenAI 准备的圣诞礼物。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

至于这些「大大小小的新东西」究竟是什么,各路网友都纷纷给出了自己的预测,大致总结一下主题包括 Sora、完全体 o1、更长的记忆能力、实时视觉能力、Canvas 集成、高级语音模式、Computer Use、智能体甚至 AI 硬件设备等。但究竟如何,还得等着 OpenAI 自己来揭示。

现在,OpenAI 的第一场直播来了!

总结来说,两件事:期待已久的 o1 完全体(Full Version)、200 刀一个月的 ChatGPT Pro。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

OpenAI 著名研究科学家 Noam Brown 发帖表示,o1 完全体不仅能数出「strawberry」里有几个「r」(此前的模型经常在这一问题上栽跟头),还能更进一步,写出「一篇不使用字母『e』的关于草莓的三段短文」(GPT-4o 也尝试了这个任务,但第一个词就失败了)。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

整场直播时间很短,大概 15 分钟,参与者包括 CEO Sam Altman、研究科学家 Hyung Won Chung 和 Max 以及思维链提出者 Jason Wei。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

视频:https://www.youtube.com/watch?v=iBfQTnA2n2s

o1 完全体

在今年 9 月份,OpenAI 发布 o1-preview 版本时,就曾对 o1 的技术思路进行了介绍:o1 是使用大规模强化学习训练并使用思维链进行推理的系列模型。

今天正式发布了 o1 完全体,也放出了新的 o1 System Card:https://cdn.openai.com/o1-system-card-20241205.pdf

整体而言,o1 完全体是一款更擅长编程、数学和写作的更快且更强大的推理模型,并且现在也增加了对图像上传的支持,这让 o1 可以使用视觉数据来生成更详细和更有用的响应。

OpenAI 表示,OpenAI o1 的思维更加简洁,因此响应时间比 o1-preview 更快。测试表明,o1 的性能也优于 o1-preview,将困难的现实问题的重大错误减少了 34%。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

除了完全体 o1,还有个更轻便的 o1-mini 版本,在编码方面特别高效。

如果你愿意花更多钱,升级到 ChatGPT Pro,还可以体验到 o1 pro 模式。这是 o1 的一个更高级版本,使用更多的计算进行更深入地思考,解答更难的问题。

与 o1 和 o1-preview 相比,o1 pro 模式在数学、科学和编码等 ML 基准测试中表现更佳。OpenAI 发言人表示:「在外部专家测试人员的评估中,o1 pro 产生了更可靠、更准确、更全面的回应,尤其是在数据科学、编程和判例法分析等领域。与 o1 和 o1-preview 相比,o1 pro 模式在数学、科学和编码方面具有挑战性的机器学习基准测试中表现更好。特别是,我们发现在更容易反映日常编程查询的编码竞赛题中,错误率降低了 75%。」

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

为了突出 o1 pro 模式的主要优势(提高可靠性),OpenAI 使用更严格的评估设置:只有当模型在四次尝试中有四次能够正确回答问题(4/4 可靠性),而不是一次,才被认为解决了问题。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

正在尝鲜的用户们也在陆陆续续发掘出有关 o1 的更多技术细节,比如所支持的最大 token 数量为 196608。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

具体效果如何?

直播中,OpenAI 进行了演示。

首先,OpenAI 通过一个基于人工鸟巢图像生成安装手册的示例演示了 o1 基于视觉数据进行推理的能力:

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

识别手绘图像也问题不大。对于一张手绘的太空太阳能驱动的数据中心示意图,o1 轻松估计出了其散热器表面积并解答了两个问题:如何处理太阳和深空环境,以及这里如何体现了热力学第一定律?并且整个推理过程仅需 10 秒钟。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT ProOpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

推理速度方面,在解答「列出二世纪的罗马皇帝的在位时间和成就」的任务中,o1 完全体的推理时间大概为 14 秒,而 o1-preview 大概需要 33 秒。并且 Altman 表示实际部署之后的速度还会更快。OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

那么,o1 处理更复杂问题的表现如何呢,比如能否基于多条描述推断出所描述的蛋白质种类?(注意这个问题之前的 o1-preview 无法正确解答。)

最终,在 pro mode 下,o1 完全体在思考了 53 秒之后得到了正确答案,并且还可以在 canvas 中了解更多细节。OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

相当昂贵的 ChatGPT Pro

OpenAI 宣布为其人工智能聊天机器人平台 ChatGPT 推出新的订阅套餐 ——ChatGPT Pro,可以无限制地访问 OpenAI 的所有模型,包括其 o1「推理」模型的完整版本,但价格非常昂贵 —— 每月 200 美元。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

OpenAI 技术人员 Jason Wei 表示:「我们认为 ChatGPT Pro 的受众将是 ChatGPT 的高级用户,他们已经在数学、编程和写作等任务上将模型的能力推向极限。」

与大多数 AI 不同,o1 和其他推理模型可以有效地进行自我事实检查。这有助于它们避免一些通常会使模型出错的陷阱,但缺点是通常需要更长的时间才能找到解决方案。o1 通过任务进行推理、提前规划并执行一系列行动来帮助模型梳理出答案。

OpenAI 在 9 月份发布了 o1-preview,现在新版本 o1 的功能更加强大。

访问 o1 不需要订阅 ChatGPT Pro 套餐。所有 ChatGPT 付费用户都可以通过 ChatGPT 模型选择器工具访问 o1。OpenAI 表示,计划在未来几个月内增加对网页浏览、文件上传等功能的支持。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

当然,升级到 ChatGPT Pro,还可以体验到 o1 pro 模式。o1 pro 模式将「使用更多的计算来为最困难的问题提供最佳答案」。

ChatGPT Pro 用户可以通过在模型选择器中选择「o1 pro 模式」并直接提问来访问该功能。由于生成答案需要更长的时间,如果切换到另一个对话,ChatGPT 将显示进度条并发送应用内通知。

o1  pro 模式可能只是延长了模型在给出答案之前的「推理」时间。OpenAI 在其 o1 预览版公告中表示,它的目标是试验推理时间长达数小时、数天甚至数周的 o1 模型,以进一步提高其推理能力,而这很可能是朝这个方向迈出的一步。

OpenAI 还宣布了一项捐赠计划,向知名机构的医学研究人员赠送 10 套 ChatGPT Pro。该公司表示,他们未来还计划在「各个学科」提供更多捐赠。

为了增加吸引力,ChatGPT Pro 还包括无限制访问 GPT-4o 和高级语音模式(ChatGPT 的人机对话功能)。ChatGPT Plus 用户有每日使用时间限制,而免费用户仅限于预览。

然而,ChatGPT Pro 是 OpenAI 目前最昂贵的订阅服务,是 ChatGPT Plus 的 10 倍。考虑到许多用户已经认为 ChatGPT Plus 太贵,ChatGPT Pro 可能很难卖出去。

实际上,高级 ChatGPT 的涨价传闻由来已久。据《纽约时报》报道,到 2029 年,OpenAI 预计 ChatGPT Plus 的月收费将达到 44 美元。根据 The Information 的报道,该公司还萌生了超高价商业订阅的想法,这些订阅可提供额外的功能,并可访问正在开发的模型。

现在看来,这些传闻基本属实。

这些举措反映出投资者对 OpenAI 缩小亏损的压力。据《纽约时报》报道,虽然该公司 8 月份的月收入达到了 3 亿美元,但 OpenAI 预计今年将亏损约 50 亿美元。人员、办公室租金和 AI 训练基础设施等开支都是亏损的根源。据报道,仅 ChatGPT 一项就一度让 OpenAI 每天损失 70 万美元。

OpenAI 的第一天直播最终在一个与圣诞相关的笑话中结束:

圣诞老人希望使用 LLM 来解决数学问题,他努力使用了很多提示词,但效果都不好,那么他最终怎么解决了这个问题呢?

答案是他使用了 reindeer forcement learning。

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

对于今天的发布,你怎么看呢?

参考链接:https://techcrunch.com/2024/12/05/openai-confirms-its-new-200-plan-chatgpt-pro-which-includes-reasoning-models-and-more/

https://www.youtube.com/watch?v=iBfQTnA2n2s

给TA打赏
共{{data.count}}人
人已打赏
应用

GAN作者追忆往事:论文是DDL前一周开始写的,最初在NeurIPS大会无人问津

2024-12-6 10:18:00

应用

微软邀测 Copilot Vision,开启 AI 网页浏览新时代

2024-12-6 10:40:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索