OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜

OpenAI“双12”直播第二天,依旧简短精悍,主题:新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。 少到什么程度呢? 最低几十个例子就可以。

OpenAI“双12”直播第二天,依旧简短精悍,主题:

新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。

少到什么程度呢?最低几十个例子就可以。

CEO奥特曼表示“效果一级棒,是我2024年最大的惊喜,期待看到人们构建什么!”

图片

那么效果有多棒呢?

微调后的o1-mini模型得分提高80%,直接反超o1正式版。

图片图片

目前OpenAI已开启强化微调研究计划,开发者可以申请强化微调API的alpha版本访问权限。

进行测试时,可使用几十到几千个高质量数据,模型能够通过强化学习自行探索和学习如何推理复杂任务。

蹲守直播间的网友们听得也是one愣one愣的,完全没有料想到今晚“圣诞盲盒“是酱婶儿的。

图片

OpenAI员工Jerry Tworek则表示“AGI不是授人以鱼,而是授人以渔”

图片

OpenAI微调首次支持强化学习

直播嘉宾除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究员,还有伯克利实验室计算生物学家Justin Reese,他们共同演示了强化微调功能的全过程。

图片

具体来说,这是一个生物医学任务,AI需要根据病例描述的症状,找出相关基因。

训练数据长这样:

病人信息:51岁女性,疾病发病时间未具体说明。

症状:眼距过宽、睑裂狭小、小颌畸形、软腭咽闭合不全、甲状旁腺功能减退、全身发育迟缓和感觉神经性听力障碍

未表现出以下症状:腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管

请列出所有可能导致这些症状的基因,从可能性最大到可能性最小,并解释为什么你认为这些特定的基因可能是原因。

图片

评分模型(Grader)会对模型的答案进行评分,OpenAI会提供不同的评分模型,并支持自定义。

图片

强化微调步骤很简单,在网页界面可选择训练集和验证集。

图片

再根据情况配置超参数即可。

图片

微调过程中,可以观察模型性能指标的变化趋势。

图片

测试完成后,也可以查看模型对每条验证数据的输出,这里TSC2基因是正确答案,模型把它排在第一位,所以通过。

图片

目前OpenAI内部测试中,强化微调在生物化学、安全、法律和医疗保健领域取得成功。

强化微调将在2025年初作为产品发布,对企业、大学和研究院已开放申请测试通道。

图片

看完这场直播后,有人总结:强化微调可能并不适合所有任务,但会在科学领域带来突破性的成果。

图片

奥特曼默认会发Sora

OpenAI直播第二天,对比第一天o1正式发布、立等可用,似乎平淡了一些。

有不满足的网友表示:where is GPT-4.5?

评论区猜测可能大货会放在最后一天。

他们是真的懂如何吊所有人的胃口

图片

不过,有网友钓鱼钓出了奥特曼,且奥特曼没有否认会发布Sora的消息。

图片

参考链接:[1]https://openai.com/form/rft-research-program/。

相关资讯

OpenAI大秀肌肉,一口气放出10个新模型Demo,全球网友玩疯了

AI好好用报道编辑:杨文9.11和9.8哪个大还是答不对。9 月 13 日凌晨,OpenAI 又搞了个大新闻 ——推出 o1 系列模型,也就是江湖流传已久的「草莓」。这款模型到底厉害在哪,能让朋友圈刷了屏?这么说吧,它不需要专门训练,就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。(查看详情,请移步:刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限)不过,实现通用复杂推理的代价是,每次回答要花费更长时间思考。因为 o1 是经过强化学习训练的新型语言模型,在输出回答之前,它会

陶哲轩提前实测满血版 OpenAI o1:能当研究生使唤

原来早在 8 月份,陶哲轩就已经用上了 OpenAI o1。还是现在大家都用不上的满血版本(眼泪不争气地从嘴角流出来)。提前批大佬是怎么玩最新天花板的呢?他向 o1 模型提出一个措辞模糊的数学问题,发现它竟然能成功识别出克莱姆定理。而且答案是“完全令人满意的”那种。当然,陶哲轩还做了一些其它测试,测下来总体体验就是:比以前的模型更牛,多堆点提示词表现还不错,但仍然会犯不小的错误,也没有产生啥自己的思想。陶哲轩是这样形容的:这种感觉,就像给一个平庸无奇但又有点小能力的研究生提供建议。不过,这已经比以前的模型有所改进,

阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”,黄仁勋表示“给你加速 50 倍”

AI 界最有影响力的两个人,同时出现在一场活动:OpenAI CEO 阿尔特曼,暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋,则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”,不过最近几个月就会有重大改进,新范式的进步曲线非常陡峭。L2“推理者”与 L1“聊天机器人”非常不同,大家还没找到该怎么用这些模型,我们也没决定该为 App 继续添加什么功能。不过最