OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

理论
12月9日
编辑

admin

OpenAI“双12”直播第二天，依旧简短精悍，主题：新功能强化微调（Reinforcement Fine-Tuning），使用极少训练数据即在特定领域轻松地创建专家模型。少到什么程度呢？最低几十个例子就可以。

OpenAI“双12”直播第二天，依旧简短精悍，主题：

新功能强化微调（Reinforcement Fine-Tuning），使用极少训练数据即在特定领域轻松地创建专家模型。

少到什么程度呢？最低几十个例子就可以。

CEO奥特曼表示“效果一级棒，是我2024年最大的惊喜，期待看到人们构建什么！”

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

那么效果有多棒呢？

微调后的o1-mini模型得分提高80%，直接反超o1正式版。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

目前OpenAI已开启强化微调研究计划，开发者可以申请强化微调API的alpha版本访问权限。

进行测试时，可使用几十到几千个高质量数据，模型能够通过强化学习自行探索和学习如何推理复杂任务。

蹲守直播间的网友们听得也是one愣one愣的，完全没有料想到今晚“圣诞盲盒“是酱婶儿的。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI员工Jerry Tworek则表示“AGI不是授人以鱼，而是授人以渔”。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI微调首次支持强化学习

直播嘉宾除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究员，还有伯克利实验室计算生物学家Justin Reese，他们共同演示了强化微调功能的全过程。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

具体来说，这是一个生物医学任务，AI需要根据病例描述的症状，找出相关基因。

训练数据长这样：

病人信息：51岁女性，疾病发病时间未具体说明。
症状：眼距过宽、睑裂狭小、小颌畸形、软腭咽闭合不全、甲状旁腺功能减退、全身发育迟缓和感觉神经性听力障碍
未表现出以下症状：腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管
请列出所有可能导致这些症状的基因，从可能性最大到可能性最小，并解释为什么你认为这些特定的基因可能是原因。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

评分模型（Grader）会对模型的答案进行评分，OpenAI会提供不同的评分模型，并支持自定义。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

强化微调步骤很简单，在网页界面可选择训练集和验证集。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

再根据情况配置超参数即可。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

微调过程中，可以观察模型性能指标的变化趋势。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

测试完成后，也可以查看模型对每条验证数据的输出，这里TSC2基因是正确答案，模型把它排在第一位，所以通过。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

目前OpenAI内部测试中，强化微调在生物化学、安全、法律和医疗保健领域取得成功。

强化微调将在2025年初作为产品发布，对企业、大学和研究院已开放申请测试通道。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

看完这场直播后，有人总结：强化微调可能并不适合所有任务，但会在科学领域带来突破性的成果。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

奥特曼默认会发Sora

OpenAI直播第二天，对比第一天o1正式发布、立等可用，似乎平淡了一些。

有不满足的网友表示：where is GPT-4.5？

评论区猜测可能大货会放在最后一天。

他们是真的懂如何吊所有人的胃口

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

不过，有网友钓鱼钓出了奥特曼，且奥特曼没有否认会发布Sora的消息。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

参考链接：[1]https://openai.com/form/rft-research-program/。

给TA打赏

共{{data.count}}人

人已打赏

o1-mini模型 OpenAI 强化微调

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

2024-12-8 15:00:00

新版Llama 3 70B反超405B！Meta开卷后训练，谷歌马斯克都来抢镜

2024-12-9 7:10:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP2

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等
12月3日
TOP3

关于LLM-as-a-judge范式，终于有综述讲明白了
12月3日
平安人寿ChatBI：大模型智能化报表的深度实践
12月4日
李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”
12月3日
ChatGPT遇到这些人名开始自闭，OpenAI回应了
12月4日
字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片
12月5日
李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则
12月3日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部