专给 ChatGPT“找茬”,OpenAI 训练 CriticGPT 模型以检索输出内容过失

感谢当地时间 27 日,OpenAI 宣布基于 GPT-4 训练了一个名为 CriticGPT 的模型,用于寻找 ChatGPT 谈天机器人输出内容中的过失。它可以撰写评论,强调 ChatGPT 生成谜底中不准确的所在。据介绍,CriticGPT 旨在协助人类 AI 训练员完成职业 —— 使用一种名为“从人类反应中强化学习(IT之家注:Reinforcement Learning from Human Feedback,RLHF)”的技术来训练、改进 GPT-4 的回覆。然而随着 ChatGPT 的准确性日益提升,

感谢当地时间 27 日,OpenAI 宣布基于 GPT-4 训练了一个名为 CriticGPT 的模型,用于寻找 ChatGPT 谈天机器人输出内容中的过失。它可以撰写评论,强调 ChatGPT 生成谜底中不准确的所在。

专给 ChatGPT“找茬”,OpenAI 训练 CriticGPT 模型以检索输出内容过失

据介绍,CriticGPT 旨在协助人类 AI 训练员完成职业 —— 使用一种名为“从人类反应中强化学习(IT之家注:Reinforcement Learning from Human Feedback,RLHF)”的技术来训练、改进 GPT-4 的回覆。

然而随着 ChatGPT 的准确性日益提升,过失愈来愈隐蔽,导致 AI 训练员的职业愈来愈“难做”。OpenAI 对此解释称,这是 RLHF 的基本局限之一 —— 模型逐渐变得比任何可以提供反应的人都更博学,模型的协调可能也会随之变得愈来愈困难。

目前,当 CriticGPT 试图从 ChatGPT 的回覆中发现过失时,它的一双“鹰眼”就会发挥作用。OpenAI 指出,现实世界中的过失可能遍布谜底的多个部分,这是 CriticGPT 未来必要办理的问题。“我们的职业重点是可以在一个所在指出过失,但将来我们也必要办理分散的过失。”

给TA打赏
共{{data.count}}人
人已打赏
AI

人为破坏也能修正,中国首个视觉扩散架构人形机器人生成式模型公布

2024-6-27 15:43:11

AI

开源 AI 大模型“洗牌”:阿里通义千问 Qwen2-72B 成“王者”,傲视 Meta Llama-3、微软 Phi-3 等群雄

2024-6-28 7:49:17

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索