Atlas Wang

老婆饼里没有老婆,RLHF里也没有真正的RL

老婆饼里没有老婆,夫妻肺片里没有夫妻,RLHF 里也没有真正的 RL。 在最近的一篇博客中,德克萨斯大学奥斯汀分校助理教授 Atlas Wang 分享了这样一个观点。 博客链接:,RLHF(基于人类反馈的强化学习)和其他类似的方法并没有为大型语言模型(LLM)带来真正的强化学习(RL),因为它们缺乏 RL 的核心特征:持续的环境交互和长期目标的追求。
  • 1