AI在线 AI在线

ColBench

田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理

现实世界中,很多任务很复杂,需要执行一系列的决策。 而要让智能体在这些任务上实现最佳性能,通常需要直接在多轮相关目标(比如成功率)上执行优化。 不过,相比于模仿每一轮中最可能的动作,这种方法的难度要大得多。
3/23/2025 3:45:00 PM
机器之心
  • 1