Uni-RLHF

ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景
RLHF 通过进修人类偏好，可以在难以手工设想赞美函数的复杂决策工作中进修到正确的赞美引导，得到了很高的关注，在不同情况中选择合适的人类反应典型和不同的进修方法至关重要。然而，当前钻研社区缺乏可以支持这一需求的标准化标注平台和统一基准，量化和比较 RLHF 的最新进展是有挑战性的。本文中，天津大学深度强化进修实验室的钻研团队推出了面向现实决策场景的 Uni-RLHF 平台，这是一个专为 RLHF …
工程
- 8
- 0
机器之心3月27日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部