属性

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分
在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如鉴于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评价中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。尽管上述对偏好数据的应用已…
应用
- 2
- 0
机器之心3月4日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部