对比式非似然训练
像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍
除了分数,打出分数背后的理由对于大模型对齐更具价值。现有的大模型对齐方法包括基于示例的监督微调(SFT)和基于分数反馈的强化学习(RLHF)。然而,分数只能反应当前回复的好坏程度,并不能明确指出模型的不足之处。相较之下,我们人类通常是从语言反馈中学习并调整自己的行为模式。就像审稿意见不仅仅是一个分数,还包括许多接受或者拒绝的理由。那么,大语言模型能否也像人类一样利用语言反馈来改善自身呢?最近,香港中文大学和腾讯 AI Lab 的研究者们提出了一项名为对比式非似然训练(Contrastive Unlikelihood
2/4/2024 3:21:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
数据
机器人
DeepSeek
谷歌
AI
Midjourney
智能
大模型
学习
GPT
用户
微软
AI创作
开源
图像
Meta
技术
论文
Stable Diffusion
模型
马斯克
算法
生成式
蛋白质
芯片
Gemini
计算
代码
神经网络
研究
腾讯
AI设计
Sora
3D
GPU
英伟达
开发者
场景
机器学习
伟达
预测
华为
模态
Transformer
AI for Science
文本
驾驶
深度学习
AI视频
百度
神器推荐
苹果
搜索
LLaMA
算力
视频生成
干货合集
Anthropic
Copilot
科技
2024
应用
安全
xAI
特斯拉
具身智能
AI应用场景
写作
机器
字节跳动
人形机器人
AGI
DeepMind
视觉
架构