北京大学人工智能研究院
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
对齐新范式:修正未对齐的答案比生成对齐的回答更容易。背景大语言模型(LLMs)虽展现出了强大的能力,但也可能产生不可预测和有害的输出,例如冒犯性回应、虚假信息和泄露隐私数据,给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐,是一个紧迫的挑战。尽管基于人类反馈的强化学习(RLHF)提供了一种解决方案,但它面临复杂的训练架构、对参数的高敏感性,以及奖励模型在不同数据集上的不稳定性等多重挑战。这些因素导致 RLHF 技术实现难、奏效难、复现难。为了克服这些挑战,北京大学团队提出了一种新的高效对齐范式 ——
2/8/2024 4:34:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
机器人
数据
谷歌
大模型
Midjourney
智能
模型
用户
学习
GPT
开源
微软
AI创作
图像
Meta
技术
论文
Stable Diffusion
马斯克
算法
生成式
蛋白质
芯片
Gemini
代码
神经网络
计算
腾讯
研究
Sora
AI设计
3D
开发者
英伟达
GPU
AI for Science
机器学习
场景
预测
华为
伟达
Transformer
Anthropic
模态
深度学习
百度
驾驶
AI视频
文本
苹果
搜索
神器推荐
算力
LLaMA
Copilot
安全
科技
xAI
视频生成
应用
字节跳动
干货合集
2024
人形机器人
具身智能
特斯拉
视觉
亚马逊
语音
大语言模型
AGI
Claude
AI应用场景