自我奖励方法
大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4
人工智能的反馈(AIF)要代替 RLHF 了?大模型领域中,微调是改进模型性能的重要一步。随着开源大模型逐渐变多,人们总结出了很多种微调方式,其中一些取得了很好的效果。最近,来自 Meta、纽约大学的研究者用「自我奖励方法」,让大模型自己生成自己的微调数据,给人带来了一点新的震撼。在新方法中,作者对 Llama 2 70B 进行了三个迭代的微调,生成的模型在 AlpacaEval 2.0 排行榜上优于一众现有重要大模型,包括 Claude 2、Gemini Pro 和 GPT-4。因此,论文刚刚发上 arXiv 几
1/22/2024 11:21:00 AM
机器之心
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
ChatGPT
AI绘画
数据
机器人
DeepSeek
AI
谷歌
Midjourney
智能
大模型
学习
GPT
用户
微软
开源
AI创作
模型
图像
Meta
技术
论文
Stable Diffusion
马斯克
算法
生成式
蛋白质
芯片
Gemini
代码
计算
神经网络
研究
腾讯
AI设计
Sora
3D
GPU
英伟达
开发者
场景
机器学习
伟达
预测
华为
Transformer
模态
AI for Science
百度
驾驶
文本
AI视频
苹果
深度学习
搜索
神器推荐
Anthropic
算力
LLaMA
视频生成
干货合集
2024
安全
应用
科技
Copilot
xAI
特斯拉
字节跳动
具身智能
AI应用场景
写作
视觉
机器
人形机器人
语音
AGI
DeepMind