反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

传闻反转了,Claude 3.5 Opus没有训练失败。 只是Anthropic训练好了,暗中压住不公开。 semianalysis分析师爆料,Claude 3.5超大杯被藏起来,只用于内部数据合成以及强化学习奖励建模。

传闻反转了,Claude 3.5 Opus没有训练失败

只是Anthropic训练好了,暗中压住不公开。

semianalysis分析师爆料,Claude 3.5超大杯被藏起来,只用于内部数据合成以及强化学习奖励建模

Claude 3.5 Sonnet就是如此训练而来。

图片

使用这种方法,推理成本没有明显提升,但是模型性能更好了。

这么好用的模型,为啥不发布?

不划算。

semianalysis分析,相较于直接发布,Anthropic更倾向于用最好的模型来做内部训练,发布Claude 3.5 Sonnet就够了。

这多少让人不敢相信。

图片

但是文章作者之一Dylan Patel也曾是最早揭秘GPT-4架构的人。

图片

除此之外,文章还分析了最新发布的o1 Pro、神秘Orion的架构以及这些先进模型中蕴藏的新规律。

比如它还指出,搜索是Scaling的另一维度,o1没有利用这个维度,但是o1 Pro用了。

网友:它暗示了o1和o1 Pro之间的区别,这也是之前没有被披露过的。

图片

新旧范式交迭,大模型还在加速

总体来看,semianalysis的最新文章分析了当前大模型开发在算力、数据、算法上面临的挑战与现状。

核心观点简单粗暴总结,就是新范式还在不断涌现,AI进程没有减速。

文章开篇即点明,Scaling law依旧有效

尽管有诸多声音认为,随着新模型在基准测试上的提升不够明显,现有训练数据几乎用尽以及摩尔定律放缓,大模型的Scaling Law要失效了。

但是顶尖AI实验室、计算公司还在加速建设数据中心,并向底层硬件砸更多钱。

比如AWS斥巨资自研了Trainium2芯片,花费65亿美元为Anthropic准备40万块芯片。

Meta也计划在2026年建成耗电功率200万千瓦的数据中心。

很明显,最能深刻影响AI进程的人们,依旧相信Scaling Law。

为什么呢?

因为新范式在不断形成,并且有效。这使得AI开发还在继续加速。

首先在底层计算硬件上,摩尔定律的确在放缓,但是英伟达正在引领新的计算定律。

8年时间,英伟达的AI芯片计算性能已经提升了1000倍。

同时,通过芯片内部和芯片之间的并行计算,以及构建更大规模的高带宽网络域可以使得芯片更好在网络集群内协同工作,特别是推理方面。

图片

其次在数据方面也出现了新的范式。

已有公开数据消耗殆尽后,合成数据提供了新的解决途径。

比如用GPT-4合成数据训练其他模型是很多实验团队都在使用的技术方案。

而且模型越好,合成数据质量就越高。

也就是在这里,Claude 3.5 Opus不发布的内幕被曝光。

它承担了为Claude 3.5 Sonnet合成训练数据、替代人类反馈的工作。

事实证明,合成数据越多,模型就越好。更好的模型能提供更好的合成数据,也能提供更好的偏好反馈,这能推动人类开发出更好的模型。

具体来看,semianalysisi还举了更多使用综合数据的例子。

包括拒绝采样、模式判断、长上下文数据集几种情况。

比如Meta将Python代码翻译成PHP,并通过语法解析和执行来确保数据质量,将这些额外的数据输入SFT数据集,解释为何缺少公共PHP代码。

图片

比如Meta还使用Llama 3作为拒绝采样器,判断伪代码,并给代码进行评级。一些时候,拒绝抽样和模式判断一起使用。这种方式成本更低,不过很难实现完全自动化。

在所有拒绝抽样方法中,“判官”模型越好,得到数据集的质量就越高。

这种模式,Meta今年刚刚开始用,而OpenAI、Anthropic已经用了一两年

在长上下文方面,人类很难提供高质量的注释,AI处理成为一种更有效的方法。

然后在RLHF方面,专门收集大量的偏好数据难且贵。

对于Llama 3,DPO(直接偏好优化)比PPO(最近策略优化)更有效且稳定,使用的计算也少。但是使用DPO就意味着偏好数据集是非常关键的。

如OpenAI等大型公司想到的一种办法是从用户侧收集,有时ChatGPT会给出2个回答并要求用户选出更喜欢的一个,因此免费收集了很多反馈。

还有一种新的范式是让AI替人类进行反馈——RLAIF。

图片

它主要分为两个阶段。第一阶段模型先根据人类编写的标准对自己的输出进行修改,然后创建出一个修订-提示对的数据集,使用这些数据集通过SFT进行微调。

第二阶段类似于RLHF,但是这一步完全没有人类偏好数据。

这种方法最值得关注的一点是,它可以在许多不同领域扩展。

图片

最后,值得重点关注的一个新范式是通过搜索来扩展推理计算。

文章中表明,搜索是扩展的另一个维度。OpenAI o1没有利用这个维度,但是o1 Pro用了。

o1在测试时阶段不评估多条推理路径,也不进行任何搜索。

Self-Consistency / Majority Vote就是一种搜索方法。

这种方法中,只需在模型中多次运行提示词,产生多个相应,根据给定的样本数量,从相应中选出出现频率最高的来作为正确答案。

图片

除此之外,文章还进一步分析了为什么说OpenAI的Orion训练失败也是不准确的。

相关资讯

弱智吧竟成最佳中文 AI 训练数据?中科院等:8 项测试第一,远超知乎豆瓣小红书

离大谱了,弱智吧登上正经 AI 论文,还成了最好的中文训练数据??具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。没错,论文中的 Ruozhiba 就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:最离谱的是,弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI,这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院

美国酝酿 AI「登月计划」,陶哲轩领衔 62 页报告重磅发布

【新智元导读】就在刚刚,陶哲轩领衔的一份 62 页报告出炉了,总结和预测了 AI 对半导体、超导体、宇宙基础物理学、生命科学等领域带来的巨大改变。如果这些预测在几十年后能够实现,美国酝酿的 AI「登月计划」就将成真。就在刚刚,陶哲轩领衔的一份 AI 技术对全球研究潜在影响的技术报告发布了。这份报告长达 62 页,总结了 AI 对材料、半导体设计、气候、物理、生命科学等领域已经做出的改变,以及预测它们在未来可能由 AI 产生的改变。报告地址: AI 工具已经改变的科学领域的小插曲,陶哲轩等人还发出了三个呼吁 ——1.

微软正努力治疗 AI 幻觉,以技术手段实时屏蔽和重写毫无根据的信息

就在 GPT-4 因征服标准化测试而登上头条时,微软研究人员正在对其他 AI 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。为了治好这种被称为“AI 幻觉”的症状,他们设定了一个会让大多数人头疼的文本检索任务,然后跟踪并改进模型响应,这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。微软 AI 负责项目的首席产品官 Sarah Bird 表示,“微软希望其所有 AI 系统都是值得信赖且可以有效使用的”。我们可以向这个领域投入许多专家和资源,因此我们认为自己可以帮助阐明“应该如何负责任地使用新