Scaling Law

万字长文解读Scaling Law的一切,洞见LLM的未来

Scaling Law 撞墙了吗? 这算得上是近段时间 AI 领域最热门的话题之一。 近日,资深机器学习研究科学家 Cameron R.

谁说撞墙了?展望2025 Scaling law新叙事加速AI变革

今日,达摩院首席科学家赵德丽发表文章《2025 AI展望:Scaling Law新叙事加速AI变革》,对当前 AI 的发展逻辑进行梳理,同时也展望了 2025 年的 AI 趋势。 本文是对赵德丽老师文章的全文刊载。 我们正身处一场技术革命的历史开端,以 ChatGPT 为标志的这轮 AI 科技浪潮是算法和软件诞生以来人类科技最重要的技术变革,由此开启了以智能为核心的第四次工业革命。

LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law

支持大模型一路狂飙的 Scaling Law 到头了? 近期,AI 圈针对 Scaling Law 是否到头产生了分歧。 一派观点认为 Scaling Law 已经「撞墙」了,另一派观点(如 OpenAI CEO Sam Altman)仍然坚定 Scaling Law 的潜力尚未穷尽。

Scaling Law 撞墙?复旦团队大模型推理新思路:Two-Player架构打破自我反思瓶颈

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力

自回归方法,在图像生成中观察到了 Scaling Law。 「Scaling Law 撞墙了? 」这恐怕是 AI 社区最近讨论热度最高的话题。

Scaling Laws终结,量化无用,AI大佬都在审视这篇论文

研究表明,你训练的 token 越多,你需要的精度就越高。 最近几天,AI 社区都在讨论同一篇论文。 UCSD 助理教授 Dan Fu 说它指明了大模型量化的方向。

连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路

昨天,The Information 的一篇文章让 AI 社区炸了锅。 这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升,因为高质量文本和其他数据的供应量正在减少,原本的 Scaling Law(用更多的数据训练更大的模型)可能无以为继。 此外,OpenAI 研究者 Noam Brown 指出,更先进的模型可能在经济上也不具有可行性,因为花费数千亿甚至数万亿美元训练出的模型会很难盈利。

价值万亿的具身智能市场,大佬们如何从世界模型下刀?

具身智能,简单来说,就是赋予 AI 一个「身体」,让这颗聪明的大脑在物理世界中行动自如。 把这颗大脑升级成世界模型 —— 它拥有记忆、直觉和常识时,机器人可以不再机械地按训练行事,而是能够灵活变通,具体问题具体分析。 于是,在这两个火热的概念齐头并进之时,这样的展示层出不穷,机器人为你扫地、喂猫、铺床、做饭,以后养老不用愁,放心交给机器人就好了。

NeurIPS 2024 | 大模型的词表大小,同样适用于Scaling Law

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

张俊林:OpenAI o1的价值意义及强化学习的Scaling Law

蹭下热度谈谈 OpenAI  o1 的价值意义及 RL 的 Scaling law。一、OpenAI o1 是大模型的巨大进步我觉得 OpenAI o1 是自 GPT 4 发布以来,基座大模型最大的进展,逻辑推理能力提升的效果和方法比预想的要好,GPT 4o 和 o1 是发展大模型不同的方向,但是 o1 这个方向更根本,重要性也比 GPT 4o 这种方向要重要得多,原因下面会分析。为什么说 o1 比 4o 方向重要?这是两种不同的大模型发展思路,说实话在看到 GPT 4o 发布的时候我是有些失望的,我当时以为 Op

电力、芯片制造、数据和延迟成四大限制因素,Scaling Law能续到2030年吗?

近年来,人工智能模型的能力显著提高。其中,计算资源的增长占了人工智能性能提升的很大一部分。规模化带来的持续且可预测的提升促使人工智能实验室积极扩大训练规模,训练计算以每年约 4 倍的速度增长。从这个角度来看,人工智能训练计算的增长速度甚至超过了近代史上一些最快的技术扩张。它超过了移动电话采用率(1980-1987 年,每年 2 倍)、太阳能装机容量(2001-2010 年,每年 1.5 倍)和人类基因组测序(2008-2015 年,每年 3.3 倍)的峰值增长率。在最近的一份报告中,Epoch AI 研究了当前人工

港大马毅:现在的大模型只有「知识」,没有「智能」

导语:知识与智能是两个概念。 访谈 | 陈彩娴撰文丨马蕊蕾编辑丨陈彩娴当多数人将 Scaling Law(规模定律)作为信仰并投身其中时,马毅却选择了一条少有人走的路。 「模型无所谓大小,我们说正确的模型,主要看机制是否正确,这才是智能的本质。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。Scaling law 告诉我们:只要能适当地分配参数和数据,就能在固定计算预算下实现性能最大化。之前已有不少研究探索过神经语言模型的 Scaling law,而这些研究通常得出的结论是参数和训练 token 数应当一比一地扩展。但是,之前的语言模型 Scaling law 研究都是基于在散乱的网络文本上训练的 Transformer 得到的。这是一

人大 Sora 思辩:Sora 到底懂不懂物理世界?

Sora 发布至今,虽然仍未正式对外开放,但对其技术细节、切实影响的讨论从未停歇。 讨论的背后,是为了探索人工智能的更本质问题。 对旧有视觉生成思路的检验和校正,是 Sora 带来的直观影响。

大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

大模型的成功很大程度上要归因于 Scaling Law 的存在,这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。以往的大量研究集中于上游复杂度或交叉熵损失的 Scaling law(即在预训练数据上进行评估),但在实际应用中,模型通常要经历一个迁移学习的过程:首先在无监督数据上进行预训练,然后针对特定的下游任务(如编码或翻译)进行微调。那么,Scaling Law 能不能用于预测下游任务性能?这个关键问题很大程度上仍未得到解答。在最近的一
  • 1