Scaling Law

LLM最大能力密度100天翻一倍！清华刘知远团队提出Densing Law
支持大模型一路狂飙的 Scaling Law 到头了？近期，AI 圈针对 Scaling Law 是否到头产生了分歧。一派观点认为 Scaling Law 已经「撞墙」了，另一派观点（如 OpenAI CEO Sam Altman）仍然坚定 Scaling Law 的潜力尚未穷尽。
应用
- 977
- 0
机器之心12月9日
Scaling Law 撞墙？复旦团队大模型推理新思路：Two-Player架构打破自我反思瓶颈
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
应用
- 980
- 0
机器之心11月27日
撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力
自回归方法，在图像生成中观察到了 Scaling Law。「Scaling Law 撞墙了？」这恐怕是 AI 社区最近讨论热度最高的话题。
应用
- 974
- 0
机器之心11月26日
Scaling Laws终结，量化无用，AI大佬都在审视这篇论文
研究表明，你训练的 token 越多，你需要的精度就越高。最近几天，AI 社区都在讨论同一篇论文。 UCSD 助理教授 Dan Fu 说它指明了大模型量化的方向。
应用
- 983
- 0
机器之心11月13日
连OpenAI都推不动Scaling Law了？MIT把「测试时训练」系统研究了一遍，发现还有路
昨天，The Information 的一篇文章让 AI 社区炸了锅。这篇文章透露，OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升，因为高质量文本和其他数据的供应量正在减少，原本的 Scaling Law（用更多的数据训练更大的模型）可能无以为继。此外，OpenAI 研究者 Noam Brown 指出，更先进的模型可能在经济上也不具有可行性，因为花费数千亿甚至数万亿…
工程
- 10
- 0
机器之心11月12日
价值万亿的具身智能市场，大佬们如何从世界模型下刀？
具身智能，简单来说，就是赋予 AI 一个「身体」，让这颗聪明的大脑在物理世界中行动自如。把这颗大脑升级成世界模型 —— 它拥有记忆、直觉和常识时，机器人可以不再机械地按训练行事，而是能够灵活变通，具体问题具体分析。于是，在这两个火热的概念齐头并进之时，这样的展示层出不穷，机器人为你扫地、喂猫、铺床、做饭，以后养老不用愁，放心交给机器人就好了。
应用
- 7
- 0
机器之心11月7日
NeurIPS 2024 | 大模型的词表大小，同样适用于Scaling Law
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
理论
- 4
- 0
机器之心10月11日
张俊林：OpenAI o1的价值意义及强化学习的Scaling Law
蹭下热度谈谈 OpenAI o1 的价值意义及 RL 的 Scaling law。一、OpenAI o1 是大模型的巨大进步我觉得 OpenAI o1 是自 GPT 4 发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT 4o 和 o1 是发展大模型不同的方向，但是 o1 这个方向更根本，重要性也比 GPT 4o 这种方向要重要得多，原因下面会分析。为什么说 o1 …
应用
- 21
- 0
机器之心9月14日
电力、芯片制造、数据和延迟成四大限制因素，Scaling Law能续到2030年吗？
近年来，人工智能模型的能力显著提高。其中，计算资源的增长占了人工智能性能提升的很大一部分。规模化带来的持续且可预测的提升促使人工智能实验室积极扩大训练规模，训练计算以每年约 4 倍的速度增长。从这个角度来看，人工智能训练计算的增长速度甚至超过了近代史上一些最快的技术扩张。它超过了移动电话采用率（1980-1987 年，每年 2 倍）、太阳能装机容量（2001-2010 年，每年 1.5 倍）和人类…
应用
- 7
- 0
机器之心9月14日
港大马毅：现在的大模型只有「知识」，没有「智能」
导语：知识与智能是两个概念。访谈 | 陈彩娴撰文丨马蕊蕾编辑丨陈彩娴当多数人将 Scaling Law（规模定律）作为信仰并投身其中时，马毅却选择了一条少有人走的路。「模型无所谓大小，我们说正确的模型，主要看机制是否正确，这才是智能的本质。
应用
- 972
- 0
马蕊蕾7月9日
分歧数据集有分歧的Scaling law？而你可用一个紧缩算法来预计它
一般而言，训练神经网络耗费的盘算量越大，其性能就越好。在扩大盘算规模时，必须要做个决定：是增多模型参数目还是提升数据集巨细 —— 必须在固定的盘算预算下权衡此两项因素。Scaling law 告诉我们：只要能适当地分配参数和数据，就能在固定盘算预算下实现性能最大化。之前已有不少研究探索过神经说话模型的 Scaling law，而这些研究通常得出的结论是参数和训练 token 数应当一比一地扩展。但…
工程
- 9
- 0
机器之心6月3日
人大 Sora 思辩：Sora 到底懂不懂物理世界？
Sora 发布至今，虽然仍未正式对外开放，但对其技术细节、切实影响的讨论从未停歇。讨论的背后，是为了探索人工智能的更本质问题。对旧有视觉生成思路的检验和校正，是 Sora 带来的直观影响。
应用
- 972
- 0
王悦3月23日
大模型Scaling Law同样适用于上游工作机能？斯坦福、谷歌最新研究揭秘
大模型的成功很大程度上要归因于 Scaling Law 的存在，这一定律量化了模型机能与训练数据规模、模型架构等设计要素之间的关系，为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。以往的大量研究集中于上游复杂度或穿插熵受益的 Scaling law（即在预训练数据上举行评估），但在实际应用中，模型通常要经历一个迁徙学习的过程：首先在无监督数据上举行预训练，然后针对特定的上游工作（如编码或…
工程
- 6
- 0
机器之心2月27日