谁说撞墙了?展望2025 Scaling law新叙事加速AI变革

今日,达摩院首席科学家赵德丽发表文章《2025 AI展望:Scaling Law新叙事加速AI变革》,对当前 AI 的发展逻辑进行梳理,同时也展望了 2025 年的 AI 趋势。 本文是对赵德丽老师文章的全文刊载。 我们正身处一场技术革命的历史开端,以 ChatGPT 为标志的这轮 AI 科技浪潮是算法和软件诞生以来人类科技最重要的技术变革,由此开启了以智能为核心的第四次工业革命。

今日,达摩院首席科学家赵德丽发表文章《2025 AI展望:Scaling Law新叙事加速AI变革》,对当前 AI 的发展逻辑进行梳理,同时也展望了 2025 年的 AI 趋势。本文是对赵德丽老师文章的全文刊载。

我们正身处一场技术革命的历史开端,以 ChatGPT 为标志的这轮 AI 科技浪潮是算法和软件诞生以来人类科技最重要的技术变革,由此开启了以智能为核心的第四次工业革命。这次 AI 变革是由以 Scaling law 为底层逻辑的基础模型驱动,其整体的发展脉络由基础模型的技术逻辑主导。

进入 2025 年,我们清晰地看到,Scaling law 本身仍然成立,但以堆算力以及一味追求扩大模型尺寸的迭代路径已经被打破。同时,基础模型本身的迭代趋于阶段性收敛,Transformer-like 逐渐成为统一的底层架构。此外,生成模型的潜力远远还没有得到释放,其将快速深入科学研究在内的多个领域,或大放异彩…

本文以 “DAMO 开发者矩阵” 2025 开篇为契机,对当前 AI 的发展逻辑进行梳理,展望 2025 年的 AI 趋势,初探未来的景象。限于篇幅,仅对于部分方向加以讨论阐述。

1. 通用人工智能 (AGI) 的四种路径

目视远方,才能更好理解我们身处的当下。实现通用人工智能 (AGI,这里也包含常说的超级人工智能)是 AI 的发展目标,利用 AI 算法达到甚至超过人类的智能水平。在进入具体的讨论之前,我们先从宏观逻辑分析 AGI 的可能实现路径。

第一条路径是大模型。

目前 AI 算法还是围绕着人类智能的逼近和模仿来开展。大模型就是利用复杂的深度神经网络对知识的压缩来逼近人类智能的隐函数,进而利用思维推理来挖掘智能本身,所以接下来基于基础模型的自学习算法和模型自迭代进化将是通过大模型实现 AGI 路径的核心。从这个角度来说,大模型的 AGI 迭代在 2024 年刚入正题,但是发展很快。

第二条路径是智能机器人。

人类和动物等生物智能体是在开放式环境中与周遭事物以及环境中的智能体交互反馈来学习智能。最接近这种智能学习的模式是在开放式环境中活动的智能机器人,特别是和人交互的机器人。所以消费级机器人的落地将是这种 AGI 模式的开启,机器人的自我学习和迭代算法也将是核心。

第三条路径是脑机。

根据第一性原理,直接获取人类思维模式的方式是读取大脑信号,人类目前的科技水平通过脑机接口来实现。目前脑机还处在非常早期,但是脑机接口将是人机协同非常重要的路径。

第四条路径是数字生命。

通过算法实现从微观尺度到宏观尺度生命过程机理的仿真,就可以直接解锁智能的奥秘,从而能创造出真正的超级智能。目前这个方向还在萌芽阶段。

2.2024 的 4 个关键进展

让我们先回望 2024,从年初的 Sora 开始,几乎每个月都有 AI 热点新闻出现,长文本、多模态、具身智能、编程助手、思维推理、Agentic System、大模型训练优化等,让人目不暇接。相比 2023 年 AI 进展集中在大语言模型上,2024 年可谓是百花齐放,无论是深度和广度都出现了飞跃。显然,即使没有 GPT-5 的发布,这仍然是 AI 技术大爆发的一年。而在这么多进展里,有四项进展值得重点关注。

2.1 视频生成

Sora 的出现意义重大,是视频生成领域的一个重要转折点。在 Sora 之前,行业对视频生成已多有研究,但只停留在学术研究层面,效果差强人意,没法达到商业化服务的水准。Sora 展示了利用 DiT 可扩展架构的有效性,吸引了全球同行们快速跟进,推动视频生成从学术研究到工业级应用的重大跨越,国内也出现了可灵、海螺、通义万相、混元、豆包等优秀的视频生成模型。

视频生成模型的突破意义不仅在于推动内容生产方式的变革,也在于展现了可扩展架构的生成模型在视觉方向的巨大潜力。自然语言数据是人类知识以文字形式的数字化记录,所以自然语言大模型是知识的压缩,可以通过大语言模型来逼近从而超越人类的智能。同样,图像 / 视频是对环境和物体的数字化,也包含知识本身的展现。例如,球体的下落是物理规律的呈现、投篮是人类操作技能的展现等。所以不仅仅大语言模型,视频大模型也是通往 AGI 的重要组成要素。随着图像 / 视频基础模型的性能提升,特别是 SOTA 级别开源模型的丰富,常见视觉任务大都会围绕生成式基础模型重新构建,大一统的视觉任务架构也会出现。另外,传统视觉相关的仿真也逐步会和视频生成模型深入融合,从而重塑新一代的仿真链路,例如世界模型可以看做是其中一个方向。而基于仿真和模拟的技术方向,例如机器人,也会因为视频生成模型的成熟发展速度大大加快。在一些垂直领域,例如医疗和微观组织研究等,数据缺乏的问题也会因为视频生成模型找到新的解决途径,从而加快相关领域的突破。

视频生成技术的快速迭代促进各类内容工具的涌现,例如达摩院推出寻光 AI 视频创作平台,用 AI 重塑视频工作流,释放行业创造力。

2.2 智能体 (Agent) 和系统

在 2023 年 AutoGPT 出现时,行业从业者就意识到基于大模型构建 Agent 应用的巨大潜力。进入 2024 年,Agent 相关的落地应用初步展现,如 Anthropic 发布了 Computer use 让 AI 可以控制电脑操作,智谱发布了 AutoGLM 来重塑手机应用的使用方式。“一句话下单 2000 杯咖啡”,依托思维推理和自我改进机制,Agent 得以执行实现类似的自动化任务。为此,Anthropic 发布了 MCP 协议 (Model Context Protocol),方便大模型连接数据和应用等局部和在线资源,从而可以构建起以大模型为核心、Agent 为应用的生态系统,人工智能操作系统的雏形也已经显现。阿里巴巴通义大模型也在此深耕,通义完整的基础模型系列、一站式大模型服务平台百炼、模型开源平台 ModelScope 和互连协议等构成新一代人工智能系统架构的基础设施。

Agent 的重要性在于,它依托基础模型和软硬件互联协议,会给人机交互方式和系统架构带来根本性的变革。历史上每一次人机交互的变化都带来了系统级的变革,就像键盘鼠标之于 PC 互联网、手机触屏之于移动互联网。

目前我们的系统设计还是基于鼠标点击或者手指触控交互的嵌套式图形界面系统。这一次 AI 的突破带来语言 / 语音 / 视觉等多模态信息为交互媒介的人机交互变革。Agent 不仅会大大丰富系统和应用的广度,也将会在多模态交互逻辑下大大缩短应用使用的链路和构造逻辑,从而引发系统在 AI 时代的重构。这将是个人电脑和智能手机视窗系统诞生以来最大的一次实质性变革。传统操作系统将在人工智能操作系统的牵引下和 AI 深度融合,从而诞生在 AI 时代更加扁平、更加连接开放、更加自动化的新型操作系统和应用范式。

2.3 编程助手

从人机交互的角度去看,AI 大模型带来了基于语言输入的全新交互方式。例如,可以通过语言提示输入到大模型,调用大模型的功能来得到结果,包括回答语言相关的问题、生成代码、生成网站、生成图像视频等。

语言不仅仅是人类日常交流的媒介,也成了大模型时代的编程语言本身,这对于软件来说是个突破性的进步。从机器语言、汇编语言、C/C++、Java、Python 等到现在自然语言,计算机语言经历着由繁到简的发展过程。但是在大模型以前,计算机编程都是需要专业学习、长期练习才能掌握。自从自然语言成为计算机编程语言本身,软件从专业技能就变成了大众化的工具,人人都可以成为高级程序员,这对于使用软件是巨大的飞跃。人类利用软件工具来提升社会生产力和效率从来都没有像今天这么便捷。所以基于大语言模型的编程助手的价值显著,将成为大模型时代不可或缺的基础工具。

过去一年编程助手发展迅速,国外像 Github Copilot、Cursor、Windsurf、Bolt,国内如阿里巴巴的通义灵码以及字节的豆包 MarsCode 等相继涌现。可以预料编程助手在新的一年里将会取得实质性进展,并成为最快成功商业化的 AI 产品之一。

2.4 具身智能

我们可以粗略将研究机器人智能的 AI 技术称之为具身智能。多模态大模型可以视为是机器人的知识技能,具身智能大模型 (目前还没有共识的范围定义) 可以看作是机器人的操作和移动技能。

AI 驱动的机器人是物理智能体,既可以决定人类利用工具的生产力水平,又可以直接决定社会生产效率和国民生产总值,所以至关重要。特别是人形机器人,可以看作是人的物理化,他可以超越工具属性本身,作为人类社会智能体的一员发挥作用,所以人形机器人可以拓展社会的运作模式和维度。

在具身算法上,谷歌、UC Berkeley、清华、字节等机构都发表了不同架构的具身智能大模型,初步验证了 Scaling law 在机器人方向上的有效性。并为其引入多模态融合等新维度,让业界看到了机器人技术突破的希望。仿真上,英伟达正在推动机器人仿真系统的工业化落地应用,开源仿真系统也在快速迭代,为机器人的仿真和批量数据生产打下基础。数据上,行业内的数据生产标准和基础设施也在发展中,智元开源的真机数据集也已经达到百万级别的体量。计算芯片上,英伟达也会在 2025 年量产针对人形机器人的端侧芯片和开发板,使 AI 在机器人的端侧开发更加便利和高效。硬件上,特斯拉正在推动人形机器人的量产,这将促使机器人本体供应链走向成熟,从而也会使硬件本体成本大幅下降。所以综合这几个维度来看,具身智能已站在新一轮爆发周期的起点上。但是机器人商业化的路径存在较大不确定性,和机器人形态以及对应的技术成熟度都有直接关系。

除了作为工具属性,智能机器人以下特点值得突出:

  • 一是数据采集端口。数据是模型的基础,机器人将会是增量数据采集的端口。谁有消费级机器人数据,谁有条件做出最好的 AI。

  • 二是应用服务新入口。和人交互场景的消费级机器人,会是继个人电脑、手机之后的第三智能硬件形态,是各类应用服务的入口。

  • 三是 AGI 路径。如开篇所述,在开放式环境中自我学习和进化的智能机器人是实现 AGI 的路径,将会使智能算法得到质的飞跃。由于机器人本身是可编程物理智能体,所以自我进化也将会带来人类对于智能本身理解的升华,会大大拓展人类本身智能的边界。所以从 AI 的视角去观察,用在固定工业产线和不与人交互场景的机器人和与人交互的消费级机器人是完全两种机器人。消费级人形机器人是 AI 时代最重要的智能体,人类可以借助人形机器人进入一个全新的人机协作的智能时代,从而开启人类使用工具的新纪元。 

3. AI 突破的三个底层逻辑

回顾了 2024 年 AI 几个方面的进展,我们再讨论下 AI 发展的三个基本逻辑,即 Scaling law、Transformer 架构 (泛指 Transformer-like 的架构) 和生成模型。这三个方面相互交织,我们逐项讨论下内在的原理和逻辑,便于把握 AI 发展的底层规律。

3.1 Scaling law 迈向纵深

Scaling law 是 GPT 等大语言模型快速发展的底层逻辑,更多的数据、更多的算力、更大的模型,得到更好的效果。Scaling law 也是 2024 年推动了 Sora 等视频生成模型的技术突破的逻辑遵循,利用更有利于规模化扩展的算法架构。虽然 Sora 并未开源或公开算法细节,但其技术报告公开了算法架构和技术路线,这使得领域内可以快速跟进,例如可灵。他们甚至实现比 Sora 更好的效果、更快的线上服务,再次在视频生成上验证了 Scaling law 的有效性。Scaling law 也在具身智能大模型上面初步得到验证,让大家看到了具身智能 GPT 时刻出现的希望。在医疗方向,Nature 刚刚发表了三篇和医疗基础模型相关的论文,标志着医疗 AI 在快速迈向基础模型驱动的 2.0 时代,也是 Scaling law 规律的体现。所以,Scaling law 不仅是大模型发展的底层规律,也是通向 AGI 的可靠路径之一。

过去一年关于 Scaling law 是否遇到天花板的讨论比较多,但其实,目前能够有足够多的资源和数据去触摸 Scaling law 天花板的公司,全世界没几家。因为首先需要足够强大的基础设施和计算资源,其次还需要足够多的训练数据。关于数据,一方面是现有的互联网相关数据,另一方面是合成数据 —— 合成数据非常重要,但是合成数据的质量能否用于有效训练,取决于基础模型的生成能力和合成数据的方法,截止到 2024 年,可能只有 GPT-4 等极少数模型能达到这个水平。所以,目前还不能给 Scaling law 下个遇到天花板的结论。

3.2 Scaling law 固定路径被打破

随着 Scaling law 的纵深发展,其发展的固定路径已经被打破!进入了新的 Scaling law 2.0 阶段。

DeepSeek-V3 的发布在领域内引起广泛讨论,他们用正常十分之一的算力达到目前大语言模型的 SOTA 性能。个人认为这个工作的出现标志着 GPT-1 以来基于 Scaling law 的固定迭代路径已经被打破了,是个模型架构和工程优化结合的突破性成果。由此也让领域内看到模型工程优化的高度,所以模型架构在芯片计算层的优化将会是大模型训练和推理的研发重点方向。由此路径深入迭代,将会把模型工程引向模型架构和芯片架构深度融合的类脑芯片方向,从而突破 Scaling law 的限制,把模型训练和推理带入下一个阶段。当然,这个方向需要时间探索。国内刚刚发布的 MiniMax-01 模型也是这类不错的工作。

除此之外,OpenAI o1 开启 Test/inference-time scaling law 的阶段。语言大模型可以看成是知识的压缩,那怎么利用知识产生更好的智能就是基于基础模型的思维推理必然发展的方向。思维推理的发展也从一维单链路 CoT 模式到基于像蒙特卡洛树搜索 MCTS 的系统化多维推理演化,从而构建更智能更体系化的思维模型。推理算法的发展也反过来影响基础模型的 Scaling law 路径,例如微软 rStar-Math 算法无需从大模型蒸馏也能用 60 块 A100 训练的 7B 模型在数学推理上媲美达到 OpenAI o1 性能。上海 AI 实验室的书生・浦语 3.0 的 InternLM3-8B-Instruct 模型通过提升数据质量和数据工程,只用 15% 的算力达到 SOTA 性能。过去半年这类工作有不少,就不一一列举。

总结来说,无论数据维度、模型尺寸维度、还是算力维度,Scaling law 在模型上的体现已经过了粗狂式的发展阶段,进入追求更有效的数据使用方式、更合理的架构设计、更极致的工程优化、更体系化的思维推理的 2.0 阶段。

3.3 底层架构趋向统一

这里所说的架构可以分为两个层面,一个是指生成架构,例如自回归模型、扩散模型、流模型、生成对抗网络等;另外一个层面就是逼近函数通用的网络结构,例如卷积神经网络、LSTM、U-Net、Transformer 等。Transformer 架构因其对 Scaling law 的优良适配性,正在成为多种算法统一的底层架构。自然语言处理领域的自回归模型、擅长视觉任务的扩散模型和常用于 AI for Science 方向的图神经网络模型,都呈现了逐步收敛到 Transformer 架构之上的发展趋势。

在过去的一年,Sora 的出现不仅仅是视频生成的突破,也改变了视觉方向的底层架构设计,DiT (Diffusion Transformer) 迅速成为视觉方向业界公认的基础架构,算法的设计都往这种架构收敛,这就是算法发展的不可预料性和强大活力。Transformer 问世于 2017 年,当时在 NLP 领域只用了两三年时间迅速替代当时的主流框架 LSTM。在 Transformer 没有诞生之前,LSTM 在 NLP 领域占有绝对的主导地位,无人能预料到这么快会被边缘化 —— 但就是这么发生了,这种不可预料性也是算法研究的乐趣所在。

在多模态方向上,理解、生成、理解和生成的统一等任务和模态的统一架构研究也非常活跃。业内期待能有一个大一统的架构可以把不同模态和任务统一,有代表性的例如智源研究院基于自回归架构的 Emu3 和 Meta 的 MetaMorph 模型。

架构趋于统一对于 AI 发展来说很有意义。首先,统一的架构可以显著地增强 AI 系统的互操作性,深度探索不同模态、不同语义、不同尺度数据的深层次关联性,这对人类通过 AI 认知和理解世界有决定性意义。达摩院在这个方向有跨领域跨学科的项目在开展中。另外,统一的架构也将大幅提升研发和部署效率,不仅使 AI 底层基础设施的模型系统架构更加简洁,也使推理的软硬件架构可以在不同领域快速泛化使用,这将大大加速 AI 研发效率、产品的落地速度、和普惠化程度。

自回归模型会是生成模型的最终答案吗?目前只能说,可能性是存在的。但是同时我们也要看到扩散模型除了在视觉方向的广泛应用以外,在 AI for Science 方向也正在被普遍使用。Transformer 会是 AI 的终极底层架构吗?终极答案是否定的,但在一定时间内 Transformer 还会是大多数 AI 算法设计的最优选择。尤其是随着 AI 的广泛应用,深入千行百业,会强化 Transformer 的主导地位,因为无论工程和系统方面,还是芯片等硬件层面,目前都是围绕 Transformer 架构进行的。除非有一个突破性的新架构出现,否则 Transformer 很难在短期内被颠覆。

3.4 生成模型是 AI 算法的第一性原理

深度学习解决了复杂函数的通用逼近问题,而生成模型解决了概率论里的古老问题 —— 高维数据分布 (或是非线性结构) 的拟合。我们上大学时学习概率论,核心就是估计概率密度函数、拟合数据分布。为什么拟合数据分布重要?因为 AI 处理的就是数据,一旦拟合了数据分布,寻找到数据结构的机理,就能通过直接采样生成新的数据。因此,绝大多数 AI 要解决的任务,本质上都可以简化成对数据分布的拟合和对数据分布的修正这两个很基础的问题。所以生成模型是非常本质的,它成为 AI 的基础模型是符合第一性原理的。

生成模型一定程度上可以突破互联网数据阶段性见顶和各个领域内数据缺乏的困境,对推动 AI 发展的作用远超作为算法应用本身。例如基础模型性能发展最成熟的 NLP 领域,生成数据用于训练模型已经是常态,是解决 NLP 数据困境的有效途径。除了视频方向的 Sora,自动驾驶领域也在用生成数据来解决 corner case 的问题。Tripo 和 Rodin 三维生成模型也展现了令人鼓舞的前景。科学方向基于扩散模型的 RFDiffusion 和 Chroma 算法可以用于蛋白质设计。微软发布了可以快速生成不同类型无机材料的基础模型 MatterGen。医疗方向也在用生成模型解决医疗数据稀缺的问题。随着各个模态生成基础模型性能的成熟,其它方向也会如此。

更重要的是,基于生成模型的思维推理是构建智能的关键。目前生成模型的发展和使用还在初期阶段。基于生成模型对于知识的建模、结构的拟合、智能的构建才刚刚开始,新的思维范式也将会在未来几年里出现。从点线的低维度推理模式到高维度体系化思维能力的演化,不仅会促使模型能力的极大提升,也会让研究员重新审视模型架构的设计本身,从而加速 AGI 时代的到来。

4. AI 产业进入百花齐放阶段

前面重点讨论了技术方向,接下来,让我们展望 AI 的产业影响。人类有几个基本的特点:血肉之躯的能力限制,所以物理工具是必需品,而最极致的工具是物理化的人 —— 机器人;知识无法遗传,所以教育不可或缺;肉体衰老死亡,所以医疗是人类社会的刚需服务;活动受到物理环境的限制,所以数字仿真必将成为 AI 的基础设施。我们就聚焦在硬件、教育、医疗、和数字仿真这几个题目进行简要讨论。

4.1 智能硬件具备爆发条件

2024 年像谷歌的 Gemini、OpenAI 的 GPT 系列、阿里巴巴的通义 Qwen-VL、智谱的 GLM-Realtimes、和面壁智能的 “小钢炮” MiniCPM-o 2.6 端侧模型都在多模态和视觉理解能力上取得了显著进步。人类本来就是利用视觉、语言、听觉、触觉等不同模态的信息来进行和环境感知和交互的,所以多模态是人机交互的关键。多模态基础模型能力的成熟会促使两个方向的进步:一个就是数字智能体,也就是现在说的 Agent;一个是物理智能体,也就是包括机器人在内的智能硬件。所以按照技术演化的逻辑,2025 年智能硬件会迎来高速发展期。

在人机交互的信息媒介中,语言和语音是其中两个最重要的两个基础模态。对于语音,除了智能手机之外,智能耳机会是自然的人机交互的指令入口,所以会在 AI 驱动的智能硬件中占有核心的地位。国内字节和讯飞都在消费级智能耳机方向上率先发力。另外,轻量级的脑机接口设备也在 CES 2025 上出现,例如美国初创公司发布的 Omi 的 AI 可穿戴设备。这种类似的智能硬件虽然轻量,但是都是不同模态人机交互入口级别的智能硬件,值得关注。

另外一个大的方向就是机器人,刚才在具身智能章节中从技术的角度阐述了关于机器人的看法。但是从产业落地的角度去观察,是不同的路径。目前业内认为率先落地的是工业场景,如汽车总装线,这个场景下机器人的目标是替换高级技工并带来产能的提升。另外一个就是家庭智能玩具,它基于轻机器人本体路线,但带来多模态的人机交互。

和主流看法有点差异,我们认为对于未来机会的把握这两个都不是当下落地的理想路径。而二者的结合:一个低自由度,结构简单稳定,能够带来 “轻、静、快” 的物理交互,又能结合 AI 提供多模态感知交互的机器人,很可能会更早地形成可以持续的商业生态。在 2025 年,除了大家都熟知的人形机器人,我们更期待一款可落地的消费级机器人新品类出现。

4.2 医疗 2.0 时代开启

在 AlphaFold 荣获 2024 年诺贝尔奖后,几乎所有人都意识到了 AI 解决基础科学问题的巨大力量,AI for Science 已成为毋庸置疑的重要趋势。其中,生命科学和医疗是关乎人类福祉的方向。AlphaFold 发明人之一、DeepMind CEO Demis Hassabis 也预测人类有可能在未来十年内治愈大部分疾病。这一预测如果成为现实,那将是医药诞生以来的历史性进步。

在过去几个月里,Nature 正刊上接连发表了病理学基础模型 CHIEF、精准肿瘤学多模态基础模型 MUSK、人类细胞类型的转录基础模型 GET,还有 Nature Medicine 上解决医疗图像合成的生成基础模型 MINIM,多模态医疗基础模型 BioMedGPT 等。这些基础模型工作的接连出现,标志着医疗技术 2.0 时代的到来。医疗方向正在从针对单病种单类型的技术时代快速向基于基础模型加具体任务微调的大模型范式转换。另外,完整周期的大队列数据对于疾病治疗至关重要,但是获取完整队列数据非常困难而且周期很长。借助生成模型,有望解决医疗周期数据缺失的问题,这对医疗领域取得实质性进步意义重大。

达摩院在医疗 AI 方向成果显著,在 Nature Medicine 上发表了基于平扫 CT 影像的胰腺癌检测算法 DAMO PANDA,是业内首次借助平扫 CT 进行胰腺癌筛查的方法,为大规模低代价进行胰腺癌筛查开辟了新的路径。这项工作被斯坦福大学发布的 2024 年 AI 指数报告列为 “年度亮点研究”,是国内唯一入选的工作。目前达摩院正在进行中的多病种统一算法架构、医疗多模态基础模型和肿瘤动力学等相关研究,也有望在今年取得重要进展。

4.3 AI 驱动的教育

无论孔子时代的问答式教学、还是柏拉图时代开启的思辩,教育至今都延续老师和学生物理互动的模式。学生学业的高度很大程度上取决于老师水平的高低和资源的多少,因此,受限于不同地域和文明发达程度的不一,人类离教育普惠一直遥不可及。令人欣喜的是,这种状况要在 AI 时代终结了。

在谷歌的 Gemini 多模态模型和 OpenAI 的多模态模型发布会上,都不约而同地展示了多模态大模型在教育场景的应用示例,这足以说明 AI 公司对于利用 AI 技术解决教育问题的期待和重视程度。AI 将人类沉淀的知识压缩到模型中,从而利用记忆和组合生成可以创造出比人类更加智慧聪明的数字智能体。所以在不远的将来,利用多模态大模型的能力,虚拟老师的水平将会超过几乎所有的真实老师的水平,从而使教育提高到一个全新的高度。只要有可以运行 AI 软件的硬件终端,人人都可以获取最好的教育。这会在未来五年内发生,将是人类教育事业全新的开始。

但是教育本身也包含物理互动的过程,而且这是数字智能体没法完全取代的,所以教育方向将有适应 AI 时代的各种智能硬件出现。

4.4 数字仿真 2.0

2024 年对于 AI 发生的其中有一个转折就是算法到物理世界的转场。AI 为了更好地适配物理世界并实现落地,各类数字化仿真将会成为不可或缺的基础设施。世界模型就是其中一个备受关注的方向,还有现象级讨论的 Genesis 物理仿真平台等。但是这里谈到的数字仿真远不止现在学术界研究的世界模型覆盖的范畴,这是一个涵盖从微观尺度到宏观尺度的数字技术和物理世界映射的范式变化。

英伟达在数字仿真领域上进行了系统化的深入布局。NVIDIA Isaac、Omniverse 和 Cosmos 等平台正构建一个完整的仿真生态系统,重塑工业研发链路和范式。在 CES 2025 上,英伟达演示了在自动驾驶仿真、飞机制造、机器人研发以及工业场景的数字孪生等方面的应用,展现了广阔的前景。

不仅在工业场景,数字仿真在生命科学上也展现了巨大的潜力。2024 年 DeepMind 和哈佛大学在 Nature 上发表了由 AI 生成的数字生命体 —— 虚拟老鼠,使用命名为 MIMIC 的算法能够模拟啮齿动物的大脑活动和行为表现,在生物动力学方向取得重要突破。国内智源研究院提出了 BAAIWorm 天宝,实现了秀丽隐杆线虫的神经系统、身体 和环境的交互仿真。基于真实物理世界机理的生物动力学仿真,将会开启一个全新的生命科学研究范式,有着深远的意义。

在数字化时代,原则上几乎每个物理世界的场景都可以进行仿真。从核聚变研究到细胞活动模拟,从机器人研发到数字生命体建模,从机械动力学到生物动力学,从微观到宏观的自然界都将会在仿真系统中被重建。

5. 结语

这轮 AI 浪潮会把人类社会带入全新的智能时代,人类认知世界、改造世界的能力将得到空前的提高。可以预料到的是,三十年后我们将身处一个与现在完全不同的崭新世界。作为 AI 从业人员,我们非常荣幸可以参与这一历史进程,也希望本文能够为 AI 同仁探索未来提供一些启发。未尽之处,欢迎关注 “DAMO 开发者矩阵”,我们将在后续文章中持续探讨 AI 的前沿趋势与应用展望。

相关资讯

LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law

支持大模型一路狂飙的 Scaling Law 到头了? 近期,AI 圈针对 Scaling Law 是否到头产生了分歧。 一派观点认为 Scaling Law 已经「撞墙」了,另一派观点(如 OpenAI CEO Sam Altman)仍然坚定 Scaling Law 的潜力尚未穷尽。

大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

大模型的成功很大程度上要归因于 Scaling Law 的存在,这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。以往的大量研究集中于上游复杂度或交叉熵损失的 Scaling law(即在预训练数据上进行评估),但在实际应用中,模型通常要经历一个迁移学习的过程:首先在无监督数据上进行预训练,然后针对特定的下游任务(如编码或翻译)进行微调。那么,Scaling Law 能不能用于预测下游任务性能?这个关键问题很大程度上仍未得到解答。在最近的一

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。Scaling law 告诉我们:只要能适当地分配参数和数据,就能在固定计算预算下实现性能最大化。之前已有不少研究探索过神经语言模型的 Scaling law,而这些研究通常得出的结论是参数和训练 token 数应当一比一地扩展。但是,之前的语言模型 Scaling law 研究都是基于在散乱的网络文本上训练的 Transformer 得到的。这是一