重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式

人工智能顶会NeurIPS 2024大会公布了本年度最佳论文奖，今年大会共收到15671篇论文，最终接收率只有25.8%，其中两篇文章获得最佳论文奖一是由北大与字节跳动团队共同完成的《Visual AutoRegressive Modeling: Scalable Image Generation via Next-Scale Prediction》（VAR）获得（尴尬的是论文一作田柯宇被字节起诉，我们这里就不八卦了，网上有很多瓜，还是专注于解读技术）。这篇论文提出了一种颠覆性的新型图像生成框架，不仅首次让自回归模型超越扩散模型，还开创了“逐尺度预测”的全新范式，为视觉生成领域开辟了全新的方向另一篇是由新加坡国立大学、 Sea AI Lab 研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》论文一作为 Zekun Shi北大与字节的获奖论文推出的模型VAR是首个在视觉领域验证“规模化定律”的模型，个人认为这是中国本土从0到1的生成式人工智能基础研究重大突破paper：“逐像素”到“逐尺度”VAR模型最核心的创新在于重新定义了图像生成的过程，将传统的逐像素生成方式彻底颠覆：1. 多尺度预测的新范式传统自回归方法采用“逐像素”的方式，即从图像的左上角逐行生成，依赖每个像素的前置依赖。

人工智能顶会NeurIPS 2024大会公布了本年度最佳论文奖，今年大会共收到15671篇论文，最终接收率只有25.8%，其中两篇文章获得最佳论文奖

一是由北大与字节跳动团队共同完成的《Visual AutoRegressive Modeling: Scalable Image Generation via Next-Scale Prediction》（VAR）获得（尴尬的是论文一作田柯宇被字节起诉，我们这里就不八卦了，网上有很多瓜，还是专注于解读技术）。这篇论文提出了一种颠覆性的新型图像生成框架，不仅首次让自回归模型超越扩散模型，还开创了“逐尺度预测”的全新范式，为视觉生成领域开辟了全新的方向

另一篇是由新加坡国立大学、 Sea AI Lab 研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》论文一作为 Zekun Shi

北大与字节的获奖论文推出的模型VAR是首个在视觉领域验证“规模化定律”的模型，个人认为这是中国本土从0到1的生成式人工智能基础研究重大突破

重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式 paper：https://openreview.net/pdf?id=gojL67CfS8

从“逐像素”到“逐尺度”

VAR模型最核心的创新在于重新定义了图像生成的过程，将传统的逐像素生成方式彻底颠覆：

1. 多尺度预测的新范式

传统自回归方法采用“逐像素”的方式，即从图像的左上角逐行生成，依赖每个像素的前置依赖。这种方法不仅效率低，还容易丢失图像的全局结构感。而VAR模型则通过引入多尺度VQVAE，将图像分解为从粗到细的多层次token。生成时，VAR从最低分辨率的全局token开始，逐层生成更高分辨率的细节，从而实现了对图像的“逐尺度预测”

重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式

实现细节：

• 首先通过多尺度VQVAE将原始图像编码为多层分辨率token

• 在每一层分辨率上，自回归模型并行生成token，并利用上下文信息预测更高分辨率的细节

重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式

这种方式不仅保留了图像的空间局部性，还避免了传统方法中将图像展平成一维序列所引入的空间破坏

2. 效率的极大提升

传统自回归模型需要逐像素生成，每个步骤依赖所有前置像素，时间复杂度高达

重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式

VAR则通过“逐尺度并行”的方式，将复杂度降低至

重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式

这一优化使VAR在推理速度上比扩散模型快20倍，同时接近于GAN的实时生成速度

3. 视觉生成的“Scaling Law”

VAR模型首次在视觉领域系统性地验证了‘规模化定律’，展示了模型参数和训练计算量与性能提升之间的强线性关系。团队通过实验发现，VAR模型的性能随着参数规模的增加呈现出线性提升，与大语言模型的扩展性相似。这种特性不仅使VAR在图像生成中具备更强的性能预测能力，还为更高效的资源分配提供了理论依据

重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式

通过实验对VAR模型进行规模化（即增大模型参数和计算量）时的学习效果进行可视化分析，并验证了规模化定律的有效性

首度击败扩散模型

在ImageNet 256×256基准测试中，VAR的表现堪称惊艳：

1. 生成质量

VAR的FID分数达到1.73（分数越低越好），显著超越扩散模型（如DiT-XL/2的2.27）和传统自回归方法（如VQGAN的15.78）

重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式

在IS（生成图像多样性）指标上，VAR也达到了350.2的高分

2. 推理速度

VAR比扩散模型快20倍，并且在计算资源消耗上更高效。它仅需10步推理即可生成高质量图像，而扩散模型通常需要250步以上

3. 零样本泛化能力

VAR无需额外训练即可胜任多种任务，包括图像修复（in-painting）、扩展（out-painting）以及条件编辑。这一能力得益于VAR对图像多尺度结构的深度建模，使其在陌生任务中也能展现出惊人的灵活性

重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式

从图像到多模态智能

VAR的潜力不仅局限于图像生成，其应用场景和未来发展方向同样令人期待：

1. 文本到图像生成：团队计划将VAR与大型语言模型结合，实现更强大的文本到图像生成能力，例如通过提示生成高质量的插画或艺术作品
2. 视频生成的革命：VAR天然支持视频生成的扩展，通过将“逐尺度预测”应用于时间维度，VAR有望解决传统视频生成方法在时间一致性上的难题，为影视制作和虚拟现实领域注入新活力
3. 产业应用：在游戏开发、电影特效、教育可视化等领域，VAR模型将为用户提供更快、更高效的视觉生成解决方案

结语：

VAR模型的成功不仅是技术上的突破，更是一种范式转变。它让我们看到，大语言模型的成功经验可以移植到视觉领域，从而激发出更强大的多模态智能。随着更多模型代码和数据的开源，VAR有望成为视觉生成领域的开山之作，推动下一代AI技术的发展

VAR项目地址：

https://github.com/FoundationVision/VAR

{{userData.name}}已认证

重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式

从“逐像素”到“逐尺度”

首度击败扩散模型

从图像到多模态智能

打击李飞飞空间智能，DeepMind 造出“无限世界”Genie 2：AGI 训练场

OpenAI o1 模型到来后，谈谈提示词工程的未来

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

ChatGPT遇到这些人名开始自闭，OpenAI回应了

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

平安人寿ChatBI：大模型智能化报表的深度实践

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则