AI在线 AI在线

用梯度下降求解整数规划,中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

作者:量子位
2025-04-10 09:15
无监督学习训练整数规划求解器的新范式来了。 中国科学技术大学王杰教授团队(MIRA Lab)提出了一种全新的整数规划求解方法——DiffILO(Differentiable Integer Linear Programming Optimization),相关论文已被人工智能顶级国际会议ICLR 2025接收为Spotlight。 结果显示:与现有主流的监督学习方法对比,DiffILO不仅显著加快训练速度,还能生成更高质量的可行解。

无监督学习训练整数规划求解器的新范式来了。

中国科学技术大学王杰教授团队(MIRA Lab)提出了一种全新的整数规划求解方法——DiffILO(Differentiable Integer Linear Programming Optimization),相关论文已被人工智能顶级国际会议ICLR 2025接收为Spotlight。

结果显示:与现有主流的监督学习方法对比,DiffILO不仅显著加快训练速度,还能生成更高质量的可行解。

图片

引言:用机器学习解ILP,为何如此困难?

整数线性规划(ILP) 是组合优化中最基础也是最关键的一类问题,广泛应用于工业调度、物流运输、网络规划、芯片布图等现实场景。然而 ILP 的求解非常困难 —— 变量离散、可行域复杂、搜索空间指数爆炸,本质上属于 NP 难问题。

近年来,机器学习逐渐被引入这一过程,尝试通过数据驱动的方式加速求解器。但当前主流做法大多依赖监督学习:先用传统求解器(如Gurobi)生成一批解作为标签,然后训练模型去“模仿”这些解。这种做法存在两大瓶颈:

  • 高昂的训练成本:每个样本都需调用求解器生成标签;
  • 训练目标与测试目标不一致:只优化预测误差,无法保障最终解的可行性与质量。

有没有可能完全摆脱标签依赖,直接让模型“自己”学会求解ILP问题?

答案是:可以!该论文提出了DiffILO方法,可以用梯度下降来“解整数规划”!

图片

核心方法:DiffILO是如何做到的?

DiffILO,全称 Differentiable Integer Linear Programming Optimization,是一种无监督、端到端、可微分的ILP求解新范式。它的核心创新是将离散、带约束的整数规划问题,转化为连续、可微、无约束的问题,并借助深度学习模型来直接预测高质量解。

方法流程如下图所示:

图片

方法大致可以分为三个步骤:

Step 1:从离散到连续——概率建模与约束期望化

ILP问题的形式通常如下:

图片

DiffILO的第一步是将每个0-1变量图片视为伯努利分布下的随机变量,即图片

其中图片是需要优化的概率值。

传统ILP的“硬约束”图片 被转化为“期望约束违背为零”:

图片

这种期望建模方式有两个好处:

  • 仍能保留原问题的最优解结构;
  • 易于被惩罚函数进一步转化为无约束形式。

Step 2:从约束到目标——惩罚函数与可微重参数化

该方法使用惩罚函数法将上述期望约束合入目标函数:

图片

但由于该函数的采样项并不可微,DiffILO采用了Gumbel-Softmax + 重参数技巧,将离散采样近似为一个连续可导的函数:

  • 使用 图片,实现对伯努利的可微近似;
  • 使用图片保留组合结构;
  • 梯度通过图片回传,值通过图片保留,兼顾“可微”和“离散”的双重需求。

最终得到一个几乎处处可导的目标函数图片,可以直接用梯度下降

进行优化。

Step 3:从图中学——GNN建模与端到端训练

每个ILP实例本质上可以被表示为一个二分图:左边是变量,右边是约束,边代表变量出现在对应约束中。

使用一个图神经网络(GNN)来编码这个结构,输入为图G,输出为概率向量图片,再接入一个MLP进行最终预测。

训练过程完全无监督,目标是最小化上述可微目标函数图片。还引入了三种训练技巧来增强稳定性:

  • 样本归一化:对目标函数做归一处理,适应不同实例规模;
  • 余弦退火:自适应学习率调度;
  • 惩罚系数调控:动态调整μ,平衡解质量与可行性。

实验结果

作者在多个标准 ILP 数据集(如 Set Covering、Independent Set、Combinatorial Auction)上进行了系统评估。结果显示:与现有主流的监督学习方法对比,DiffILO不仅显著加快训练速度,还能生成更高质量的可行解,并且在与Gurobi、SCIP结合使用时,显著提升求解器的整体性能。

作者介绍

本论文作者耿子介是中国科学技术大学MIRA实验室2022级博士生,师从王杰教授。此前,他于2022年毕业于少年班学院,取得数学与应用数学专业学士学位。他的主要研究方向包括机器学习在运筹优化与芯片设计等领域的应用、大语言模型等。他在NeurIPS、ICML、ICLR等人工智能顶级会议上发表论文十余篇,其中五篇论文入选Oral/Spotlight。他曾获2024年度国家奖学金;曾两次获得丘成桐大学生数学竞赛优胜奖;曾在微软亚洲研究院实习,获得“明日之星”称号;曾多次担任顶会审稿人,获评NeurIPS 2023 Top审稿人;参与创办南京真则网络科技有限公司。

论文地址:openreview.net/pdf?id=FPfCUJTsCn

相关标签:

相关资讯

阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节

本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。
1/24/2025 2:19:21 PM
机器之心

快手发布DragAnything,拖动锚点精准控制视频物体和镜头运动,视频运动控制技术革命性更新

快手联合浙江大学、新加坡国立大学发布了DragAnything ,利用实体表示实现对任何物体的运动控制。 该技术可以精确控制物体的运动,包括前景、背景和相机等不同元素。 该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。
2/5/2025 10:30:00 AM
AIGC Studio

16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling

OpenAI o系列模型为何性能如此强大? OpenAI将他们的方法描述为使用大规模强化学习(RL),暗示使用了大量的数据。 最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式,成功地达到了o1级别的性能。
2/6/2025 2:28:16 PM
新智元