英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料
学习解决图上二进制优化的i级框架
王润中、华志刚、刘干、张家义、严俊池、齐奋、、杨爽、周军、杨晓康上海交通大学教育部教育部重点实验室2蚂蚁群[王润中,张家益尔,延俊池,xkyang)@situ.edu.cn[卓,柳干1G,凤起,双阳,六月]。zhoujun@antgroup.com
摘要组合优化(CO)以其Np难的性质一直是一个具有挑战性的研究课题。传统上,这类问题是用启发式算法近似解决的,启发式算法通常速度快,但可能会牺牲解的质量。目前,组合优化的机器学习(MLCO)已成为一个热门的研究课题,但现有的MLCO方法大多通过直接学习端到端的解来将CO视为单级优化,由于CO的高度复杂性,很难扩展,且主要受限于ML模型的容量。在本文中,我们提出了一种结合两个世界中最好的方法的混合方法,其中开发了一个双层框架和上层学习方法来优化图(例如,添加、删除或修改图中的边),并在优化图上融合了下层启发式算法求解。这种双层方法简化了在原始硬coas上的学习,可以有效地降低对模型容量的需求。在有向无环图调度、图编辑距离和哈密顿圈问题等几个常见的协同问题上的实验和结果表明,该算法比人工设计的启发式算法和单层学习方法更有效。可用代码athttps://github.com/thinklab-sjtu/ppo-bihyb。
引言组合优化(CO)是一类长期存在的优化问题。由于组合的性质,大部分协问题都是Np难问题,这给传统(精确)求解者在中等规模问题上提出了挑战。通常采用启发式算法在可接受的时间内近似解决协同问题,并且采用现代数据驱动方法解决协同问题的趋势越来越大,以获得更好更快的结果[30使用机器学习(ML)解决协同问题的主要工作是单级[8,25,29,30.394157,5%,64],假设模型有足够的能力学习CO问题的输入-输出映射,则ML模块的预测位于解空间中。然而,实现任何一个假设都是非常重要的,这导致了以下两个方面的挑战。一方面,在有限的计算资源下设计一个具有足够容量的模型是一个挑战,而现有的模型通常是针对需要严重跟踪Id错误的特定问题而定制的[25,57,59]。另一方面,训练如此繁重的模型需要来自高质量标签[31,57,60]的监督,由于Np难的性质,这些标签对于大型问题是不可行的,或者强化学习(RL)[8,30,38,39],这可能是不稳定的,因为大行动空间和稀疏奖励的挑战,特别是对于大型问题[52]
部分工作是在第一作者作为一名实习生在Ant GrPr.Junci-Yin实习期间完成的。第三十五届神经信息处理系统(NoRIP 2021)虚拟会议
另一种方法采用混合机器学习和传统优化管道[1826,31,51,60,61],希望利用传统优化方法的力量。然而,设计通用的混合MLCO方法仍然非常重要,因为现有方法[I 60]通常需要模型设计的领域特定知识。获得高质量的监管标签又是一个挑战,现有的方法是基于特定问题的代理标签[8,31,60]或通过RL学习的,而RL的挑战仍然存在[1151在本文中,我们提出了一种图上的通用混合MLCO方法。我们首先通过将原始CO转化为双层优化来降低深度学习模型的复杂性,双层优化的目标是通过优化图结构最小化长期上层目标,下层问题由现有存在处理讽刺的。我们求助于RL,传统的启发式可以作为环境的一部分被吸收,结果表明,与以前基于RL的方法相比,由此产生的RL问题产生了稀疏奖励[8,30,38,39具体而言,我们的模型是用标准构建块构建的:输入图由GraphConvolutional Network(GCN)[32]编码,演员和评论家模块基于Resnet模块[22]和注意力模型[55]。所有模块均采用近端策略优化(PPO)算法学习[48]。本文的贡献包括:为了结合这两个世界的优点,我们提出了一种将传统启发式求解器与机器学习算法相结合的通用混合方法。我们提出了一种学习求解图上CO的双层优化公式。上层优化采用强化学习代理对图进行自适应修改,下层优化采用传统的无学习启发式算法对修改后的图进行组合优化。我们的方法不需要地面真值标签。在几个流行的任务上,如DirectedAcrylic Graph scheduling(DAG调度)、Graph Edit Distance(GED)等,对多达数千个节点的图形进行了实验,哈密顿循环问题(HCP)表明,该方法明显优于传统的无学习启发式方法和单级学习方法。我们的方法可以很好地推广到不同大小的图,同时与单级学习方法具有相当的开销。
2相关工作
这里我们讨论最近调查中列出的相关工作[4.62,63]。我们介绍了他们的方法,并与我们的方法进行了比较,将端到端解决方案作为一个序列进行学习。现有MLCO的主要工作重点是通过预测一系列解决方案来解决端到端的问题[25415759.64。开创性的工作[57]是针对旅行商问题(TSP),通过监督学习来学习序列到序列指针网络(Ptrnet)模型。在[30]中。提出了一个图到序列的框架,其中图嵌入[10和Q-learning 140]是图上的一般CO,该框架启发了MLCO的主要路线,并将其应用于DAG调度[3]、图匹配[36]和job shop调度1641。[35]通过问题约简和基于监督学习的树搜索扩展了[30]。本文将[30]中的框架视为RL基线。我们的方法不同于这些单级端到端RL方法[30 36,38,39],他们缺乏灵活性,无法借用传统方法的力量,并且经常遇到RL中的基本问题:报酬稀少和行动空间大学习重写端到端解决方案。另一种端到端学习方法是预测现有解决方案的编写策略[8 38],其中模型预测也存在于解决方案空间中。代理学习改进决策序列中的现有解决方案,并研究了作业调度、表达式简化和路由问题。这些基于学习的局部搜索启发法也属于单级范例,而我们的方法在图结构上结合了其他优化。[8,381]也存在稀疏奖励问题,因为搜索令人满意的结果通常需要一段时间的无监督端到端学习。对于CO的输入-输出映射,也有越来越多的趋势使用一段时间的无监督方法,最大团和图切割由[29]解决,[59]解决的二次分配问题。然而,这些方法的泛化能力仍然是一个悬而未决的问题,复杂的约束条件往往是不可忽略的。
图一概述了我们的双层混合MLCO求解器。图结构在上层由RL代理优化,优化后的图在下层由启发式算法求解。这些操作可以是对边的任何修改(即添加、删除边和修改边属性),在本例中,边删除在网络预测中编码。此外,与机器学习和传统求解器的多轮交替优化模式相比,这种一次性端到端网络通常需要更高的模型容量。与端到端学习解决方案不同,研究人员还提出了混合机器学习和传统求解方法。MLM模块作为传统求解器的子例程进行研究,特别是使用监督学习[8,3]或强化学习预测分支和边界的分支策略[5I.在60年,A*算法中的启发式例程被图形神经网络所取代,以解决图形编辑距离问题。然而,这些方法是为特殊问题量身定制的,我们的目标是开发一个更通用的框架,其中学习部分和启发式模块是两个对等点交替执行。双层优化。我们的方法是b基于双层优化,这是一系列优化问题,其中下层优化嵌套在上层优化中。双层优化一般为Np难[27,56],双层优化的应用范围从多人游戏[27]到视觉任务[37],采用监督学习来解决运输的双层优化问题是一个松散相关的尝试[2]
3、在本文中
我们提出了一种双层混合(Bihyb)机器学习和传统启发式方法。秒。3 . ] 显示了CO和Sec的单级和双级配方。3.2显示了达到二级CO3的方法。1个组合优化不损失一般性的双层优化,我们考虑经典的单级CO与单个图G asmin f(x9)S.T.Hi(x,9)<0,对于i=1,这里x表示决策变量(即解),f(x9)表示目标函数GIVIN输入图G和H;(x,9)lt;0表示约束集。例如,在DAG调度中,约束强制要求解决方案x(即DAG作业节点的执行顺序)位于可行空间中,并且不与g的拓扑依赖结构冲突。现有MLCO方法的流行框架将Eq视为直接的端到端学习任务,并开发了各种培训方法,包括:1)监督学习141,57]通过使用传统求解器求解小规模Eq U获得培训标签,然而,解决较大的Np难问题几乎是不可行的;2)无监督学习[29,59]采用连续放松的学习目标,但现有方法在处理复杂约束时面临挑战;3)强化学习[8]通过顺序预测x,但奖励信号在x达到完整解之前不可用,导致奖励问题稀疏为了缓解单级公式带来的挑战,我们求助于经典思想修改原始问题以帮助解决问题,例如,为整数编程添加剖切面[19,54]如果所有约束都可以通过图结构编码,我们提出的框架能够处理图上的CO,我们的动机由以下假设描述。
最优解x“到g可以通过修改g来获得。我们通过引入以下命题来证明这一假设对于一系列问题的可行性。我们将g定义为可从9修改的所有图的集合,X定义为g的所有可行解的集合。如果启发式算法是从g到X的满射,则对于g和its最优解x,必须存在9“E G,这样x是通过解9Proof得到的启发式的输出。根据满射的定义,由于x x,必须至少存在一个像x这样的图G”“是通过求解gWe的启发式算法的输出,以DAG调度为例来阐明这一命题。在不丧失通用性的情况下,我们定义按顺序处理节点1到n作为可行解。然后,我们可以修改图形如下:如果连接i到i 1的边不存在,则添加它。在添加al后l从1到n,按顺序处理从I到n的节点是唯一可行的解决方案,这也是任何启发式算法的输出。上述施工方法适用于某些备注中的所有解决方案。我们的假设和命题为发展单层次问题提供了理论基础。由于实际原因,我们限制了最大修改次数。3解决组合问题的图形修改方法。值得注意的是,在本文中,g“仅表明图修改是一个有前途的方向,而给出的g”的求法通常是Np难的,我们建议通过基于原始单水平问题的双水平重新表述中的双水平重新表述的学习来寻找优化(不一定是最优)图,从而提高启发式算法的求解质量,引入了一个优化图Sis。
其中,f(x9),f(xl9”)分别是上层和下层问题的目标。下层问题是给定优化图9的共同目标,该优化图9通过启发式算法求解。已求解的决策变量x“进一步反馈给上层问题,其目标f(x9)表示由x计算的原始共同目标。上层约束H(9,9)lt;0确保g的可行空间是9的子集,并且从9开始最多有K个修改步骤。上层问题通过RL代理将Eq 2视为环境进行优化。
3.2强化学习算法
我们求助于强化学习来优化gin Eq 2,这可以被视为经典双层优化方法的数据驱动实体,通过交替解决两层问题[3.2节中的531。我在第3.2节中介绍了Eq 2中双层优化的马尔可夫决策过程(MDP)公式]。3.2.2我们在我们的方法中描述了PPO学习算法。
3.2.1 MDP公式
EQ.2被视为学习目标,并由RL以数据驱动的方式进行优化。在本节中,我们将讨论马尔可夫决策过程(MDP)公式,以便将RL应用于该双层优化问题。Alg中总结了政策推出步骤。在下面的例子中,9“equalg表示原始图形,g*(k0)等于表示动作k后的修改图形。
状态当前图形被视为状态,其节点和边对probleminput和当前约束进行编码。起始状态g表示原始的协同问题动作。该操作定义为添加、删除或修改S中的边。由于ohas m节点存在atmost m2边,我们将边选择分解为两个步骤:首先选择起始节点,然后选择结束节点,从而将动作空间缩小为O(m)。在采取一个动作后,C转换为G k I,其中一条边被修改。新图g l被视为新状态,并被用于奖励计算。当达到最大动作数K时,事件结束。在我们的实现中,我们根据经验为多达数千个节点的图设置了K s 20,因此与单级RL方法(20个动作vs.每集1000个动作)奖励相比,稀疏奖励问题得到了缓解。新的图产生了一个改进的低级优化问题,其目标是sg ,并由现有的启发式算法解决。奖励计算为给定x :奖励=f(x9)-f(x#9)的高层目标函数的减少。
3.2.2近端策略优化(PPO)
我们采用流行的近端策略优化(PPO)[48]作为RL框架。PPO限制在aust区域内,以避免优化(TRPO)[47)模型更新是信赖域Poliemodel collapse的简化版本。PPO比TRPO更容易实现,其值由贴现累积报酬减去临界网络预测计算得出,e是控制信赖域边界的超参数。一些常见的策略梯度trainingtricks也被采用:我们在模型更新期间将累积奖励标准化。我们添加了一个熵正则化器来鼓励超越局部最优的探索。
4实验和案例研究
我们展示了三个具有挑战性的协同问题DAG schedulingin Sec的实现和实验。4 . ] 以秒为单位的图形编辑距离(GED)。第4.2节中的哈密顿循环问题(HCP)。4.3,我们的双层RL方法PPO-BIHYB与无学习启发法和单层RL对等方法PPO single进行了比较[30],这也涵盖了大多数基于Rl的方法[15、25、33、36、39、64]。我们还实现了随机bihyb,在我们的双层优化框架下执行随机图修改。Ppo single的模型容量和训练/推理时间与Ppo-bihyb保持一致,以便公平比较。
4.1案例1:DAG调度
有向无环图(DAG)是具有依赖性的真实世界作业的自然表示,DAG调度问题是计算机集群中并行作业调度的抽象。每个节点表示具有运行时间和资源需求的计算作业,节点可能有多个表示数据依赖关系的父节点和子节点。集群的总资源是有限的,如果有足够的资源并且concurrentobs没有数据依赖性,作业可以并行执行。这样的优化问题通常是Np难问题[14],目标是最小化所有作业的完工时间,即尽快完成所有作业。
4.1.1实施组件<!--
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[589491],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。