百科问答小站 logo
百科问答小站 font logo



在优化问题里,强化学习相比启发式搜索算法有什么好处? 第1页

  

user avatar   zhenlingcn 网友的相关建议: 
      

最大的好处就是神经网络的可塑性非常强,并且号称具有迁移学习能力。举一个最简单的例子,对于传统优化问题来说,无论是贝叶斯优化还是启发式算法,对于每求解一组新问题,都需要针对每个实例(例如一个TSP路径规划实例)运行一次完整的优化算法。但是实际上这些问题的最优解可能有某种强关联,对于这种情况,基于神经网络的强化学习算法一旦解决了其中某一个问题,就有可能快速求解其他问题。一个直观的理解就是Pointer Network,通过监督学习/强化学习,神经网络可以根据已经求解的TSP方案确定一个新的TSP规划问题的方案。

但是,上述情况只是理想情况,在真实的基于强化学习的优化场景中,强化学习的训练过程其实相当复杂,目前的主流算法A3C和PPO目前来看并不能高效利用搜索过程中的知识。目前来看,RL算法在调参之后可以达到近似专业求解器的效果。但是短期来看,鉴于专业求解器的可解释性和鲁棒性,基于强化学习的优化算法依然有较大的提升空间。下图是港中深的查宏远老师AAAI 2021年的RL-Based TSP Solver的最新成果,可以看到RL方法尽管已经有非常大的进展,但是相比启发式方法依然有一定程度的差距。

上面有提到,神经网络擅长学习而不擅长搜索,而传统搜索算法,例如演化算法和启发式搜索算法擅长搜索而不擅长学习。考虑到这种困境,其实一个很好的解决方案是让演化算法去搜,然后让神经网络去看着演化算法的结果学习。目前来说,优化算法和强化学习的结合已经逐渐引起了大家的注意。在目前的基于强化学习的TSP求解算法中,已经有不少的算法尝试先基于近似最优解(Oracle)进行imitation learning/supervised learning,随后再使用强化学习算法进行学习。上图所示的SL+RL就代表了这种思想,可以看到相比传统的单纯基于RL或SL的Deep Learning Solver,这种混合了启发式算法知识和强化学习策略的求解器可以取到更好的性能。可以预见,在未来,这样的模式将会被广泛推广到Bin Packing、Job Shop Scheduling等各个组合优化领域,相比与熟优熟劣的争执,这种对不同算法的结合策略显然是更有价值的。




  

相关话题

  隐马尔可夫模型在金融领域应用前景如何? 
  未来五年,数据科学家(Data Scientist)的岗位需求会如何变化? 
  求通俗解释下bandit老虎机到底是个什么东西? 
  科研没有思路,我该怎么办? 
  怎样衡量一个机器学习工程师对算法的掌握程度? 
  Python中 __init__的通俗解释是什么? 
  GAN(对抗生成网络)可以被用于哪些(商业或潜在商业)实际问题? 
  插值和拟合最根本的区别是什么?机器学习为啥用拟合?? 
  如何看待多模态transformer,是否会成为多模态领域的主流? 
  怎么通过一维分布的随机样本推测原分布? 

前一个讨论
BERT模型可以使用无监督的方法做文本相似度任务吗?
下一个讨论
传说中越老越吃香的会计和审计会有 35 岁危机吗?





© 2024-12-26 - tinynew.org. All Rights Reserved.
© 2024-12-26 - tinynew.org. 保留所有权利