百科问答小站 logo
百科问答小站 font logo



在实际工程系统中,MPC太复杂,难以做到realtime。因此都利用数据,MPC对比RL还有优势么? 第1页

  

user avatar   REX-X-96-9 网友的相关建议: 
      

MPC目标是在给定模型下,优化有限长horizon的一个cost function,来构建控制输入。

显然,MPC的目标和Model based RL并不冲突,也就是technically speaking,MPC是RL的一个子问题而已。

ML的人厉害的地方在于,他们把他们搞的东西内涵定义的如此之广,其他领域的东西,也是他们的东西,其他领域有了进步,也能增加他们的荣光。这点传统领域的人好好学学。

/////////////////////////////////////////

如果说狭义上有什么区别的话,MPC传统上是基于对轨迹直接数值优化求解的,因此一般只能给出当前状态下的最优控制输入。而大部分RL的求解是要给出任意状态的控制输入,即一个optimal control law(RL那边叫control policy, 但我要坚持我们control的传统)。例如最简单的mpc问题:线性系统二次型cost function,那就相当于本科生就学的LQR,此时MPC有解析形式解,因此LQR情况下MPC也可以给出一个control law,而不只是当前状态的最优控制输入。

可以注意到,model based RL和传统的optimal control并无不同,只是换了个名称而已。虽然听上去RL要给出一个global control law很厉害的样子,但绝大部分的系统这一点实际是不能可靠做到的,于是最近几年DRL就主张用Deep nets去fit这样的control law (or the value function)。至于能不能work,那就看诸位对ML的信仰虔诚不虔诚了。至于MPC就朴实的多,数值优化至少能返回一个local optimal,有的时候可以证明local optimal就可以达到理想的控制效果了。而利用优化问题的稀疏性,mpc 优化算法可以做到非常实时,嚷嚷mpc爆慢的摸着良心说你有没有学过最优化理论。当然,对于复杂的非凸问题,靠局部的数值优化也是不够的,这里就不展开了。

再补充一点,如果只是给出当前状态下的最优输入,这个问题又被叫做optimal planning。当然,按照广义的RL, optimal planning也算是RL的,比如monte carlo tree search,作为一种planning algorithm, 也通常被认为是RL。




  

相关话题

  国内做NLP业务的香侬科技值得去吗? 
  为什么要用强化学习控制机械臂呢? 
  2018年了,MXNet 发展的如何了? 
  如何评价 DeepMind 新提出的关系网络(Relation Network)? 
  CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别? 
  测试集在构造的时候需要人为控制其中应该正确的和应该错误的数据比例吗? 
  基于深度学习的自然语言处理在 2016 年有哪些值得期待的发展? 
  为什么要用强化学习控制机械臂呢? 
  为什么说大模型训练很难? 
  有哪些LSTM(Long Short Term Memory)和RNN(Recurrent)网络的教程? 

前一个讨论
2020年你的控制理论研究有什么收获和感悟?
下一个讨论
大林算法与PID算法有什么本质区别?





© 2024-06-28 - tinynew.org. All Rights Reserved.
© 2024-06-28 - tinynew.org. 保留所有权利