百科问答小站 logo
百科问答小站 font logo



在实际工程系统中,MPC太复杂,难以做到realtime。因此都利用数据,MPC对比RL还有优势么? 第1页

  

user avatar   REX-X-96-9 网友的相关建议: 
      

MPC目标是在给定模型下,优化有限长horizon的一个cost function,来构建控制输入。

显然,MPC的目标和Model based RL并不冲突,也就是technically speaking,MPC是RL的一个子问题而已。

ML的人厉害的地方在于,他们把他们搞的东西内涵定义的如此之广,其他领域的东西,也是他们的东西,其他领域有了进步,也能增加他们的荣光。这点传统领域的人好好学学。

/////////////////////////////////////////

如果说狭义上有什么区别的话,MPC传统上是基于对轨迹直接数值优化求解的,因此一般只能给出当前状态下的最优控制输入。而大部分RL的求解是要给出任意状态的控制输入,即一个optimal control law(RL那边叫control policy, 但我要坚持我们control的传统)。例如最简单的mpc问题:线性系统二次型cost function,那就相当于本科生就学的LQR,此时MPC有解析形式解,因此LQR情况下MPC也可以给出一个control law,而不只是当前状态的最优控制输入。

可以注意到,model based RL和传统的optimal control并无不同,只是换了个名称而已。虽然听上去RL要给出一个global control law很厉害的样子,但绝大部分的系统这一点实际是不能可靠做到的,于是最近几年DRL就主张用Deep nets去fit这样的control law (or the value function)。至于能不能work,那就看诸位对ML的信仰虔诚不虔诚了。至于MPC就朴实的多,数值优化至少能返回一个local optimal,有的时候可以证明local optimal就可以达到理想的控制效果了。而利用优化问题的稀疏性,mpc 优化算法可以做到非常实时,嚷嚷mpc爆慢的摸着良心说你有没有学过最优化理论。当然,对于复杂的非凸问题,靠局部的数值优化也是不够的,这里就不展开了。

再补充一点,如果只是给出当前状态下的最优输入,这个问题又被叫做optimal planning。当然,按照广义的RL, optimal planning也算是RL的,比如monte carlo tree search,作为一种planning algorithm, 也通常被认为是RL。




  

相关话题

  对于多指标评价,BP神经网络评价和TOPSIS有什么区别呢? 
  应届硕士毕业生如何拿到知名互联网公司算法岗(机器学习、数据挖掘、深度学习) offer? 
  如何评价AWS的图神经网络框架DGL? 
  在NLP上,CNN、RNN(认为LSTM等变体也是RNN)、最简单全连结MLP,三者相比,各有何优劣? 
  如何看待 Google 既可以作 Inference,又可以作 Training 的新一代 TPU? 
  注意力机制是如何学习到模型所应注意的区域的? 
  使用强化学习解决实际问题时常常避不开环境模拟或者使用离线强化学习算法,两者分别有什么优缺点? 
  人工智能 CV 岗位是不是现在供严重大于需? 
  多模态方面,有哪些牛组值得我们follow他们的工作? 
  有哪些比较好的元学习(meta learning)领域的学习资源? 

前一个讨论
2020年你的控制理论研究有什么收获和感悟?
下一个讨论
大林算法与PID算法有什么本质区别?





© 2025-04-11 - tinynew.org. All Rights Reserved.
© 2025-04-11 - tinynew.org. 保留所有权利