百科问答小站 logo
百科问答小站 font logo



能否介绍一下强化学习(Reinforcement Learning),以及与监督学习的不同? 第1页

  

user avatar   Cybernetic1 网友的相关建议: 
      

我在外国博客上写过一些基於人工智能的文章,有些搬到了博客园,上面转录的是其中一篇:

什么是强化学习?

我正在研究的 AI architecture 是用强化学习控制 recurrent 神经网络,我相信这个设置可以做到逻辑推理和答问题的功能,基本上就是 strong AI。 但还有一些未解决的细节。 论文的标题是《游荡在思考的迷宫中》,即将发表。

補充: 還有一點,就是監督學習的問題可以很容易化為強化學習的問題(雖然這樣增加了複雜性而沒有益處),但反之則沒有一般的辦法。 見:Reinforcement Learning and its Relationship to Supervised Learning,Barto and Dietterich, 2004.

"But is it possible to do this the other way around: to convert a reinforcement learning task into a supervised learning task?

"In general, there is no way to do this. The key difficulty is that whereas in supervised learning, the goal is to reconstruct the unknown function f that assigns output values y to data points x, in reinforcement learning, the goal is to find the input x* that gives the maximum reward R(x*).

"Nonetheless, is there a way that we could apply ideas from supervised learning to perform reinforcement learning? Suppose, for example, that we are given a set of training examples of the form (xi, R(xi)), where the xi are points and the R(xi) are the corresponding observed rewards. In supervised learning, we would attempt to find a function h that approximates R well. If h were a perfect approximation of R, then we could find x* by applying standard optimization algorithms to h."




  

相关话题

  对于技术岗位而言,开发岗累还是算法岗累呢? 
  如何评价《Science》封面文章《通过概率规划归纳的人类层次概念学习》? 
  Facebook 的人工智能实验室 (FAIR) 有哪些厉害的大牛和技术积累? 
  本科数学,目前在读计算机研一,毕业的时候想要应聘数据挖掘工程师,看了对数据挖掘工程师的招聘要求,感觉太宽泛了,希望能具体说一下现在应该准备哪些知识(算法?编程语言?其他?),谢谢! 
  如何评价 NVIDIA 最新技术 5 秒训练 NERF? 
  统计模型和概率模型的区别是什么呢? 
  领域自适应需要用到测试集数据,这样的方法有啥意义呢? 
  《哆啦 A 梦》中有哪些道具已经实现了?按照当前科技发展速度我们能达到动漫中 22 世纪的水平吗? 
  对于人类的未来而言,星辰大海和虚拟现实,哪个才是更有意义的发展方向? 
  如何评价 BERT 模型? 

前一个讨论
什么是真正的动物保护?
下一个讨论
做开发你遇到最无理的需求是什么?





© 2025-01-30 - tinynew.org. All Rights Reserved.
© 2025-01-30 - tinynew.org. 保留所有权利