百科问答小站 logo
百科问答小站 font logo



能否介绍一下强化学习(Reinforcement Learning),以及与监督学习的不同? 第1页

  

user avatar   Cybernetic1 网友的相关建议: 
      

我在外国博客上写过一些基於人工智能的文章,有些搬到了博客园,上面转录的是其中一篇:

什么是强化学习?

我正在研究的 AI architecture 是用强化学习控制 recurrent 神经网络,我相信这个设置可以做到逻辑推理和答问题的功能,基本上就是 strong AI。 但还有一些未解决的细节。 论文的标题是《游荡在思考的迷宫中》,即将发表。

補充: 還有一點,就是監督學習的問題可以很容易化為強化學習的問題(雖然這樣增加了複雜性而沒有益處),但反之則沒有一般的辦法。 見:Reinforcement Learning and its Relationship to Supervised Learning,Barto and Dietterich, 2004.

"But is it possible to do this the other way around: to convert a reinforcement learning task into a supervised learning task?

"In general, there is no way to do this. The key difficulty is that whereas in supervised learning, the goal is to reconstruct the unknown function f that assigns output values y to data points x, in reinforcement learning, the goal is to find the input x* that gives the maximum reward R(x*).

"Nonetheless, is there a way that we could apply ideas from supervised learning to perform reinforcement learning? Suppose, for example, that we are given a set of training examples of the form (xi, R(xi)), where the xi are points and the R(xi) are the corresponding observed rewards. In supervised learning, we would attempt to find a function h that approximates R well. If h were a perfect approximation of R, then we could find x* by applying standard optimization algorithms to h."




  

相关话题

  为什么 AI 发展到今天,围棋能下过李世石、柯洁,仍不能完成帮人类洗衣物、做饭这种简单的事? 
  如何看待微博用户「将记忆深埋」所做的面部识别帮助程序员避免成为接盘侠? 
  微软小冰和小娜哪个更有可能统治世界? 
  为什么 Stephen Hawking(史蒂芬·霍金)认为「人工智能或导致人类灭绝,应加以控制」? 
  在NLP当中,不同的评价指标,BLEU, METEOR, ROUGE和CIDEr的逻辑意义? 
  学习机器学习应该看哪些书籍? 
  有没有值得推荐的随机森林 Random Forest教材? 
  如何学习视频识别技术? 
  在与 AlphaGo(包括 Master) 的对局中是否出现了一些人类历史上从未想到过的着法、技巧? 
  神经网络能否代替决策树算法? 

前一个讨论
什么是真正的动物保护?
下一个讨论
做开发你遇到最无理的需求是什么?





© 2025-03-13 - tinynew.org. All Rights Reserved.
© 2025-03-13 - tinynew.org. 保留所有权利