首页

能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？第1页

1

Cybernetic1 网友的相关建议:

我在外国博客上写过一些基於人工智能的文章，有些搬到了博客园，上面转录的是其中一篇：

什么是强化学习？

我正在研究的 AI architecture 是用强化学习控制 recurrent 神经网络，我相信这个设置可以做到逻辑推理和答问题的功能，基本上就是 strong AI。但还有一些未解决的细节。论文的标题是《游荡在思考的迷宫中》，即将发表。

補充：還有一點，就是監督學習的問題可以很容易化為強化學習的問題（雖然這樣增加了複雜性而沒有益處），但反之則沒有一般的辦法。見：Reinforcement Learning and its Relationship to Supervised Learning，Barto and Dietterich, 2004.

"But is it possible to do this the other way around: to convert a reinforcement learning task into a supervised learning task?

"In general, there is no way to do this. The key difficulty is that whereas in supervised learning, the goal is to reconstruct the unknown function f that assigns output values y to data points x, in reinforcement learning, the goal is to find the input x* that gives the maximum reward R(x*).

"Nonetheless, is there a way that we could apply ideas from supervised learning to perform reinforcement learning? Suppose, for example, that we are given a set of training examples of the form (xi, R(xi)), where the xi are points and the R(xi) are the corresponding observed rewards. In supervised learning, we would attempt to find a function h that approximates R well. If h were a perfect approximation of R, then we could find x* by applying standard optimization algorithms to h."

能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？的其他答案点击这里

1

相关话题

  为什么梯度下降能找到最小值？
  我们目前的时代距离人工智能具有自我意识还有多远？
  如何看待旷视确定香港上市？
  机器学习的算法和普通《算法导论》里的算法有什么本质上的异同？
  人工「神经网络」技术在信息处理上有何特点，工作原理是什么？
  AI 都学会看论文了，科研工作者会被淘汰么？
  如果我能像机器人一样不停地发布需要审核的内容问题，理论上是不是会导致知乎破产?
  神经网络模型压缩好就业吗?
  如何证明对任意给定的正数e，存在M上的矩阵范数||A||，满足不等式||A||<=谱半径+e?
  机器学习在理论经济学研究中有哪些可能的应用前景？

前一个讨论

什么是真正的动物保护？

下一个讨论

做开发你遇到最无理的需求是什么？

相关的话题

  看《环太平洋》，觉得里面的机甲酷毙了，纯属好奇有多大概率人类未来的武器会朝类人型机器人发展？
  如何理解今年发表在JMLR上随机森林算法SPORF？
  普通FPGA工程师怎样向人工智能靠拢？
  深度学习中Attention与全连接层的区别何在？
  变形金刚在变形后比变形前大很多，是如何实现的？
  李群自动化这家公司怎么样?
  要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？
  目前 CS 本科加硕士，请问博士申请 CS，还是 Neuroscience？
  attention跟一维卷积的区别是啥？
  如何看待字节跳动进军AI芯片领域？
  人工智能会是泡沫吗？
  如果围棋已经被人工智能完全破解，得出某色必胜，那围棋还有什么意义？
  2025 年机器将替代 8000 多万工作岗位，哪些岗位可能会被替代？又可能创造什么新的机会？
  机器人可以拥有人的情感吗？
  如何看待阿里平头哥发布的全球最高性能 AI 芯片「含光 800」？这款芯片核心技术是什么呢？
  在计算资源有限的情况下，有什么深度学习的选题可以推荐/避免？
  如何评价马斯克称激光雷达是一个诱人的局部最大值？
  学习SLAM需要哪些预备知识？
  如何看待诈骗分子 PS 环球影城票务门面上传地图被 AI 发现？AI 技术在反诈骗上有哪些应用和进展？
  AlphaGo 与李世石的第三局比赛中有哪些值得关注之处？
  能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？
  如何评价阿里巴巴启动NASA计划？
  如何看待南京大学成立人工智能学院？
  你见过最差的算法工程师能差到什么程度？
  能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？
  拥有创造力的人类，某种观念下上是否已经可以称为“神族”？
  目前 AI 在疾病的诊断和治疗上，有哪些成功的应用？
  最先会被机器人代替的几个职业将会是什么？
  从围棋角度看李世石与 AlphaGo 的第二局比赛有哪些关键之处？
  未来 10 年，智能机器人的发展趋势会是什么样的（主要面向家庭、娱乐、医疗方面）？

© 2025-06-21 - tinynew.org. All Rights Reserved.
© 2025-06-21 - tinynew.org. 保留所有权利