首页

能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？第1页

1

Cybernetic1 网友的相关建议:

我在外国博客上写过一些基於人工智能的文章，有些搬到了博客园，上面转录的是其中一篇：

什么是强化学习？

我正在研究的 AI architecture 是用强化学习控制 recurrent 神经网络，我相信这个设置可以做到逻辑推理和答问题的功能，基本上就是 strong AI。但还有一些未解决的细节。论文的标题是《游荡在思考的迷宫中》，即将发表。

補充：還有一點，就是監督學習的問題可以很容易化為強化學習的問題（雖然這樣增加了複雜性而沒有益處），但反之則沒有一般的辦法。見：Reinforcement Learning and its Relationship to Supervised Learning，Barto and Dietterich, 2004.

"But is it possible to do this the other way around: to convert a reinforcement learning task into a supervised learning task?

"In general, there is no way to do this. The key difficulty is that whereas in supervised learning, the goal is to reconstruct the unknown function f that assigns output values y to data points x, in reinforcement learning, the goal is to find the input x* that gives the maximum reward R(x*).

"Nonetheless, is there a way that we could apply ideas from supervised learning to perform reinforcement learning? Suppose, for example, that we are given a set of training examples of the form (xi, R(xi)), where the xi are points and the R(xi) are the corresponding observed rewards. In supervised learning, we would attempt to find a function h that approximates R well. If h were a perfect approximation of R, then we could find x* by applying standard optimization algorithms to h."

能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？的其他答案点击这里

1

相关话题

  如何评价诺奖得主 Thomas J. Sargent「人工智能其实就是统计学」的观点？
  是否很多机器人的动画片里面，机器人的小腿都比大腿更粗更长更硬？为什么？
  计算机视觉是否已经进入瓶颈期？
  怎样让机器有意识?
  知识图谱+nlp，有什么适合硕士独自研究的方向？
  如何看待科技部公布的首批国家新一代人工智能开放创新平台？
  计算机在德州扑克比赛中可以战胜人类吗？
  未来五年，数据科学家（Data Scientist）的岗位需求会如何变化？
  如何看待大厂争相发布数字人 / 虚拟人 / 数智人，有哪些关键信息值得关注?
  机器狗送快递目前还有哪些瓶颈？

前一个讨论

什么是真正的动物保护？

下一个讨论

做开发你遇到最无理的需求是什么？

相关的话题

  你所在的研究领域里，有哪些工作的结果虽然不是造假，但是是精挑细选出来的?
  腾讯启动“探星计划”用AI寻找脉冲星，并发布TEFS材料计算平台，物理科研将成为未来的主营业务之一吗？
  深度学习（机器学习）的下一步如何发展？
  如何评价FAIR提出的ConvNeXt：CNN匹敌Swin Transformer?
  如何看待关于“数据结构与算法基础”的重要性？
  工业机器人普及之后会对社会产生什么影响？
  小米无人机跟大疆无人机有多大差距？
  《星际穿越》中的机器人违反过机器人定律吗？
  运维监控的KPI异常检测业界有哪些实用方法？
  为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？
  金融学及金融从业者如何应对人工智能和大数据？
  电子游戏要发展到什么时候，玩家才可以直接通过打字或者语音的方式与NPC对话？
  在哪里能找到各行业的分析研究报告？
  做为技术宅，你干过哪些牛逼的事？或者你见过哪些其他技术宅干的牛逼的事？
  为什么nn的较大问题是会陷入局部最优时，不选用凸函数作为激活函数？
  如何看待兼修网络安全和人工智能?
  如何评价 DeepMind 新提出的关系网络（Relation Network）？
  GAN 真的创造了新的信息吗？
  从虚拟偶像到 AI 学生，数字人概念还能火多久？
  所谓大数据分析，究竟要学什么？
  AlphaGo 与李世石的对战会推动人类的极限还是机器学习的进步和觉醒？
  网络上一位长者提出了“完全不依靠人工神经网络与机器学习算法实现人工智能”的理论，大家怎么看？
  如何看待继晨风机器人后，各机器人宣布关闭？
  为什么相比于计算机视觉(cv)，自然语言处理(nlp)领域的发展要缓慢？
  法律是否可能被代码化？
  如何评价诺奖得主 Thomas J. Sargent「人工智能其实就是统计学」的观点？
  各位大佬觉得联邦学习可以研究的问题有些什么小白了解一下这个水深不深?
  机器学习的解释模型存在嘛？
  简单解释一下sparse autoencoder, sparse coding和restricted boltzmann machine的关系？
  AlphaGo 和人类棋手比起来谁消耗的资源更多？

© 2025-06-21 - tinynew.org. All Rights Reserved.
© 2025-06-21 - tinynew.org. 保留所有权利