强化学习

             

   强化学习(Reinforcement learning)是机器学习的一个领域,主要研究智能主体在环境中应该怎样采取行动以最大化所获得的累积奖励.这类似于心理學行為主義理論关于人类学习行为的相关描述.人类在学习时,也会根据行为效果(也即环境对行为的反馈——奖励或惩罚),来不断调整自己的行为,从而适应环境,以获得最大价值.

   强化学习与监督学习和无监督学习一样,机器学习的基本模式.同时,强化学习与监督学习也有区别,前者训练模型时不需要标记好的输入输出数据,而后者需要.强化学习侧重点是在探索未知范围和利用现有信息之间寻找一个平衡(tradeoff).

   强化学习的核心问题,包括权衡探索与利用、通过马尔科夫决策理论建立领域的基础、学习延迟强化、构建经验模型以加速学习、利用泛化和层次结构、处理隐藏状态等.

   在标准强化学习模型中,智能体主体会与环境产生交互.它可以感知来自环境的信息,也可以产生行为改变环境.

图
图 1:强化学习基本模型

   参考文献:

  1. L. P. Kaelbling, M. L. Littman, and A. W. Moore, “Reinforcement learning: A survey,” Journal of artificial intelligence research, vol. 4, pp. 237–285, 1996.
  2. https://en.wikipedia.org/wiki/Reinforcement_learning
致读者: 小时百科一直以来坚持所有内容免费无广告,这导致我们处于严重的亏损状态。 长此以往很可能会最终导致我们不得不选择会员制,大量广告,内容付费等。 因此,我们请求广大读者热心打赏 ,使网站得以健康发展。 如果看到这条信息的每位读者能慷慨打赏 10 元,我们一个星期内就能脱离亏损, 并保证网站能在接下来的一整年里向所有读者继续免费提供优质内容。 但遗憾的是只有不到 1% 的读者愿意捐款, 他们的付出帮助了 99% 的读者免费获取知识, 我们在此表示感谢。

         

© 小时科技 保留一切权利