通常认为强化学习是最接近人类学习过程的,很多情况下我们无法直接表达什么是正确的什么是错误的(比如:我正在爬山,迈了一大步,又迈了一小步,那么没法儿说我迈了大步正确还是错误),但是可以通过惩罚不好的结果或者奖励好的结果来强化学习的效果(我迈了个大步,导致没有站稳,那么对迈大步做惩罚,然后接下来我会迈小一点)。所以强化学习是一个序列的决策过程,学习机的学习目标是通过在给定状态下选择某种动作,寻找合适动作的策略序列使得它可以获得某种最优结果的过程。

强化学习的几个要素,体现其序列、交互性:

  • 环境(environment):强化学习所处的上下文;
  • 学习器(agent):与环境的交互并学习的对象,具有主动性;
  • 动作(action):处于环境下的可行动作集合;
  • 反馈(feedback):对动作的回报或惩罚;
  • 策略(policy):学习到的策略链。

经典的训练狗的实验就是一种强化学习的过程:

results matching ""

    No results matching ""