0%

强化学习

强化学习的基本要素,我们对其分别进行定义:

  • 智能体(Agent):可以采取行动的智能个体;例如,可以完成投递的无人机,或者在视频游戏中朝目标行动的超级马里奥。强化学习算法就是一个智能体。
  • 行动(Action):在电子游戏中,行动可能包括向右奔跑或者向左奔跑,向高出处跳或者向低处跳,下蹲或者站住不动。在股市中,行动可能包括买入,卖出或者持有任何有价证券或者它们的变体。在处理空中飞行的无人机时,行动可能包括三维空间中的很多速度和加速度。
  • 环境(Environment):指的就是智能体行走于其中的世界。这个环境将智能体当前的状态和行动作为输入,输出是智能体的奖励和下一步的状态。
  • 状态(State,S):一个状态就是智能体所处的具体即时状态;也就是说,一个具体的地方和时刻,这是一个具体的即时配置。
  • 奖励(Reward,R):奖励是我们衡量某个智能体的行动成败的反馈。例如,在视频游戏中,当马里奥碰到金币的时候,它就会赢得分数。面对任何既定的状态,智能体要以行动的形式向环境输出,然后环境会返回这个智能体的一个新状态和奖励。它们可以有效地评估该智能体的行动。

所以,环境就是能够将当前状态下采取的动作转换成下一个状态和奖励的函数;环境是一个我们只能看到输入输出的黑盒子。智能体是将新的状态和奖励转换成下一个行动的函数。我们可以知悉智能体的函数,但是我们无法知悉环境的函数。强化学习相当于智能体在尝试逼近这个环境的函数,这样我们就能够向黑盒子环境发送最大化奖励的行动了。

------------- Thank you for reading -------------

Title - Artist
0:00