AI学习笔记——Sarsa算法

  • 时间:
  • 浏览:0

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言可是访问我的Steemit主页

在Sarsa算法中,机器人的目标是

注意,该算法与Sarsa 算法不同的地方可是多乘了另另一个多多E(s, a) (Eligibility Trace"不可或缺性值"),而你这俩 E(s, a)又同時 受γ和λ调控。也什么都没法更新Q表的前一天,不仅仅是更新另另一个多多Q(S,A),可是整个Q表所有的Q值都被更新了。

Q learning 和 Sarsa都不 单步更新的算法。单步跟新的算法缺点也什么都没法没法找到宝藏前一天,机器人在原地打转的哪几种行动也被记录在案,并更新了Q表,即便哪几种行动都不 没法意义的。

上一篇文章介绍了强化学习中的Q-Learning算法,这篇文章介绍另另一个多多与Q-Learning十分类似的算法——Sarsa算法。

Q learning 通过Max的函数,老要在寻找能最快获得宝藏的道路,你这俩 你这俩 他比较勇敢。而Sarsa 却相对谨慎。

还是同样的例子,红色机器人在4x4的迷宫中寻找黄色的宝藏。找到宝藏,可是的到+1的奖励,可是掉进黑色陷阱就回的到-1的奖励(惩罚)。

在Q Learning 算法中,当机器人处在S0的情况汇报时,它的目标Q值是:

R(S1) + γ*maxa Q(S1,a)。此时他还在S0的位置上,可是也什么都没法计算S1上的最大Q值了。可是此时它并没法行动,可是都不 在S1采取Q值最大Q(S1, A2)的行动。可是让他们儿提到,它还有10%的概率随机取舍你这俩 的行动 (ε贪婪土方式(ε -Greedy method))。

首先回顾一下Q表如下

R(S1) + γ*Q(S1,A)

你这俩 你这俩 Sarsa是在线学习(On Policy)的算法,可是他是在行动中学习的,使用了两次greedy土方式来取舍出了Q(S,A)和q(S',A')。而Q learning离线学习(Off Policy)的算法,QLearning取舍Q(S,A)用了greedy土方式,而计算A(S',A')时用的是max土方式,而真正取舍的前一天又不都不 取舍max的行动。

至于A是十几个 ,完全取决于机器人实际上取舍的哪另另一个多多Action。机器人有90%的概率会取舍Q值最大的Action(A2),还有10%的概率会随机取舍另另一个多多Action。

Q(S0,A2) = Q(S0,A2) + α[R(S1) + γ*maxa Q(S1,a)-Q(S0,A2)]

Lambda(λ)你这俩 衰减系数的引入,可是为了处置你这俩 现象的。与γ用来衰减未来预期Q的值一样,λ是当机器人获得宝藏前一天,在更新Q表的前一天,给机器人另另一个多多回头看前一天走过的路程的可是。至少,机器人每走一步就会在地上插一杆旗子,可是机器人每走一步旗子就会变小你这俩 。

Sarsa-lambda 的完全算法在这里:

你这俩 你这俩 ,Sarsa的算法是曾经的。

除了其目标Q值与Q learning 有所不同之外,你这俩 的都不 一模一样的。