SARSA

De testwiki
Salta a la navegació Salta a la cerca

Estat-acció-recompensa-estat-acció (SARSA) és un algorisme per aprendre una política de procés de decisió de Màrkov, utilitzat a l'àrea d'aprenentatge de reforç de l'aprenentatge automàtic. Va ser proposat per Rummery i Niranjan en una nota tècnica [1] amb el nom de "Modified Connectionist Q-Learning" (MCQ-L). El nom alternatiu SARSA, proposat per Rich Sutton, només s'esmentava com a nota a peu de pàgina.[2]

Aquest nom reflecteix el fet que la funció principal per actualitzar el valor Q depèn de l'estat actual de l'agent "S1", l'acció que l'agent tria "A1", la recompensa "R2" que rep l'agent per triar-la. acció, l'estat "S2" en què entra l'agent després de fer aquesta acció, i finalment la següent acció "A2" que l'agent tria en el seu nou estat. L'acrònim del quíntuple (S t, A t, R t+1, S t+1, A t+1) és SARSA.[3] Alguns autors utilitzen una convenció lleugerament diferent i escriuen el quíntuple (St, At,Rt, St+1, At+1), en funció de quin pas de temps s'assigna formalment la recompensa. La resta de l'article utilitza la convenció anterior.

Algorisme

Qnew(St,At)(1α)Q(St,At)+α[Rt+1+γQ(St+1,At+1)]

Un agent SARSA interactua amb l'entorn i actualitza la política en funció de les accions realitzades, per això es coneix com a algorisme d'aprenentatge de polítiques. El valor Q d'una acció d'estat s'actualitza per un error, ajustat per la taxa d'aprenentatge α. Els valors Q representen la possible recompensa rebuda en el següent pas de temps per prendre l'acció a a l'estat s, més la recompensa futura descomptada rebuda de la següent observació de l'acció de l'estat.

El Q-learning de Watkin actualitza una estimació de la funció òptima de valor d'acció de l'estat Q* basat en la màxima recompensa de les accions disponibles. Mentre que SARSA aprèn els valors Q associats amb l'adopció de la política que segueix, el Q-learning de Watkin aprèn els valors Q associats amb l'adopció de la política òptima mentre segueix una política d'exploració/explotació.

Algunes optimitzacions del Q-learning de Watkin es poden aplicar a SARSA.[4]

Referències

Plantilla:Referències