Q-learning

De testwiki
Salta a la navegació Salta a la cerca
Q-Learning: taula d'estats per accions que s'inicialitza a zero, després cada cel·la s'actualitza mitjançant l'entrenament.

Q-learning és un algorisme d'aprenentatge de reforç sense models per aprendre el valor d'una acció en un estat particular. No requereix un model de l'entorn (per tant, "sense model"), i pot gestionar problemes amb transicions i recompenses estocàstiques sense requerir adaptacions.

Q-learning va ser introduït per Chris Watkins el 1989.[1] Watkins i Peter Dayan van presentar una prova de convergència el 1992.[2]

Watkins parlava de "Learning from delayed rewards", el títol de la seva tesi doctoral. Vuit anys abans, el 1981, el mateix problema, sota el nom d'"aprenentatge de reforç retardat", va ser resolt pel Crossbar Adaptive Array (CAA) de Bozinovski.[3][4] La matriu de memòria W=w(a,s) era el mateix que la taula Q de Q-learning vuit anys més tard. L'arquitectura va introduir el terme "avaluació de l'estat" en l'aprenentatge de reforç. L'algorisme d'aprenentatge de barres transversals, escrit en pseudocodi matemàtic al document, en cada iteració realitza el càlcul següent:

El terme "reforç secundari" es pren en préstec de la teoria de l'aprenentatge animal, per modelar els valors d'estat mitjançant la retropropagació: el valor d'estat Plantilla:Tmath de la situació conseqüent es retropropaga a les situacions anteriorment trobades. CAA calcula els valors d'estat verticalment i les accions horitzontalment (la "barra transversal"). Els gràfics de demostració que mostraven l'aprenentatge de reforç retardat contenien estats (estats desitjables, indesitjables i neutres), que van ser calculats per la funció d'avaluació d'estats. Aquest sistema d'aprenentatge va ser un precursor de l'algoritme Q-learning.[5]

Per a qualsevol procés de decisió de Markov finit (FMDP), Q-learning troba una política òptima en el sentit de maximitzar el valor esperat de la recompensa total en tots els passos successius, començant per l'estat actual.[6] Q-learning pot identificar una política de selecció d'accions òptima per a qualsevol FMDP donat, donat un temps d'exploració infinit i una política parcialment aleatòria.[6] "Q" es refereix a la funció que calcula l'algorisme: les recompenses esperades per una acció realitzada en un estat determinat.[7]

Algorisme:

El nucli de l'algorisme és una equació de Bellman com a actualització simple d'iteració de valors, utilitzant la mitjana ponderada del valor actual i la nova informació:

Cal tenir en compte que Qnew(st,at) és la suma de tres factors:

  • (1α)Q(st,at): el valor actual (ponderat per un menys la taxa d'aprenentatge).
  • αrt: la recompensa per obtenir si acció es pren quan està en estat (ponderat per la taxa d'aprenentatge).
  • αγmaxaQ(st+1,a): la màxima recompensa que es pot obtenir de l'estat (ponderat per la taxa d'aprenentatge i el factor de descompte).

Qnew(st,at)Q(st,at)current value+αlearning rate(rtreward+γdiscount factormaxaQ(st+1,a)estimate of optimal future valuenew value (temporal difference target)Q(st,at)current value)temporal differenceon rt és la recompensa rebuda quan es mou de l'estat st a l'estat st+1, i α és la taxa d'aprenentatge (0<α1) .

Referències

Plantilla:Referències