Algorisme crític de l'actor
L' algorisme crític de l'actor (AC) és una família d'algoritmes d'aprenentatge de reforç (RL) que combinen algorismes de RL basats en polítiques com els mètodes de gradient de polítiques i algorismes de RL basats en valors com ara la iteració de valors, Q-learning, SARSA i TD. aprenentatge.[1]
Un algorisme d'AC consta de dos components principals: un " actor " que determina quines accions s'ha de dur a terme segons una funció política, i un " crític " que avalua aquestes accions segons una funció de valor.[2] Alguns algorismes d'AC estan a la política, d'altres no a la política. Alguns s'apliquen a espais d'acció continus o discrets. Alguns funcionen en ambdós casos.[3]
Visió general
Els mètodes crítics amb l'actor es poden entendre com una millora respecte als mètodes de gradient polític pur com REINFORCE mitjançant la introducció d'una línia de base.[4]
Actor
LPlantilla:'actor utilitza una funció política , mentre que el crític estima la funció de valor , la funció Q-acció-valor , la funció d'avantatge , o qualsevol combinació d'aquests.
L'actor és una funció parametritzada , on són els paràmetres de l'actor. L'actor pren com a argument l'estat de l'entorn i produeix una distribució de probabilitat .
Si l'espai d'acció és discret, aleshores . Si l'espai d'acció és continu, aleshores .
L'objectiu de l'optimització de les polítiques és millorar l'actor. És a dir, trobar-ne que maximitza la recompensa episòdica esperada : on és el factor de descompte, és la recompensa al pas , i és l'horitzó temporal (que pot ser infinit).
L'objectiu del mètode del gradient de polítiques és optimitzar per ascens de gradient en el gradient de política .
Tal com es detalla a la pàgina del mètode de gradient de política, hi ha molts estimadors imparcials del gradient de política: on és una suma lineal dels següents:
- .
- : l'algoritme REINFORCE.
- : l'algoritme REINFORCE amb la línia de base. Aquí és una funció arbitrària.
- : TD(1) aprenentatge.
- .
- : Avantatge actor-crític (A2C).
- : aprenentatge TD(2).
- : aprenentatge TD(n).
- : aprenentatge TD(λ), també conegut com a GAE (estimació d'avantatge generalitzada). Això s'obté mitjançant una suma exponencial dels termes d'aprenentatge TD(n).
Crític
En els estimadors no esbiaixats donats anteriorment, determinades funcions com ara aparèixer. Aquests són aproximats per la crítica. Com que totes aquestes funcions depenen de l'actor, el crític ha d'aprendre al costat de l'actor. La crítica s'aprèn mitjançant algorismes de RL basats en valors.
Per exemple, si el crític està estimant la funció estat-valor , llavors es pot aprendre mitjançant qualsevol mètode d'aproximació de funció de valor. Sigui el crític un aproximador de funcions amb paràmetres .
L'exemple més senzill és l'aprenentatge TD(1), que entrena el crític per minimitzar l'error TD(1): Els paràmetres crítics s'actualitzen mitjançant la baixada del gradient a l'error TD al quadrat: on és la taxa d'aprenentatge. Tingueu en compte que el gradient es pren respecte al en només, des del en constitueix un objectiu en moviment, i el gradient no es pren respecte a això. Aquesta és una font d'error habitual en les implementacions que utilitzen la diferenciació automàtica i requereix "aturar el gradient" en aquest punt.
De la mateixa manera, si el crític està estimant la funció acció-valor , llavors es pot aprendre mitjançant Q-learning o SARSA. En SARSA, el crític manté una estimació de la funció Q, parametritzada per , denotada com . L'error de diferència temporal es calcula llavors com . A continuació, la crítica és actualitzada per L'avantatge crític es pot entrenar entrenant tant una funció Q i una funció de valor d'estat , llavors deixa . Tot i que, és més comú entrenar només una funció de valor d'estat , aleshores estimeu l'avantatge per Aquí, és un nombre enter positiu. Com més alt és a dir, com més baix és el biaix en l'estimació de l'avantatge, però al preu d'una major variància.
LPlantilla:'estimació d'avantatge generalitzada (GAE) introdueix un hiperparàmetre que interpola suaument entre els retorns de Montecarlo (, gran variància, sense biaix) i aprenentatge TD en 1 pas ( , baixa variància, alt biaix). Aquest hiperparàmetre es pot ajustar per triar la compensació òptima de biaix-variància en l'estimació d'avantatges. Utilitza una mitjana exponencial de rendiments de n passos amb sent la força de la decadència.[5]
Variants
- Asynchronous Advantage Actor-Critic (A3C) : versió paral·lela i asíncrona d'A2C.
- Soft Actor-Critic (SAC) : Incorpora maximització d'entropia per millorar l'exploració.
- Deep Deterministic Policy Gradient (DDPG) : Especialitzat per a espais d'acció contínua.