Algorisme crític de l'actor

De testwiki
La revisió el 10:56, 27 feb 2025 per imported>EVA3.0 (bot) (Tipografia)
(dif.) ← Versió més antiga | Versió actual (dif.) | Versió més nova → (dif.)
Salta a la navegació Salta a la cerca

L' algorisme crític de l'actor (AC) és una família d'algoritmes d'aprenentatge de reforç (RL) que combinen algorismes de RL basats en polítiques com els mètodes de gradient de polítiques i algorismes de RL basats en valors com ara la iteració de valors, Q-learning, SARSA i TD. aprenentatge.[1]

Un algorisme d'AC consta de dos components principals: un " actor " que determina quines accions s'ha de dur a terme segons una funció política, i un " crític " que avalua aquestes accions segons una funció de valor.[2] Alguns algorismes d'AC estan a la política, d'altres no a la política. Alguns s'apliquen a espais d'acció continus o discrets. Alguns funcionen en ambdós casos.[3]

Visió general

Els mètodes crítics amb l'actor es poden entendre com una millora respecte als mètodes de gradient polític pur com REINFORCE mitjançant la introducció d'una línia de base.[4]

Actor

LPlantilla:'actor utilitza una funció política π(a|s), mentre que el crític estima la funció de valor V(s), la funció Q-acció-valor Q(s,a), la funció d'avantatge A(s,a), o qualsevol combinació d'aquests.

L'actor és una funció parametritzada πθ, on θ són els paràmetres de l'actor. L'actor pren com a argument l'estat de l'entorn s i produeix una distribució de probabilitat πθ(|s).

Si l'espai d'acció és discret, aleshores aπθ(a|s)=1. Si l'espai d'acció és continu, aleshores aπθ(a|s)da=1.

L'objectiu de l'optimització de les polítiques és millorar l'actor. És a dir, trobar-ne θ que maximitza la recompensa episòdica esperada J(θ) : J(θ)=𝔼πθ[t=0Tγtrt] on γ és el factor de descompte, rt és la recompensa al pas t, i T és l'horitzó temporal (que pot ser infinit).

L'objectiu del mètode del gradient de polítiques és optimitzar J(θ) per ascens de gradient en el gradient de política J(θ).

Tal com es detalla a la pàgina del mètode de gradient de política, hi ha molts estimadors imparcials del gradient de política: θJ(θ)=𝔼πθ[0jTθlnπθ(Aj|Sj)Ψj|S0=s0] on Ψj és una suma lineal dels següents:

  • 0iT(γiRi).
  • γjjiT(γijRi) : l'algoritme REINFORCE.
  • γjjiT(γijRi)b(Sj) : l'algoritme REINFORCE amb la línia de base. Aquí b és una funció arbitrària.
  • γj(Rj+γVπθ(Sj+1)Vπθ(Sj)) : TD(1) aprenentatge.
  • γjQπθ(Sj,Aj).
  • γjAπθ(Sj,Aj) : Avantatge actor-crític (A2C).
  • γj(Rj+γRj+1+γ2Vπθ(Sj+2)Vπθ(Sj)) : aprenentatge TD(2).
  • γj(k=0n1γkRj+k+γnVπθ(Sj+n)Vπθ(Sj)) : aprenentatge TD(n).
  • γjn=1λn11λ(k=0n1γkRj+k+γnVπθ(Sj+n)Vπθ(Sj)) : aprenentatge TD(λ), també conegut com a GAE (estimació d'avantatge generalitzada). Això s'obté mitjançant una suma exponencial dels termes d'aprenentatge TD(n).

Crític

En els estimadors no esbiaixats donats anteriorment, determinades funcions com ara Vπθ,Qπθ,Aπθ aparèixer. Aquests són aproximats per la crítica. Com que totes aquestes funcions depenen de l'actor, el crític ha d'aprendre al costat de l'actor. La crítica s'aprèn mitjançant algorismes de RL basats en valors.

Per exemple, si el crític està estimant la funció estat-valor Vπθ(s), llavors es pot aprendre mitjançant qualsevol mètode d'aproximació de funció de valor. Sigui el crític un aproximador de funcions Vϕ(s) amb paràmetres ϕ.

L'exemple més senzill és l'aprenentatge TD(1), que entrena el crític per minimitzar l'error TD(1): δi=Ri+γVϕ(Si+1)Vϕ(Si) Els paràmetres crítics s'actualitzen mitjançant la baixada del gradient a l'error TD al quadrat: ϕϕαϕ(δi)2=ϕ+αδiϕVϕ(Si) on α és la taxa d'aprenentatge. Tingueu en compte que el gradient es pren respecte al ϕ en Vϕ(Si) només, des del ϕ en γVϕ(Si+1) constitueix un objectiu en moviment, i el gradient no es pren respecte a això. Aquesta és una font d'error habitual en les implementacions que utilitzen la diferenciació automàtica i requereix "aturar el gradient" en aquest punt.

De la mateixa manera, si el crític està estimant la funció acció-valor Qπθ, llavors es pot aprendre mitjançant Q-learning o SARSA. En SARSA, el crític manté una estimació de la funció Q, parametritzada per ϕ, denotada com Qϕ(s,a). L'error de diferència temporal es calcula llavors com δi=Ri+γQθ(Si+1,Ai+1)Qθ(Si,Ai). A continuació, la crítica és actualitzada per θθ+αδiθQθ(Si,Ai) L'avantatge crític es pot entrenar entrenant tant una funció Q Qϕ(s,a) i una funció de valor d'estat Vϕ(s), llavors deixa Aϕ(s,a)=Qϕ(s,a)Vϕ(s). Tot i que, és més comú entrenar només una funció de valor d'estat Vϕ(s), aleshores estimeu l'avantatge per Aϕ(Si,Ai)j0:n1γjRi+j+γnVϕ(Si+n)Vϕ(Si) Aquí, n és un nombre enter positiu. Com més alt n és a dir, com més baix és el biaix en l'estimació de l'avantatge, però al preu d'una major variància.

LPlantilla:'estimació d'avantatge generalitzada (GAE) introdueix un hiperparàmetre λ que interpola suaument entre els retorns de Montecarlo (λ=1, gran variància, sense biaix) i aprenentatge TD en 1 pas ( λ=0, baixa variància, alt biaix). Aquest hiperparàmetre es pot ajustar per triar la compensació òptima de biaix-variància en l'estimació d'avantatges. Utilitza una mitjana exponencial de rendiments de n passos amb λ sent la força de la decadència.[5]

Variants

  • Asynchronous Advantage Actor-Critic (A3C) : versió paral·lela i asíncrona d'A2C.
  • Soft Actor-Critic (SAC) : Incorpora maximització d'entropia per millorar l'exploració.
  • Deep Deterministic Policy Gradient (DDPG) : Especialitzat per a espais d'acció contínua.

Referències

Plantilla:Referències