Mètodes de gradient normatiu

De testwiki
La revisió el 08:13, 30 gen 2025 per imported>Rebot (neteja i estandardització de codi)
(dif.) ← Versió més antiga | Versió actual (dif.) | Versió més nova → (dif.)
Salta a la navegació Salta a la cerca

Els º són una classe d'algorismes d'aprenentatge de reforç.[1]

Els mètodes de gradient normatius són una subclasse de mètodes d'optimització de polítiques. A diferència dels mètodes basats en valors que aprenen una funció de valor per derivar una política, els mètodes d'optimització de polítiques aprenen directament una funció política. π que selecciona accions sense consultar una funció de valor. Perquè s'apliqui el gradiennormatiu, la funció de política πθ està parametritzat per un paràmetre diferenciable θ.[2]

Visió general

En la RL basada en polítiques, l'actor és una funció política parametritzada πθ, on θ són els paràmetres de l'actor. L'actor pren com a argument l'estat de l'entorn s i produeix una distribució de probabilitat πθ(|s).

Si l'espai d'acció és discret, aleshores aπθ(a|s)=1. Si l'espai d'acció és continu, aleshores aπθ(a|s)da=1.

L'objectiu de l'optimització de polítiques és trobar-ne θ que maximitza la recompensa episòdica esperada J(θ) : J(θ)=𝔼πθ[i0:TγiRi|S0=s0] on γ és el factor de descompte, Rt és la recompensa al pas t, s0 és l'estat inicial, i T és l'horitzó temporal (que pot ser infinit).

El gradient de política es defineix com θJ(θ). Diferents mètodes de gradient de política estimen estocàsticament el gradient de política de diferents maneres. L'objectiu de qualsevol mètode de gradient de política és maximitzar iterativament J(θ) per desnivell de pujada. Com que la part clau de qualsevol mètode de gradient de política és l'estimació estocàstica del gradient de política, també s'estudien sota el títol d'"Estimació del gradient de Monte Carlo".[3]

REFORÇ

Gradient polític

L'algoritme REINFORCE va ser el primer mètode de gradient de política.[4] Es basa en la identitat del gradient de la política θJ(θ)=𝔼πθ[j0:Tθlnπθ(Aj|Sj)i0:T(γiRi)|S0=s0] que es pot millorar mitjançant el "truc de causalitat" [5] θJ(θ)=𝔼πθ[j0:Tθlnπθ(Aj|Sj)ij:T(γiRi)|S0=s0]Lema — L'expectativa de la funció de puntuació és zero, condicionada a qualsevol estat present o passat. És a dir, per a qualsevol 0ijT i qualsevol estat si, tenim 𝔼πθ[θlnπθ(Aj|Sj)|Si=si]=0. A més, si Ψi és unavariable aleatòria que és independent de >Ai,Si+1,Ai+1, llavors Eπθ[θlnπθ(Aj|Sj)Ψi|Si=si]=0.

Així, tenim un estimador no esbiaixat del gradient de la política: θJ(θ)1Nk=1N[j0:Tθlnπθ(Aj,k|Sj,k)ij:T(γiRi,k)] on l'índex k abasta N trajectòries de desplegament utilitzant la política πθ.

La funció de puntuació θlnπθ(At|St) es pot interpretar com la direcció en l'espai de paràmetres que augmenta la probabilitat d'actuar At en estat St. El gradient de la política, doncs, és una mitjana ponderada de totes les direccions possibles per augmentar la probabilitat de prendre qualsevol acció en qualsevol estat, però ponderada per senyals de recompensa, de manera que si prendre una determinada acció en un estat determinat s'associa amb una recompensa alta, aleshores aquesta direcció es veuria molt reforçada, i viceversa.

Algorisme

L'algoritme REFORÇ és un bucle:

  1. Desplegament N trajectòries en l'entorn, utilitzant πθt com a funció política.
  2. Calculeu l'estimació del gradient de la política: gt1Nk=1N[j0:Tθtlnπθ(Aj,k|Sj,k)ij:T(γiRi,k)]
  3. Actualitzeu la política per ascens de gradient: θt+1θt+αtgt

Aquí, αt és la taxa d'aprenentatge al pas d'actualització t.

Gradient de política natural

El mètode del gradient de la política natural és una variant del mètode del gradient de la política, proposat per Sham Kakade l'any 2001.[6] A diferència dels mètodes estàndard de gradient de polítiques, que depenen de l'elecció dels paràmetres θ (fent que les actualitzacions depenguin de les coordenades), el gradient de política natural té com a objectiu proporcionar una actualització sense coordenades, geomètricament "natural".

Optimització de polítiques de regió de confiança (TRPO)

L'optimització de polítiques de la regió de confiança (TRPO) és un mètode de gradient de polítiques que amplia l'enfocament de gradient de política natural mitjançant l'aplicació d'una restricció de la regió de confiança a les actualitzacions de polítiques.[7] Desenvolupat per Schulman et al. el 2015, TRPO garanteix millores estables en les polítiques limitant la divergència de KL entre polítiques successives, abordant els reptes clau dels mètodes de gradient de polítiques naturals.

TRPO es basa en el gradient de política natural incorporant una restricció de regió de confiança. Si bé el gradient natural proporciona una direcció teòricament òptima, la cerca de línies de TRPO i la restricció KL mitiguen els errors de les aproximacions de Taylor, assegurant una millora monòtona de la política. Això fa que TRPO sigui més robust a la pràctica, especialment per a polítiques d'alta dimensió.

Optimització de polítiques proximals (PPO)

Una millora més és l'optimització de polítiques proximals (PPO), que evita fins i tot la informàtica F(θ) i F(θ)1 mitjançant una aproximació de primer ordre utilitzant relacions de probabilitat retallades.

Concretament, en lloc de maximitzar l'avantatge substitut maxθL(θ,θt)=𝔼s,aπθt[πθ(a|s)πθt(a|s)Aπθt(s,a)] sota una restricció de divergència KL, insereix directament la restricció a l'avantatge substitut: maxθ𝔼s,aπθt[{min(πθ(a|s)πθt(a|s),1+ϵ)Aπθt(s,a) si Aπθt(s,a)>0max(πθ(a|s)πθt(a|s),1ϵ)Aπθt(s,a) si Aπθt(s,a)<0] i PPO maximitza l'avantatge substitut mitjançant el descens de gradient estocàstic, com és habitual.

En paraules, el gradient ascendent de la nova funció d'avantatge substitutiva significa que, en algun estat s,a, si l'avantatge és positiu: Aπθt(s,a)>0, llavors el gradient s'ha de dirigir θ cap a la direcció que augmenta la probabilitat de realitzar l'acció a sota l'estat s. Tanmateix, tan aviat com θ ha canviat tant que πθ(a|s)(1+ϵ)πθt(a|s), aleshores el gradient hauria de deixar d'apuntar-lo en aquesta direcció. I de la mateixa manera si Aπθt(s,a)<0. Així, PPO evita pressionar massa l'actualització de paràmetres i evita canviar massa la política.

Referències

Plantilla:Referències