Aprenentatge per diferències temporals

De testwiki
La revisió el 12:13, 5 ago 2023 per imported>EVA3.0 (bot) (Tipografia)
(dif.) ← Versió més antiga | Versió actual (dif.) | Versió més nova → (dif.)
Salta a la navegació Salta a la cerca

L'aprenentatge per diferències temporals (amb acrònim anglès TD) fa referència a una classe de mètodes d'aprenentatge de reforç sense models que aprenen arrancant a partir de l'estimació actual de la funció de valor. Aquests mètodes agafen mostres de l'entorn, com els mètodes de Monte Carlo, i realitzen actualitzacions basades en estimacions actuals, com els mètodes de programació dinàmica.[1]

Mentre que els mètodes de Monte Carlo només ajusten les seves estimacions un cop es coneix el resultat final, els mètodes TD ajusten les prediccions per fer coincidir les prediccions posteriors i més precises sobre el futur abans que es conegui el resultat final.[2] Aquesta és una forma d'arrencada, tal com s'il·lustra amb l'exemple següent:

Suposem que voleu predir el temps per dissabte i teniu algun model que prediu el temps del dissabte, tenint en compte el temps de cada dia de la setmana. En el cas estàndard, esperaries fins dissabte i després ajustaries tots els teus models. Tanmateix, quan sigui, per exemple, divendres, hauríeu de tenir una bona idea del temps que farà dissabte i així poder canviar, per exemple, el model del dissabte abans que arribi el dissabte.[3]

Els mètodes de diferència temporal estan relacionats amb el model de diferència temporal de l'aprenentatge animal.[4][5][6][7][8]

Formulació matemàtica

El mètode tabular TD(0) és un dels mètodes TD més senzills. És un cas especial de mètodes d'aproximació estocàstica més generals. Estima la funció de valor d'estat d'un procés de decisió de Markov d'estat finit (MDP) sota una política π. Deixar Vπ denoteu la funció de valor d'estat del MDP amb estats (st)t, recompenses (rt)t i taxa de descompte[9] γ sota la política π:

Vπ(s)=Eaπ{t=0γtrt(at)|s0=s}.

Eliminarem l'acció de la notació per comoditat. Vπ satisfà l'equació de Hamilton-Jacobi-Bellman:

Vπ(s)=Eπ{r0+γVπ(s1)|s0=s},

tan r0+γVπ(s1) és una estimació imparcial de Vπ(s). Aquesta observació motiva el següent algorisme per estimar Vπ.

L'algorisme comença inicialitzant una taula V(s) arbitràriament, amb un valor per a cada estat del MDP. Una taxa d'aprenentatge positiva α és escollit.

Aleshores avaluem repetidament la política π, obteniu una recompensa r i actualitzeu la funció de valor per a l'estat antic utilitzant la regla:[10]

V(s)V(s)+α(r+γV(s)The TD targetV(s))

on s i s són els estats antic i nou, respectivament. El valor r+γV(s) es coneix com l'objectiu TD.

Referències

Plantilla:Referències