Aprenentatge de reforç profund
L'aprenentatge de reforç profund (deep RL) és un subcamp de l'aprenentatge automàtic que combina l'aprenentatge de reforç (RL) i l'aprenentatge profund. RL considera el problema d'un agent computacional que aprengui a prendre decisions per assaig i error. Deep RL incorpora l'aprenentatge profund a la solució, permetent als agents prendre decisions a partir de dades d'entrada no estructurades sense enginyeria manual de l'espai d'estat. Els algorismes de RL profund són capaços de rebre entrades molt grans (per exemple, cada píxel representat a la pantalla en un videojoc) i decidir quines accions realitzar per optimitzar un objectiu (per exemple, maximitzar la puntuació del joc). L'aprenentatge de reforç profund s'ha utilitzat per a un conjunt divers d'aplicacions que inclouen, entre d'altres, robòtica, videojocs, processament del llenguatge natural, visió per ordinador, [1] educació, transport, finances i assistència sanitària.[2]
Visió general
Aprenentatge profund

L'aprenentatge profund és una forma d'aprenentatge automàtic que utilitza una xarxa neuronal per transformar un conjunt d'entrades en un conjunt de sortides mitjançant una xarxa neuronal artificial. S'ha demostrat que els mètodes d'aprenentatge profund, que sovint utilitzen l'aprenentatge supervisat amb conjunts de dades etiquetats, resolen tasques que impliquen el maneig de dades d'entrada en brut complexes i de gran dimensió (com ara imatges) amb menys enginyeria manual de característiques que els mètodes anteriors, la qual cosa permet un progrés significatiu en diversos camps, com ara visió per computador i processament del llenguatge natural. En l'última dècada, Deep RL ha aconseguit resultats notables en una sèrie de problemes, des de jocs per a un sol i multijugador com Go, Atari Games i Dota 2 fins a la robòtica.[3]
Aprenentatge de reforç
L'aprenentatge per reforç és un procés en el qual un agent aprèn a prendre decisions mitjançant assaig i error. Aquest problema sovint es modela matemàticament com un procés de decisió de Markov (MDP), on un agent en cada pas de temps es troba en un estat , pren mesures , rep una recompensa escalar i passa al següent estat segons la dinàmica ambiental . L'agent intenta aprendre una política , o mapa d'observacions a accions, per tal de maximitzar els seus rendiments (suma esperada de recompenses). En l'aprenentatge de reforç (a diferència del control òptim ), l'algoritme només té accés a la dinàmica mitjançant el mostreig.

Aprenentatge de reforç profund
En molts problemes pràctics de presa de decisions, els estats dels MDP són d'alta dimensió (per exemple, imatges d'una càmera o el flux de sensor en brut d'un robot) i no es poden resoldre mitjançant algorismes RL tradicionals. Els algorismes d'aprenentatge de reforç profund incorporen aprenentatge profund per resoldre aquests MDP, sovint representant la política o altres funcions apreses com a xarxa neuronal i desenvolupant algorismes especialitzats que funcionen bé en aquest entorn.
Història
Juntament amb el creixent interès per les xarxes neuronals a partir de mitjans dels anys vuitanta, va créixer l'interès per l'aprenentatge de reforç profund, on una xarxa neuronal s'utilitza en l'aprenentatge de reforç per representar polítiques o funcions de valor. Com que en aquest sistema, tot el procés de presa de decisions, des dels sensors fins als motors d'un robot o agent, implica una única xarxa neuronal, de vegades també s'anomena aprenentatge de reforç d'extrem a extrem. Una de les primeres aplicacions reeixides de l'aprenentatge per reforç amb xarxes neuronals va ser TD-Gammon, un programa informàtic desenvolupat el 1992 per jugar al backgammon.[4] Es van utilitzar quatre entrades per al nombre de peces d'un color determinat en una ubicació determinada del tauler, amb un total de 198 senyals d'entrada. Amb el coneixement zero incorporat, la xarxa va aprendre a jugar el joc a un nivell intermedi mitjançant el joc propi i el TD().
Llibres de text fonamentals de Sutton i Barto sobre aprenentatge de reforç, [5] Bertsekas i Tsitiklis sobre programació neurodinàmica, [6] i altres [7] coneixements avançats i interès en el camp.
El grup de Katsunari Shibata va demostrar que en aquest marc sorgeixen diverses funcions, incloent el reconeixement d'imatges, la constància del color, el moviment del sensor (reconeixement actiu), la coordinació ull-mà i el moviment de la mà, l'explicació de les activitats cerebrals, el coneixement. transferència, memòria, atenció selectiva, predicció i exploració.
A partir del 2012, l'anomenada revolució de l'aprenentatge profund va provocar un interès creixent en l'ús de xarxes neuronals profundes com a aproximadors de funcions en diversos dominis. Això va provocar un interès renovat en els investigadors que utilitzen xarxes neuronals profundes per aprendre la política, el valor i/o les funcions Q presents als algorismes d'aprenentatge de reforç existents.
A partir de l'any 2013, DeepMind va mostrar resultats d'aprenentatge impressionants amb RL profund per jugar als videojocs d'Atari.[8] El jugador d'ordinador que va entrenar una xarxa neuronal utilitzant un algorisme RL profund, una versió profunda de l'aprenentatge Q que van anomenar xarxes Q profundes (DQN), amb la puntuació del joc com a recompensa. Van utilitzar una xarxa neuronal convolucional profunda per processar 4 fotogrames de píxels RGB (84x84) com a entrades. Els 49 jocs es van aprendre utilitzant la mateixa arquitectura de xarxa i amb coneixements previs mínims, superant els mètodes de la competència en gairebé tots els jocs i amb un nivell comparable o superior a un provador de jocs humà professional.[8]
L'aprenentatge de reforç profund va assolir una altra fita el 2015 quan AlphaGo, un programa informàtic entrenat amb RL profund per jugar a Go, es va convertir en el primer programa informàtic Go que va vèncer un jugador professional de Go humà sense handicap en un tauler de 19×19 de mida completa. En un projecte posterior el 2017, AlphaZero va millorar el rendiment a Go alhora que va demostrar que podien utilitzar el mateix algorisme per aprendre a jugar als escacs i el shogi a un nivell competitiu o superior als programes informàtics existents per a aquests jocs, i va tornar a millorar el 2019 amb MuZero.[9] Per separat, els investigadors de la Carnegie Mellon University van assolir una altra fita el 2019 desenvolupant Pluribus, un programa informàtic per jugar al pòquer que va ser el primer a vèncer als professionals en jocs multijugador de Texas Hold 'em sense límit. OpenAI Five, un programa per jugar cinc contra cinc Dota 2 va vèncer als anteriors campions del món en un partit de demostració el 2019.
L'aprenentatge de reforç profund també s'ha aplicat a molts dominis més enllà dels jocs. En robòtica, s'ha utilitzat per permetre als robots fer tasques domèstiques senzilles [10] i resoldre un cub de Rubik amb una mà de robot.[11] Deep RL també ha trobat aplicacions de sostenibilitat, utilitzades per reduir el consum d'energia als centres de dades.[12] Deep RL per a la conducció autònoma és una àrea activa de recerca a l'acadèmia i la indústria.[13] Loon va explorar RL profund per navegar de manera autònoma pels seus globus d'altitud.[14]
Algorismes
Existeixen diverses tècniques per entrenar polítiques per resoldre tasques amb algorismes d'aprenentatge de reforç profund, cadascuna amb els seus propis beneficis. Al nivell més alt, hi ha una distinció entre l'aprenentatge de reforç basat en models i l'aprenentatge lliure de models, que fa referència a si l'algoritme intenta aprendre un model avançat de la dinàmica de l'entorn.
En algorismes d'aprenentatge de reforç profund basats en models, s'estima un model avançat de la dinàmica de l'entorn, normalment mitjançant un aprenentatge supervisat mitjançant una xarxa neuronal. A continuació, s'obtenen accions utilitzant el control predictiu del model mitjançant el model après. Atès que la dinàmica real de l'entorn normalment divergirà de la dinàmica apresa, l'agent torna a planificar sovint quan realitza accions en l'entorn. Les accions seleccionades es poden optimitzar mitjançant mètodes de Montecarlo com el mètode d'entropia creuada o una combinació d'aprenentatge de models amb mètodes sense models.
En algorismes d'aprenentatge de reforç profund sense models, una política s'aprèn sense modelar explícitament la dinàmica cap endavant. Es pot optimitzar una política per maximitzar els rendiments estimant directament el gradient de la política [15] però pateix una gran variància, la qual cosa fa que no sigui pràctic per a l'ús amb aproximació de funcions en RL profund. S'han desenvolupat algorismes posteriors per a un aprenentatge més estable i aplicats àmpliament. Una altra classe d'algoritmes d'aprenentatge de reforç profund sense models es basen en la programació dinàmica, inspirada en l'aprenentatge per diferència temporal i l'aprenentatge Q. En espais d'acció discrets, aquests algorismes solen aprenen una funció Q de xarxa neuronal que estima els rendiments futurs prenent mesures de l'estat . En espais continus, aquests algorismes sovint aprenen tant una estimació de valors com una política.
Referències
- ↑ Plantilla:Ref-publicació
- ↑ Plantilla:Ref-publicació
- ↑ Plantilla:Ref-web
- ↑ Plantilla:Ref-publicació
- ↑ Plantilla:Ref-llibre
- ↑ Plantilla:Ref-llibre
- ↑ Plantilla:Ref-llibre
- ↑ 8,0 8,1 Plantilla:Ref-publicació
- ↑ Plantilla:Ref-publicació
- ↑ Plantilla:Ref-publicació
- ↑ Plantilla:Ref-web
- ↑ Plantilla:Ref-web
- ↑ Plantilla:Ref-web
- ↑ Plantilla:Ref-publicació
- ↑ Plantilla:Ref-publicació