Màquines d'aprenentatge extrem

Les màquines d'aprenentatge extrem són xarxes neuronals anticipades per a la classificació, la regressió, l'agrupació, l'aproximació escassa, la compressió i l'aprenentatge de funcions amb una sola capa o diverses capes de nodes ocults, on els paràmetres dels nodes ocults (no només els pesos que connecten les entrades als nodes ocults) necessiten per ser afinat. Aquests nodes ocults es poden assignar aleatòriament i no actualitzar-se mai (és a dir, són de projecció aleatòria però amb transformacions no lineals), o es poden heretar dels seus avantpassats sense canviar-los. En la majoria dels casos, els pesos de sortida dels nodes ocults s'aprenen generalment en un sol pas, que bàsicament equival a aprendre un model lineal.

El nom de "màquina d'aprenentatge extrem" (ELM) va ser donat a aquests models per Guang-Bin Huang. La idea es remunta a Frank Rosenblatt, que no només va publicar una sola capa Perceptron l'any 1958,^[1] sinó que també va introduir un perceptró multicapa amb 3 capes: una capa d'entrada, una capa oculta amb pesos aleatoris que no van aprendre i un capa de sortida d'aprenentatge.^[2]

Segons alguns investigadors, aquests models són capaços de produir un bon rendiment de generalització i d'aprendre milers de vegades més ràpid que les xarxes entrenades mitjançant la retropropagació.^[3] A la literatura, també mostra que aquests models poden superar les màquines vectorials de suport tant en aplicacions de classificació com de regressió.^[4]^[5]

Història

Entre 2001 i 2010, la investigació de l'ELM es va centrar principalment en el marc d'aprenentatge unificat per a xarxes neuronals d'alimentació anticipada d'una sola capa "generalitzada" (SLFN), incloses, entre d'altres, xarxes sigmoides, xarxes RBF, xarxes de llindar,^[6] xarxes trigonomètriques, borroses. sistemes d'inferència, sèries de Fourier,^[7]^[8] Transformada Laplacià, xarxes wavelet,^[9] etc. Un assoliment significatiu aconseguit en aquests anys és demostrar amb èxit les capacitats universals d'aproximació i classificació de l'ELM en teoria.^[7] ^[10]^[11]

Algorismes

Donada una única capa oculta d'ELM, suposem que la funció de sortida de la $i$ -el node ocult és $h_{i} (𝐱) = G (𝐚_{i}, b_{i}, 𝐱)$ , on $𝐚_{i}$ i $b_{i}$ són els paràmetres de la $i$ -è node ocult. La funció de sortida de l'ELM per a xarxes de feedforward de capa oculta única (SLFN) amb $L$ nodes ocults és:

$f_{L} (𝐱) = \sum_{i = 1}^{L} β_{i} h_{i} (𝐱)$ , on $β_{i}$ és el pes de sortida del $i$ -è node ocult.

$𝐡 (𝐱) = [h_{i} (𝐱), . . ., h_{L} (𝐱)]$ és el mapeig de sortida de la capa oculta d'ELM. Donat $N$ mostres d'entrenament, la matriu de sortida de la capa oculta $𝐇$ d'ELM es dona com:

$𝐇 = [\begin{matrix} 𝐡 (𝐱_{1}) \\ ⋮ \\ 𝐡 (𝐱_{N}) \end{matrix}] = [\begin{matrix} G (𝐚_{1}, b_{1}, 𝐱_{1}) & \dots & G (𝐚_{L}, b_{L}, 𝐱_{1}) \\ ⋮ & ⋮ & ⋮ \\ G (𝐚_{1}, b_{1}, 𝐱_{N}) & \dots & G (𝐚_{L}, b_{L}, 𝐱_{N}) \end{matrix}]$

i $𝐓$ és la matriu objectiu de dades d'entrenament:

$𝐓 = [\begin{matrix} 𝐭_{1} \\ ⋮ \\ 𝐭_{N} \end{matrix}]$

En termes generals, ELM és una mena de xarxes neuronals de regularització, però amb mapes de capes ocultes no sintonitzades (formades per nodes ocults aleatoris, nuclis o altres implementacions), la seva funció objectiu és:

$Minimització: ‖ β ‖_{p}^{σ_{1}} + C ‖ 𝐇 β - 𝐓 ‖_{q}^{σ_{2}}$

on $σ_{1} > 0, σ_{2} > 0, p, q = 0, \frac{1}{2}, 1, 2, \dots, + \infty$

Diferents combinacions de $σ_{1}$ , $σ_{2}$ , $p$ i $q$ es pot utilitzar i donar lloc a diferents algorismes d'aprenentatge per a regressió, classificació, codificació escassa, compressió, aprenentatge de funcions i agrupació.

Arquitectures

En la majoria dels casos, ELM s'utilitza com a xarxa d'alimentació anticipada de capa oculta (SLFN) que inclou, entre d'altres, xarxes sigmoides, xarxes RBF, xarxes de llindar, xarxes d'inferència difusa, xarxes neuronals complexes, xarxes wavelet, transformada de Fourier, transformada Laplacià, etc. A causa de les seves diferents implementacions d'algorismes d'aprenentatge per a la regressió, la classificació, la codificació escassa, la compressió, l'aprenentatge de característiques i l'agrupació, els multi ELM s'han utilitzat per formar xarxes de múltiples capes ocultes, aprenentatge profund o xarxes jeràrquiques.^[12]^[13]

Referències

Plantilla:Referències

[1] Plantilla:Ref-publicació

[rosenblatt1962-2] Plantilla:Ref-llibre

[3] Plantilla:Ref-publicació

[:43-4] Plantilla:Ref-publicació

[:03-5] Plantilla:Ref-publicació

[6] Plantilla:Ref-publicació

[:12-7] 7,0 ^7,1 Plantilla:Ref-publicació

[8] Plantilla:Ref-publicació

[9] Plantilla:Ref-publicació

[:24-10] Plantilla:Ref-publicació

[:33-11] Plantilla:Ref-publicació

[:5-12] Plantilla:Ref-publicació

[:6-13] Plantilla:Ref-publicació

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

Màquines d'aprenentatge extrem

Contingut

Història

Algorismes

Arquitectures

Referències

Menú de navegació

Màquines d'aprenentatge extrem

Història

Algorismes

Arquitectures

Referències

Menú de navegació

Cerca