Mecanisme de gating
A les xarxes neuronals, el mecanisme de gating és un motiu arquitectònic per controlar el flux de senyals d'activació i gradient. S'utilitzen de manera més destacada en xarxes neuronals recurrents (RNN), però també han trobat aplicacions en altres arquitectures.[1]
RNN
Els mecanismes de gating són la peça central de la memòria a llarg termini (LSTM).[2] Es van proposar per mitigar el problema del gradient de desaparició que sovint es troben els RNN habituals.
Una unitat LSTM conté tres portes:
- Una porta d'entrada, que controla el flux de nova informació a la cel·la de memòria
- Una porta d'oblit, que controla quanta informació es conserva del pas de temps anterior
- Una porta de sortida, que controla quanta informació es passa a la capa següent.
Les equacions per a LSTM són: [3]
Aquí,
representa la multiplicació per elements.
- Arquitectura LSTM, amb portes
La unitat recurrent gated (GRU) simplifica el LSTM.[4] En comparació amb el LSTM, el GRU només té dues portes: una porta de restabliment i una porta d'actualització. GRU també fusiona l'estat de la cel·la i l'estat ocult. La porta de restabliment correspon aproximadament a la porta d'oblit, i la porta d'actualització correspon aproximadament a la porta d'entrada. S'elimina la porta de sortida.
Hi ha diverses variants de GRU. Una variant concreta té aquestes equacions: [5]
- Arquitectura de la Unitat Recurrent Gated, amb portes
Unitat lineal tancada
Gated Linear Units (GLU) [6] adapten el mecanisme de gating per utilitzar-lo en xarxes neuronals d'alimentació anticipada, sovint dins d'arquitectures basades en transformadors. Es defineixen com:
on
són la primera i la segona entrada, respectivament. representa la funció d'activació del sigmoide.
Substituint amb altres funcions d'activació condueix a variants de GLU:
on ReLU, GELU i Swish són funcions d'activació diferents (vegeu aquesta taula per a les definicions).
En els models de transformadors, aquestes unitats de porta s'utilitzen sovint en els mòduls d'alimentació anticipada. Per a una entrada vectorial única, això resulta en:
El mecanisme de gating s'utilitza a les xarxes d'autopistes, que es van dissenyar desenrotllant un LSTM.
Channel gating [7] utilitza una porta per controlar el flux d'informació a través de diferents canals dins d'una xarxa neuronal convolucional (CNN).