Mecanisme de gating

A les xarxes neuronals, el mecanisme de gating és un motiu arquitectònic per controlar el flux de senyals d'activació i gradient. S'utilitzen de manera més destacada en xarxes neuronals recurrents (RNN), però també han trobat aplicacions en altres arquitectures.^[1]

RNN

Els mecanismes de gating són la peça central de la memòria a llarg termini (LSTM).^[2] Es van proposar per mitigar el problema del gradient de desaparició que sovint es troben els RNN habituals.

Una unitat LSTM conté tres portes:

Una porta d'entrada, que controla el flux de nova informació a la cel·la de memòria
Una porta d'oblit, que controla quanta informació es conserva del pas de temps anterior
Una porta de sortida, que controla quanta informació es passa a la capa següent.

Les equacions per a LSTM són: ^[3]

$\begin{matrix} 𝐈_{t} & = σ (𝐗_{t} 𝐖_{x i} + 𝐇_{t - 1} 𝐖_{h i} + 𝐛_{i}) \\ 𝐅_{t} & = σ (𝐗_{t} 𝐖_{x f} + 𝐇_{t - 1} 𝐖_{h f} + 𝐛_{f}) \\ 𝐎_{t} & = σ (𝐗_{t} 𝐖_{x o} + 𝐇_{t - 1} 𝐖_{h o} + 𝐛_{o}) \\ {\tilde{𝐂}}_{t} & = \tanh (𝐗_{t} 𝐖_{x c} + 𝐇_{t - 1} 𝐖_{h c} + 𝐛_{c}) \\ 𝐂_{t} & = 𝐅_{t} ⊙ 𝐂_{t - 1} + 𝐈_{t} ⊙ {\tilde{𝐂}}_{t} \\ 𝐇_{t} & = 𝐎_{t} ⊙ \tanh (𝐂_{t}) \end{matrix}$

Aquí,

⊙

representa la multiplicació per elements.

Arquitectura LSTM, amb portes

La unitat recurrent gated (GRU) simplifica el LSTM.^[4] En comparació amb el LSTM, el GRU només té dues portes: una porta de restabliment i una porta d'actualització. GRU també fusiona l'estat de la cel·la i l'estat ocult. La porta de restabliment correspon aproximadament a la porta d'oblit, i la porta d'actualització correspon aproximadament a la porta d'entrada. S'elimina la porta de sortida.

Hi ha diverses variants de GRU. Una variant concreta té aquestes equacions: ^[5]

\begin{matrix} 𝐑_{t} & = σ (𝐗_{t} 𝐖_{x r} + 𝐇_{t - 1} 𝐖_{h r} + 𝐛_{r}) \\ 𝐙_{t} & = σ (𝐗_{t} 𝐖_{x z} + 𝐇_{t - 1} 𝐖_{h z} + 𝐛_{z}) \\ {\tilde{𝐇}}_{t} & = \tanh (𝐗_{t} 𝐖_{x h} + (𝐑_{t} ⊙ 𝐇_{t - 1}) 𝐖_{h h} + 𝐛_{h}) \\ 𝐇_{t} & = 𝐙_{t} ⊙ 𝐇_{t - 1} + (1 - 𝐙_{t}) ⊙ {\tilde{𝐇}}_{t} \end{matrix}

Arquitectura de la Unitat Recurrent Gated, amb portes

Unitat lineal tancada

Gated Linear Units (GLU) ^[6] adapten el mecanisme de gating per utilitzar-lo en xarxes neuronals d'alimentació anticipada, sovint dins d'arquitectures basades en transformadors. Es defineixen com:

$G L U (a, b) = a ⊙ σ (b)$ on

$a, b$ són la primera i la segona entrada, respectivament. $σ$ representa la funció d'activació del sigmoide.

Substituint $σ$ amb altres funcions d'activació condueix a variants de GLU:

$\begin{matrix} R e G L U (a, b) & = a ⊙ ReLU (b) \\ G E G L U (a, b) & = a ⊙ GELU (b) \\ S w i G L U (a, b, β) & = a ⊙ {Swish}_{β} (b) \end{matrix}$

on ReLU, GELU i Swish són funcions d'activació diferents (vegeu aquesta taula per a les definicions).

En els models de transformadors, aquestes unitats de porta s'utilitzen sovint en els mòduls d'alimentació anticipada. Per a una entrada vectorial única, això resulta en:

$\begin{matrix} GLU (x, W, V, b, c) & = σ (x W + b) ⊙ (x V + c) \\ Bilinear (x, W, V, b, c) & = (x W + b) ⊙ (x V + c) \\ ReGLU (x, W, V, b, c) & = \max (0, x W + b) ⊙ (x V + c) \\ GEGLU (x, W, V, b, c) & = GELU (x W + b) ⊙ (x V + c) \\ SwiGLU (x, W, V, b, c, β) & = {Swish}_{β} (x W + b) ⊙ (x V + c) \end{matrix}$

El mecanisme de gating s'utilitza a les xarxes d'autopistes, que es van dissenyar desenrotllant un LSTM.

Channel gating ^[7] utilitza una porta per controlar el flux d'informació a través de diferents canals dins d'una xarxa neuronal convolucional (CNN).

Referències

Plantilla:Referències

[1] Plantilla:Ref-web

[lstm1997-2] Plantilla:Ref-publicació

[3] Plantilla:Ref-llibre

[4] Plantilla:Ref-publicació

[5] Plantilla:Ref-llibre

[6] Plantilla:Ref-publicació

[7] Plantilla:Ref-publicació

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Mecanisme de gating

RNN

Unitat lineal tancada

Referències

Menú de navegació

Cerca