Unitats recurrents controlades

Les unitats recurrents controlades (GRU) són un mecanisme de gating en xarxes neuronals recurrents, introduït el 2014 per Kyunghyun Cho i altres.^[1] El GRU és com una memòria a llarg termini (LSTM) amb una porta oblidada,^[2] però té menys paràmetres que LSTM, ja que no té una porta de sortida.^[3] Es va trobar que el rendiment de GRU en determinades tasques de modelatge de música polifònica, modelatge de senyals de parla i processament de llenguatge natural era similar al de LSTM.^[4]^[5] Els GRU van demostrar que el gating és realment útil en general i l'equip de Bengio va concloure que no hi havia cap conclusió concreta sobre quina de les dues unitats de gating era millor.^[6]

Arquitectura

Hi ha diverses variacions a la unitat completa de control, amb l'obtenció feta utilitzant l'estat ocult anterior i el biaix en diverses combinacions, i una forma simplificada anomenada unitat mínima de control.^[7]

L'operador $⊙$ denota el producte de Hadamard a continuació.

Unitat totalment controlada

Inicialment, per $t = 0$ , el vector de sortida és $h_{0} = 0$

$\begin{matrix} z_{t} & = σ_{g} (W_{z} x_{t} + U_{z} h_{t - 1} + b_{z}) \\ r_{t} & = σ_{g} (W_{r} x_{t} + U_{r} h_{t - 1} + b_{r}) \\ {\hat{h}}_{t} & = ϕ_{h} (W_{h} x_{t} + U_{h} (r_{t} ⊙ h_{t - 1}) + b_{h}) \\ h_{t} & = z_{t} ⊙ h_{t - 1} + (1 - z_{t}) ⊙ {\hat{h}}_{t} \end{matrix}$

Les variables

$x_{t}$ : vector d'entrada
$h_{t}$ : vector de sortida
${\hat{h}}_{t}$ : vector d'activació candidat
$z_{t}$ : actualitza el vector de la porta
$r_{t}$ : reinicia el vector de la porta
$W$ , $U$ i $b$ : matrius de paràmetres i vector

Funcions d'activació

$σ_{g}$ : L' original és una funció sigmoide.
$ϕ_{h}$ : L' original és una tangent hiperbòlica.

Són possibles funcions d'activació alternatives, sempre que això $σ_{g} (x) \in [0, 1]$ .

Es poden crear formes alternatives canviant $z_{t}$ i $r_{t}$ ^[8]

Tipus 1, cada porta depèn només de l'estat ocult anterior i del biaix.
$\begin{matrix} z_{t} & = σ_{g} (U_{z} h_{t - 1} + b_{z}) \\ r_{t} & = σ_{g} (U_{r} h_{t - 1} + b_{r}) \end{matrix}$
Tipus 2, cada porta només depèn de l'estat ocult anterior.
$\begin{matrix} z_{t} & = σ_{g} (U_{z} h_{t - 1}) \\ r_{t} & = σ_{g} (U_{r} h_{t - 1}) \end{matrix}$
Tipus 3, cada porta es calcula utilitzant només el biaix.
$\begin{matrix} z_{t} & = σ_{g} (b_{z}) \\ r_{t} & = σ_{g} (b_{r}) \end{matrix}$

Referències

Plantilla:Referències

[1] Plantilla:Ref-publicació

[lstm1999-2] Plantilla:Ref-publicació

[MyUser_Wildml.com_May_18_2016c-3] Plantilla:Ref-web

[Ravalli2018-4] Plantilla:Ref-publicació

[Su2019-5] Plantilla:Ref-publicació

[gruber_jockisch-6] Plantilla:Citar ref

[Chung_18_2016c-7] Plantilla:Cite arXiv

[8] Plantilla:Cite arXiv

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Unitats recurrents controlades

Arquitectura

Unitat totalment controlada

Referències

Menú de navegació

Cerca