Llei d'escala neuronal

En l'aprenentatge automàtic, una llei d'escala neuronal és una llei d'escala empírica que descriu com canvia el rendiment de la xarxa neuronal a mesura que els factors clau augmenten o redueixen. Aquests factors solen incloure el nombre de paràmetres, la mida del conjunt de dades d'entrenament,[1] i el cost de la formació.
Introducció
En general, un model d'aprenentatge profund es pot caracteritzar per quatre paràmetres: la mida del model, la mida del conjunt de dades d'entrenament, el cost de l'entrenament i la taxa d'error posterior a l'entrenament (per exemple, la taxa d'error del conjunt de proves). Cadascuna d'aquestes variables es pot definir com un nombre real, normalment escrit com (respectivament: recompte de paràmetres, mida del conjunt de dades, cost informàtic i pèrdua).
Una llei d'escala neural és una llei estadística teòrica o empírica entre aquests paràmetres. També hi ha altres paràmetres amb altres lleis d'escala.
Mida del model
En la majoria dels casos, la mida del model és simplement el nombre de paràmetres. Tanmateix, sorgeix una complicació amb l'ús de models escassos, com ara models de barreja d'experts.[2] Amb models escassos, durant la inferència, només s'utilitza una part dels seus paràmetres. En comparació, la majoria dels altres tipus de xarxes neuronals, com ara els models de transformadors, sempre utilitzen tots els seus paràmetres durant la inferència.
Mida del conjunt de dades d'entrenament
La mida del conjunt de dades d'entrenament normalment es quantifica pel nombre de punts de dades que hi ha. Normalment es prefereixen conjunts de dades d'entrenament més grans, ja que proporcionen una font d'informació més rica i diversa de la qual el model pot aprendre. Això pot conduir a un rendiment de generalització millorat quan el model s'aplica a dades noves i no vistes. Tanmateix, augmentar la mida del conjunt de dades d'entrenament també augmenta els recursos computacionals i el temps necessari per a l'entrenament del model.
Amb el mètode "preentrenament, després ajustar" que s'utilitza per a la majoria de models de llenguatge extens, hi ha dos tipus de conjunt de dades d'entrenament: el conjunt de dades de preentrenament i el conjunt de dades d'ajustament. Les seves mides tenen diferents efectes sobre el rendiment del model. En general, el conjunt de dades d'ajustament és inferior a l'1% de la mida del conjunt de dades de preentrenament.
En alguns casos, una petita quantitat de dades d'alta qualitat n'hi ha prou per ajustar-les, i més dades no milloren necessàriament el rendiment.
Cost de l'entrenament

El cost de la formació normalment es mesura en termes de temps (quant de temps triga a entrenar el model) i recursos computacionals (quanta potència de processament i memòria es requereix). És important tenir en compte que el cost de la formació es pot reduir significativament amb algorismes d'entrenament eficients, biblioteques de programari optimitzades i computació paral·lela en maquinari especialitzat com ara GPU o TPU.
El cost d'entrenar un model de xarxa neuronal és una funció de diversos factors, com ara la mida del model, la mida del conjunt de dades d'entrenament, la complexitat de l'algorisme d'entrenament i els recursos computacionals disponibles. En particular, duplicar la mida del conjunt de dades d'entrenament no necessàriament duplica el cost de l'entrenament, perquè es pot entrenar el model diverses vegades sobre el mateix conjunt de dades (cadascun és una "època").
Rendiment

El rendiment d'un model de xarxa neuronal s'avalua en funció de la seva capacitat de predir amb precisió la sortida donada algunes dades d'entrada. Les mètriques habituals per avaluar el rendiment del model inclouen:

- Exactitud, precisió, recordació i puntuació F1 per a les tasques de classificació
- Error quadrat mitjà (MSE) o error mitjà absolut (MAE) per a tasques de regressió
- Log-verabilitat negativa per testimoni (logaritme de perplexitat) per a la modelització del llenguatge
- La qualificació d'Elo en una competició contra altres models, com ara el joc o la preferència d'un jutge humà.
El rendiment es pot millorar mitjançant l'ús de més dades, models més grans, diferents algorismes d'entrenament, regularitzar el model per evitar un sobreajustament i aturar-se abans d'utilitzar un conjunt de validació.
Exemples
(Hestness, Narang, et al, 2017)
El document de 2017 és un punt de referència comú per a les lleis d'escala neuronal ajustades per l'anàlisi estadística de dades experimentals. Els treballs anteriors abans de la dècada del 2000, tal com es cita a l'article, eren teòrics o d'ordres de magnitud més reduïts. Mentre que els treballs anteriors generalment van trobar l'exponent d'escala a escala com , amb , el document ho va trobar .
Dels factors que van variar, només la tasca pot canviar l'exponent . Canviar els optimitzadors d'arquitectura, regularitzadors i funcions de pèrdua, només canviaria el factor de proporcionalitat, no l'exponent. Per exemple, per a la mateixa tasca, podria tenir una arquitectura mentre que un altre podria tenir . També van trobar que per a una arquitectura determinada, el nombre de paràmetres necessaris per assolir els nivells més baixos de pèrdua, donada una mida fixa del conjunt de dades, creix com per un altre exponent .
Van estudiar traducció automàtica amb LSTM ( ), modelització del llenguatge generatiu amb LSTM ( ), classificació ImageNet amb ResNet ( ), i reconeixement de veu amb dues arquitectures híbrides (LSTM complementades amb CNN o amb un descodificador d'atenció) ( ).
(Henighan, Kaplan, et al, 2020)
Una anàlisi de 2020[4] va estudiar les relacions estadístiques entre sobre una àmplia gamma de valors i es van trobar lleis d'escala similars, en el rang de , , i en múltiples modalitats (text, vídeo, imatge, text a imatge, etc.).[4]
En particular, les lleis d'escala que va trobar són (Taula 1 de[5]):
Per a cada modalitat, n'han fixat una de les dues , i variant l'altre (D varia usant D=C/6N), la èrdua satisfà: L
Escalat de xinxilla (Hoffmann, et al, 2022)

Una llei d'escala particular ("Chinchilla scaling") estableix que, per a un model de llenguatge gran (LLM) entrenat de manera autoregressiva per a una època, amb un programa de taxa d'aprenentatge cosinus, tenim: on es troben les variables