Regressió de mínims quadrats parcials

La regressió de mínims quadrats parcials, (en anglès partial least squares, PLS), és un mètode estadístic multivariant que analitza la relació entre variables per trobar un subespai de variables latents que sintetize les variables de predicció o independents (X) amb l'objectiu d'entendre la dispersió de les variables dependents o observades (Y) de forma lineal.
A diferència de la regressió de components principals (PCR), que obté el subespai latent buscant maximitzar la variància de les variables explicatives (X), la PLS intenta maximitzar la covariància entre les variables dependents (Y) i les variables independents (X). Això ens permet trobar un subespai latent que conté informació de les observacions i, per tant, ens permet trobar aquell subespai que compacta la informació continguda a X, Y i la relació entre ambdós.
La regressió de mínims quadrats parcials va ser introduïda per l'estadístic suec Herman Wold juntament amb el seu fill Svante Wold en el camp de la quimiometria. Un terme alternatiu - i més correcte segons els seus autors - per a PLS és projecció sobre estructures latents (Projection to Latent Structures). La utilització de la terminologia concreta dependrà del camp d'aplicació, essent regressió de mínims quadrats parcials la forma més comuna de referir-s'hi.
Model matemàtic
El model matemàtic subjacent de PLS és el següent:
on Plantilla:Mvar és la matriu de predictors de dimensió i Plantilla:Mvar és la matriu d'observacions de dimensió . Plantilla:Mvar and Plantilla:Mvar són matrius de dimensió que referencien les projeccions a l'espai latent de projections de Plantilla:Mvar (X score) i Plantilla:Mvar (the Y scores) respectivament, mentre que Plantilla:Mvar and Plantilla:Mvar són les respectives matrius de loading i de dimensions and . Finalment, les matrius Plantilla:Mvar and Plantilla:Mvar són els termes d'error del model, assumint que són variables aleatòries independents i idènticament distribuïdes (i.i.d) que segueixen una distribució normal. La descomposició de Plantilla:Mvar i Plantilla:Mvar busca maximitzar la covariància de Plantilla:Mvar i Plantilla:Mvar.
L'equació de regressió resultant queda així:
on l'expressió concreta de la matriu de coeficients dependrà de l'algoritme utilitzat.
Algoritmes
Existeixen diferents implementacions de PLS. NIPALS és l'algoritme introduït per Herman i Svante Wold.[1] Més tard, va sortir SIMPLS, una alternativa més simple i ràpida de càlcul introduïda per S. De Jong l'any 1993.[2]
NIPALS
NIPALS és l'acrònim de Non-linear iterative partial least squares (Mínims quadrats parcials no lineals i iteratius). Com el seu nom indica, obté les matrius del model PLS mitjançant la iteració entre els bocs X i Y.
1 Plantilla:Nowrap 2 Plantilla:Nowrap 3 Plantilla:Nowrap 3 Plantilla:Nowrap utilitzem la primera columna de Y com a estimació inicial de u_{k} 4 Plantilla:Nowrap 5 Plantilla:Nowrap 6 Plantilla:Nowrap 7 Plantilla:Nowrap 8 Plantilla:Nowrap 9 Plantilla:Nowrap 10 Plantilla:Nowrap 11 12 Plantilla:Nowrap 13 Plantilla:Nowrap 14 Plantilla:Nowrap 15 Plantilla:Nowrap 16 Plantilla:Nowrap 17 18 define Plantilla:Mvar to be the matrix Plantilla:Nowrap Do the same to form the Plantilla:Mvar and Plantilla:Mvar matrices. 18 Plantilla:Nowrap 19 Plantilla:Nowrap
on són les matrius de pesos de respectivament. La convergència de l'algoritme per a cada variable latent es defineix, normalment, quan la variació de la variable és mínima entre iteracions consecutives
SIMPLS
L'algoritme SIMPLS (Statistically Inpired Modification of PLS) és una modificació del NIPALS, més ràpid de càlcul. Utilitza descomposició en valors singulars, convertint-lo en més eficient.
Software
La majoria de softwares estadístics, tenen diferents implementacions de PLS.
- Python: la llibreria scikit-learn té una implementació de NIPALS a la classe PLSRegression
- R: té diverses implementacions de PLS al paquet pls i plsdepotPlantilla:Enllaç no actiu
- SAS: implementa PLS mitjançant PLS Procedure
- Matlab: la funció plsregress implementa l'algoritme SIMPLS