Distribució T quadrat de Hotelling

De testwiki
Salta a la navegació Salta a la cerca

Plantilla:Distribució de probabilitat

En Estadística, la distribució T² de Hotelling és una distribució univariant proporcional a la distribució F, important a distribució d'un conjunt d'estadístics que són generalitzacions naturals dels estadístics subjacents a la distribució t de Student. En particular, la distribució apareix en estadística multivariant en les proves de les diferències entre mitjanes (multivariants) de diferents poblacions, que en el cas de proves univariants es faria ús d'una prova t.

La distribució és el nom de Harold Hotelling, qui la va desenvolupar com una generalització de la distribució t de Student.[1]

La distribució

Si el vector pd1 es distribueix segons una distribució gaussiana multivariant mitja zero i matriu de covariància N(p01, pIp) i mMp és una matriu pxp amb una distribució de Wishart amb matriu escala unitat i m graus de llibertat W(pIp, m), llavors m(1dPlantilla:'pM – 1pd1) segueix una distribució T² de Hotelling amb paràmetre de dimensionalitat p i m graus de llibertat.[2]

Si s'utilitza la notació Tp,m2 per representar una variable aleatòria amb distribució T quadrat de Hotelling amb paràmetres p i m llavors, si una variable aleatòria X segueix una distribució T quadrat de Hotelling,

XTp,m2

llavors[1]

mp+1pmXFp,mp+1

on Fp; m – p + 1 es la distribució F amb paràmetres p i m – p + 1.

Estadístic T ² de Hotelling

L'estadístic T² de Hotelling és una generalització de l'estadístic t de Student que s'utilitza en proves d’hipòtesis multivariants i es defineix com:[1]

Sigui 𝒩p(μ,Σ) una p-variable normal amb mitja μ i covariància Σ. Siguin

𝐱1,,𝐱n𝒩p(μ,Σ)

n variables aleatòries independents, que es poden representar com a p×1 vectors columnes de valors reals i

𝐱=𝐱1++𝐱nn

la mitja mostral. Es pot demostrar que

n(𝐱μ)Σ1(𝐱μ)χp2,

on χp2 és la distribució khi quadrat amb p graus de llibertat.

Per mostrar-ho partim del fet que 𝐱𝒩p(μ,Σ/n) i deduïm la funció característica de la variable aleatòria 𝐲=n(𝐱μ)Σ1(𝐱μ) tal com segueix,

ϕ𝐲(θ)=Eeiθ𝐲,
=Eeiθn(𝐱μ)Σ1(𝐱μ)
=eiθn(𝐱μ)Σ1(𝐱μ)(2π)p2|Σ/n|12e12n(𝐱μ)Σ1(𝐱μ)dx1...dxp
=(2π)p2|Σ/n|12e12n(𝐱μ)(Σ12iθΣ1)(𝐱μ)dx1...dxp,
=|(Σ12iθΣ1)1/n|12|Σ/n|12(2π)p2|(Σ12iθΣ1)1/n|12e12n(𝐱μ)(Σ12iθΣ1)(𝐱μ)dx1...dxp,
=|(𝐈p2iθ𝐈p)|12,
=(12iθ)p2.

Ara bé, Σ sovint és desconeguda i volem fer proves d’hipòtesi sobre la posició μ.

Suma de p t quadrats

Sigui

𝐖=1n1i=1n(𝐱i𝐱)(𝐱i𝐱)

la covariància mostral. Es pot demostrar que (aquí la trasposta es representa com a apòstrofe) 𝐖 és una matriu positiva (semi) definida i (n1)𝐖 segueix una distribució de Wishart p-variada amb n – 1 graus de llibertat.[3] L'estadístic T² de Hotelling es defineix, doncs, com a:[4]

t2=n(𝐱μ)𝐖1(𝐱μ)

i, com abans,

t2Tp,n12

és a dir

npp(n1)t2Fp,np,

on Fp; n – p es la distribució F amb paràmetres p i n – p. Per calcular un valor P cal multiplicar l'estadistic t² per l’anterior constant i fer servir la distribució F.

Estadístic T ² de Hotelling per a dues mostres

Si 𝐱1,,𝐱nxNp(μ,𝐕), 𝐲1,,𝐲nyNp(μ,𝐕), i les mostres provenen de dues distribucions normals multivariades independents amb la mateixa mitja i covariàncies, i es defineix

𝐱=1nxi=1nx𝐱i𝐲=1nyi=1ny𝐲i

com les mitjanes mostrals, i

𝐖=i=1nx(𝐱i𝐱)(𝐱i𝐱)+i=1ny(𝐲i𝐲)(𝐲i𝐲)nx+ny2

com la matriu de covariància conjunta no esbiaixada estimada, llavors lPlantilla:'estadistic T² per a dues mostres és

t2=nxnynx+ny(𝐱𝐲)𝐖1(𝐱𝐲)T2(p,nx+ny2)

que es pot relacionar amb la distribució F[3]

nx+nyp1(nx+ny2)pt2F(p,nx+ny1p).

La distribució no nul·la d’aquest estadístic es la distribució F no central (el quocient entre una variable aleatòria khi quadrat no central i una variable aleatòria khi quadrat central independent)

nx+nyp1(nx+ny2)pt2F(p,nx+ny1p;δ),

amb

δ=nxnynx+nyν𝐕1ν,

on ν és el vector diferència entre les mitjanes poblacionals.

S'han proposat proves més robustos i potents que la prova de Hotelling per a dues mostres, veure per exemple les proves basades en la distància emtre punts que es poden aplicar també quan el nombre de variables és comparable o fins i tot més gran que el nombre d’objectes.[5][6]

En el cas de dues variables la fórmula es simplifica i permet visualitzar com la correlació r entre les variables influeix sobre t2. Si es defineix

d1=x.1y.1,d2=x.2y.2

i

SD1=W11SD2=W22

llavors

t2=nxny(nx+ny)(1r2)[(d1SD1)2+(d2SD2)22r(d1SD1)(d2SD2)]

Si les diferències entre dos files del vector (𝐱𝐲) tenen el mateix signe llavors, en general t2 és més petit a mesura que r es més positiu. Si les diferències son de signe oposat t2 és més gran a mesura que r és més positiu.

Vegeu també

Bibliografia

Prokhorov, A.V. (2001), "Hotelling T²-distribution", a Hazewinkel, M. "Encyclopedia of Mathematics". New York (NY): Springer, Plantilla:ISBN

Referències

Plantilla:Referències

Plantilla:Distribucions de probabilitat Plantilla:Autoritat