Distribució normal multivariable

De testwiki
Salta a la navegació Salta a la cerca

Plantilla:Infotaula distribució de probabilitat En teoria de probabilitat i estadística, la distribució normal multivariable o multidimensional o distribució gaussiana multivariable o multidimensional és una generalització de la distribució normal unidimensional (univariable) en dimensions superiors. Una definició possible és que un vector aleatori té distribució normal d-variable si totes les combinacions lineals de les seves components segueixen una distribució normal univariable. La seva importància es deriva principalment del teorema del límit central multivariable i les seves aplicacions, tant en Teoria de la probabilitat com en Estadística multivariant. La distribució normal multivariable s'utilitza sovint per descriure, almenys aproximadament, qualsevol conjunt de variables aleatòries reals (possiblement) correlacionades cadascuna de les quals es concentra al voltant d'un valor mitjà.

Les referències bàsiques d'aquest article són TongPlantilla:Sfn i BrycPlantilla:Sfn per a la part probabilistica, i AndersonPlantilla:Sfn i SeberPlantilla:SfnPlantilla:Sfn per a les aplicacions estadístiques.

Vector aleatori normal amb funció de densitat

Notacions. Seguint les convencions de l'àlgebra lineal, escriurem tots els vectors en columna i identificarem d amb el conjunt de vectors reals d-dimensionals. Denotarem per 𝑼 la transposada de la matriu o del vector 𝑼.

Començarem pel cas més senzill i habitual en què el vector aleatori normal té densitat, també anomenat vector aleatori normal no singular o no degenerat. Més endavant veurem el cas general.

Definició. Un vector aleatori 𝑿=(X1,,Xd) es diu que és normal (no singular)Plantilla:Sfn o que té distribució normal multidimensional o multivariable (no singular) si té funció de densitat

Plantilla:Teorema

on μ=(μ1,,μd)d, Σ és una matriu (real) d×d definida positiva [1] i det Σ>0 és el seu determinant. S'escriu 𝑿𝒩(μ,Σ), o bé 𝑿𝒩d(μ,Σ) si es vol remarcar la dimensió del vector; en aquest article utilitzarem aquesta segona notació. Quan d=1, es tracta d'una variable aleatòria normal amb mitjana μ i variància σ2=Σ, i s'escriu 𝒩(μ,σ2) en lloc de 𝒩1(μ,σ2).

Com demostrarem més endavant, el vector μ és el vector d'esperances de 𝑿 i Σ la seva matriu de variàncies-covariàncies:

μ=E[𝑿]=(E[X1],,E[Xd])iΣ=(σij)i,j=1,d=(Cov(Xi,Xj))i,j=1,d.
Exemple. Vector aleatori normal estàndardPlantilla:Sfn. Siguin Z1,,Zn variables aleatòries independents, totes amb distribució normal estàndard 𝒩(0,1). Considerem el vector aleatori 𝒁=(Z1,,Zd). Atès que les variables són independents, la funció de densitat del vector serà el producte de les funcions de densitat de les components: Per a 𝒙=(x1,,xd)d

f𝒁(𝒙)=fZ1(x1)fZd(xd)=12πex12/212πexd2/2=1(2π)d/2exp{12j=1dxj2}=1(2π)d/2e𝒙𝒙/2. Així,

Plantilla:Teorema

Per tant, 𝒁 és un vector aleatori normal, amb μ=0=(0,,0) i Σ=𝑰d (matriu identitat). Així, 𝒁𝒩d(0,𝑰d). Noteu que aquests valors de μ i Σ són coherents amb el fet que E[Zi]=0 i Var(Zi)=1, i=1,,d, i Cov(Zi,Zj)=0, ij .

Per posterior us, comentem que la funció característica de 𝒁 és el producte de les funcions característiques de les components i val

Plantilla:Teorema

El·lipsoides d'equidensitat.Plantilla:Sfn La funció de densitat (1) és constant sobre els el·lipsoides d-dimensionals de la forma (𝒙μ)Σ1(𝒙μ)=c2, per a qualsevol c. És diu que és una distribució amb simetria el·líptica . Quan Σ=σ𝑰d aleshores els el·lipsoides anteriors són esferes i es diu que la distribució té simetria esfèrica. Vegeu al següent apartat el cas bidimensional. Vegeu [2] per un estudi complet de les distribucions amb simetria el·líptica i simetria esfèrica.

Vector aleatori normal bidimensional

Vegem l'expressió de la funció de densitat (1) quan d=2Plantilla:Sfn. Sigui 𝑿=(X1,X2)𝒩2(μ,Σ). Tindrem E(X1X2)=(μ1μ2).La matriu de variàncies covariàncies serà Σ=(σ11σ12σ21σ22)=(σ12ρσ1σ2ρσ1σ2σ22),on σ11=σ12=Var(X1)=E[X12]μ12,anàlogament σ22=σ22 és la variància de X2, i ρ és el coeficient de correlació entre X1 i X2: ρ=Cov(X1,X2)Var(X1)Var(X2)=σ12σ1σ2,i cal suposar 1<ρ<1 per tal que det Σ>0 .

La inversa de Σ ésΣ1=11ρ2(1/σ12ρ/(σ1σ2)ρ/(σ1σ2)1/σ22).Llavors, la funció de densitat de 𝑿 és

Plantilla:Teorema
Figura 1. Funció de densitat d'un vector aleatori normal bidimensional


Podem pensar en aquesta funció de densitat com una superfície a l'espai, amb forma de campana i màxim en el punt (μ1,μ2). Vegeu a la Figura 1 una representació de la funció z=f(x,y)


Els el·lipsoides d'equidensitat són ara les el·lipsesPlantilla:Sfn.

(x1μ1)2σ122ρ(x1μ1)(x2μ2)σ1σ2+(x2μ2)2σ22=c2.

Aquestes el·lipses serien les corbes de nivell (no dibuixades a la Figura 1) en un mapa topogràfic .

Quan ρ=0 (és a dir, les variables són independents) i σ1=σ2, aleshores les el·lipses esdevenen circumferències.




Definició: cas general

En aplicacions importants, com per exemple la distribució dels residus en models de regressió lineal o la distribució asimptòtica de la distribució multinomial que dona lloc al test de la χ2 de Pearson, es fa palesa la necessitat d'utilitzar vectors aletoris normals que tenen matriu de variàncies-covariàncies amb determinant nul (matriu singular), que s'anomenen vectors aleatoris normals singulars o degenerats;Plantilla:Sfn necessàriament aquests vectors no tenen funció de densitat i per tant, cal donar una definició que no utilitzi aquesta funció.

En aquest context, els llibres donen diverses definicions (equivalents) de vector aleatori normal multidimensional general. Aquí citarem les tres més habituals; la definició (a) es troba a BrycPlantilla:Sfn, la (b) a Nualart-SanzPlantilla:Sfn i la (c) a Seber.Plantilla:Sfn

(a) Es diu que un vector aleatori 𝑿 és normal si qualsevol combinació lineal de les seves components és una variable aleatòria normal.
(b) Sigui Σ una matriu d×d semidefinida positiva i μd. Un vector aleatori 𝑿 es diu que és normal 𝑿𝒩d(μ,Σ) si té funció característica
Plantilla:Teorema
(c) Sigui Σ una matriu d×d semidefinida positiva i μd. Un vector aleatori 𝑿 es diu que és normal 𝑿𝒩d(μ,Σ) si té la mateixa llei que 𝑩𝒁+μ, on 𝒁𝒩k(0,𝑰k) (és dir, té funció de densitat (2)), i 𝑩 és qualsevol matriu d×k tal que 𝑩𝑩=Σ (sempre existeix almenys una matriu B amb aquestes característiquesPlantilla:Sfn).

Notació i nomenclatura. A partir d'ara, utilitzarem la notació 𝑿=(X1,,Xd)𝒩d(μ,Σ) per referir-nos a un vector aleatori normal d-dimensional, ja sigui singular o no singular. També es diu que les variables aleatòries X1,,Xd tenen distribució conjunta normal o que són conjuntament normals.

Cas singular i cas no singular. Sigui 𝑿𝒩d(μ,Σ), amb Σ semidefinida positiva.

(i) Si Σ és definida positiva (cas no singular), això és, det Σ>0, aleshores 𝑿 té funció de densitat donada per (1). El suport de 𝑿 és d.
(ii) Si det Σ=0 (cas singular), aleshores 𝑿 no té funció de densitat. Si el rang de Σ és r<d, llavors 𝑿 està concentrada en una varietat lineal de d de dimensió rPlantilla:Sfn, concretament en μ+Span(Σ), on Span(Σ) designa el subespai vectorial de d generat per les columnes de Σ.
Cal notar que si det Σ>0, aleshores μ+Span(Σ)=d .
Vegeu la demostració d'aquestes propietats al final de la següent secció de Propietats.

Plantilla:Caixa desplegable

Plantilla:Caixa desplegable

Plantilla:Caixa desplegable

Propietats

1. Esperança i matriu de variàncies covariàncies d'un vector aleatori normal. Sigui 𝑿𝒩d(μ,Σ). Aleshores el seu vector d'esperances és μ i la seva matriu de variàncies-covariàncies és Σ: μ=E[𝑿]=(E[X1],,E[Xd])iΣ=(σij)i,j=1,d=(Cov(Xi,Xj))i,j=1,d. Plantilla:Caixa desplegable


2. Transformacions linealsPlantilla:Sfn. Sigui 𝑿𝒩d(μ,Σ), amb Σ semidefinida positiva, 𝑪 una matriu k×d i 𝒃k. Definim 𝒀=𝑪𝑿+𝒃. Aleshores 𝒀𝒩k(μ𝒀,Σ𝒀) amb μ𝒀=𝑪μ+𝒃iΣ𝒀=𝑪Σ𝑪.Suposem ara que kd. Si 𝑿 és no singular i rang𝑪=k, aleshores 𝒀 és no singular.

Plantilla:Caixa desplegable

3. Reducció a un vector aleatori normal estàndardPlantilla:Sfn. Com a conseqüència de la propietat anterior tenim: Suposem que 𝑿𝒩d(μ,Σ) és no singular. Atès que existeix una única matriu definida positiva Σ1/2 tal que (Σ1/2)2=ΣPlantilla:Sfn, anomenada arrel quadrada de Σ, i designem per Σ1/2 la seva inversa,[3] aleshoresΣ1/2(𝑿μ)𝒩d(0,𝑰d).(5)Recíprocament, si 𝒁𝒩d(0,𝑰d), aleshores μ+Σ1/2𝒁𝒩d(μ,Σ).


4. Distribucions marginalsPlantilla:Sfn. Sigui 𝑿𝒩d(μ,Σ). Aleshores qualsevol subvector és normal.

Plantilla:Caixa desplegable



Observació: El recíproc no és cert: un vector aleatori pot tenir totes les components normals, però no ser un vector aleatori normal.

Plantilla:Caixa desplegable

5. Funció generatriu de momentsPlantilla:Sfn Sigui 𝑿𝒩d(μ,Σ). Aleshores 𝑿 té funció generatriu de moments en tot d i val M𝑿(𝒕)=E[e𝒕𝑿]=e𝒕μ+𝒕Σ𝒕/2,𝒕d.

6. Independència. És ben conegut que si dues variables aleatòries són independents llavors són incorrelacionades, o sigui, la seva covariància és zero. En general el recíproc no és cert. però és veritat quan les variables tenen distribució conjunta normal.

(i) Sigui 𝑿=(X1,,Xd)𝒩d(μ,Σ). Aleshores les variables aleatòries X1,,Xd són independents si i només si Cov(Xi,Xj)=0, ij.[4] Equivalentment, si la matriu Σ és diagonal.
(ii) Sigui 𝑿=(X1,,Xd)𝒩d(μ,Σ), i 2rd. Escrivim 𝑿1=(X1,,Xr1)i𝑿2=(Xr,,Xd)μ1=E[𝑿1]=(μ1,,μr1)iμ2=E[𝑿2]=(μr,,μd).D'altra banda, partim la matriu Σ de la següent manera: Σ=(Σ11Σ12Σ21Σ22),on Σ12 és matriu de covariàncies dels vectors 𝑿1 i 𝑿2, Σ12=𝑪(𝑿1,𝑿2)=(Cov(Xn,Xm)n=1,,r1m=r,,d. Noteu que Σ21=Σ12. Aleshores 𝑿1 i 𝑿2 són independents si i només si Σ12=0Plantilla:Sfn.
(iii) La propietat anterior es generalitza a qualsevol partició del vector 𝑿𝒩d(μ,Σ) en vectors 𝑿1,,𝑿k: aquests vectors són independents si i només si les matrius de covariàncies compleixen que 𝑪(𝑿i,𝑿j)=0, ijPlantilla:Sfn.


Plantilla:Caixa desplegable



Plantilla:Caixa desplegable

7. Suma de variables independents: el teorema de Cramer. D'acord amb les propietats anteriors, la suma de dues variables normals independents és una variable normal. El recíproc d'aquesta propietat també és veritat. Concretament, Cramer [5] va demostrar el següent important teorema:

Teorema. Siguin X1 i X2 dues variables aleatòries independents tals que X1+X2 és normal. Aleshores ambdues X1 i X2 són normals.

Per a la demostració vegeu Bryc Plantilla:Sfn

Observacions.

  1. Paul Lévy, al prefaci del seu llibre Théorie de l'addition des variables aléatoires,[6] explica que estava convençut que aquest teorema era cert i n'havia deduït diversos resultats, els quals no podia demostrar sense aquest teorema hipotètic; quan Cramer, en una carta, li va enviar una demostració, va decidir escriure el llibre.
  2. Bryc Plantilla:Sfn (vegeu també Lévy ,[6] Corol·lari 29, p. 100) comenta que el teorema de Cramer complementa, en certa manera, el teorema central del límit: el teorema central del límit diu que la suma de variables aleatòries independents amb moments de 2n. ordre finit és aproximadament normal, però del Teorema de Cramer es dedueix que no pot ser exactament normal a menys que partim de variables normals.

Moments. Fórmula d'Isserlis o de Wick

Atès que un vector aleatori normal té funció generatriu de moments, tindrà moments de tots els ordres, i com que la distribució del vector normal només depèn de les mitjanes i les covariàncies de les components, els moments només deprendran d'aquestes quantitats; tot i aquesta consideració apriorística, és sorprenent que es pugui trobar una fórmula per als moments tan elegant i simple com la que presentem a continuació.


Sigui 𝑿=(X1,,Xd)𝒩d(0,Σ) (les components poden ser iguals). Aleshores [7]

Plantilla:Teorema

on la suma es fa sobre totes les descomposicions del conjunt {1,2,,d} en parelles disjuntes {ik,jk}.
Per exemple,E[X1X2X3X4]=E[X1X2]E[X3X4]+E[X1X3]E[X2X4]+E[X1X4]E[X2X3], ja que el conjunt {1,2,3,4} es pot descompondre de 3 maneres en parelles: les parelles {1,2},{3,4}, les parelles {1,3},{2,4} i les parelles {1,4},{2,3} .

Quan hi ha variables repetides, es fan les identificacions a la fórmula anterior: per exemple, per calcular E[X12X22], prenem X3=X1 i X4=X2. Llavors,E[X12X22]=E[X12]E[X22]+2(E[X1X2])2.

Anàlogament, E[X12X2X3]=E[X12]E[X2X3]+2E[X1X2]E[X1X3].E[X13X2]=3E[X12]E[X1X2].E[X14]=3(E[X12])2.

Observacions.

  1. Si d és senar, aleshores E[X1Xd]=0, ja que {1,2,,d} no pot descompondre-se en parelles. D'altra banda, aquesta propietat pot demostrar-se directament del fet que totes les variables tenen esperanza 0, i llavors el vector (X1,,Xd) té la mateixa distribució que el vector (X1,,Xd). En ser d senar, tenim que E[X1Xd]=E[X1Xd] .
  2. Com que totes les variables tenen esperança zero, E[XiXj]=Cov[Xi,Xj]. Sovint s'escriu la fórmula anterior usant la notació σij=Cov(Xi,Xj) amb σii=σi2=Var(Xi) .
  3. Per a un nombre parell d=2k, el nombre de parelles en que descompon {1,2,,d} és (2k)!2kk!=(2k1)!2k1(k1)!=(2k1)(2k3)1=(2k1)!!=(d1)!!,on n!! denota el doble factorial de n. Així, per exemple, per a d=4, tenim que el nombre de parelles és 3!!=31=3; per d=6 tenim 5!!=531=15 .
  4. Aquesta fórmula va ser descoberta per Isserlis[8] però també és coneguda com a fórmula de Wick a partir del seu treball de Física teòrica.[9] Isserlis va demostrar la fórmula per inducció; veieu una demostració utilitzant funcions característiques a Janson [7]
  5. Quan totes les variables són iguals, X1==Xd=X𝒩(0,σ2) aleshores tenim la coneguda fórmula pels moments de les variables normals centrades [10]E[Xd]={(d1)!!σd,si d és parell,0,si d és senar.
  6. Per una extensió als moments d'un vector normal amb vector d'esperances no nul veieu Withers [11]
  7. Per a altres fórmules pels moments d'un vector normal, vegeu Graybill,[12] secció 10.9.

Distribucions condicionades i regressió

Sigui 𝑿𝒩d(μ,Σ) no singular. Amb les notacions anteriors de la propietat 5, tenimPlantilla:Sfn que la distribució (X1,,Xr1) condicionada per Xr=xr,,Xd=xd és normal mutidimensional 𝒩r1(μ*,Σ*) on

Plantilla:Teorema

La matriu Σ12Σ221 s'anomenaPlantilla:Sfn matriu de coeficients de regressió de (X1,,Xr1) sobre Xr=xr,,Xd=xd. Cal notar que μ* és lineal en 𝒙2 i que la matriu Σ* no depèn de 𝒙2. Aquesta propietat també és certa quan 𝑿 és singular canviant Σ221 per una pseudoinversa (o inversa generalitzada) Σ22Plantilla:Sfn.

Per a la demostració, vegeu les referències citades.


L'expressió de la mitjana de la distribució condicionada la podem escriure com una esperança condicionada:

Plantilla:Teorema

Com abans, remarquem que

E[𝑿1|𝑿2=𝒙2]

és una funció lineal de

𝒙2

i que la variància condicionada no depèn de

𝒙2

.

Considerem ara el cas que 𝑿1 només té una component és a dir, 𝑿1=X1 i 𝑿2=(X2,,Xd). Llavors,E[𝑿1|𝑿2=𝒙2]=μ1+Σ12Σ221(𝒙2μ2)iVar(X1|𝑿2=𝒙2)=σ11Σ12Σ221Σ12,on ara Σ12=(σ12,,σ1d) .

Atès que el predictor òptim d'una variable aleatòria en termes d'unes altres variables (en el sentit dels mínims quadrats) és l'esperança condicionada,Plantilla:Sfn tenim el fet notable que en el cas que totes les variables involucrades siguin conjuntament normals, el predictor òptim coincideix amb el predictor lineal òptim.

Per a

d=2

, tenim que

X1

condicionada per

X2=x2

té una distribució normal

𝒩(μ,σ2)

on

μ=μ1+ρσ1σ2(x2μ2)iσ2=σ12(1ρ2).

En el llenguatge de la regressió, la recta de regressió de

X1

sobre

X2

és [13]

Plantilla:Teorema

Formes quadràtiques en variables normals

Sigui 𝑿𝒩d(μ,Σ) i 𝑨=(aij) una matriu d×d simètrica. Una expressió de forma 𝑿𝑨𝑿=i,j=1,,daijXiXjs'anomena una forma quadràtica en 𝑿 .

L'exemple més senzill és quan μ=0, Σ=𝑰d i 𝑨=𝑰d. Llavors, la forma quadràtica té una distribució ji-quadrat amb d graus de llibertat, χd2, ja que llavors X1,,Xn tenen distribució 𝒩(0,1) i són independents, i llavors 𝑿𝑨𝑿=i=1dXi2χ2(d). Les formes quadràtiques en variables normals tenen un paper important en Estadística. Per un tractament en profunditat, veieu, per exemple, Seber, cap. 20.Plantilla:Sfn

Propietats.

  1. Sigui 𝑿𝒩d(μ,Σ) no singular. Aleshores (𝑿μ)Σ1(𝑿μ)χd2 i 𝑿Σ1𝑿χd2(δ), on χd2(δ) és una una distribució khi-quadrat no-central amb d graus de llibertat i paràmetre de no centralitat δ=μΣ1μ .
  2. Sigui 𝑿𝒩d(μ,Σ) no singular i 𝑨 una matriu d×d simètrica de rang r. Aleshores𝑿𝑨𝑿χr2(δ) amb δ=μ𝑨μ si i només si la matriu 𝑨Σ és idempotent: 𝑨Σ𝑨Σ=𝑨Σ .


Notes

Plantilla:Referències

Bibliografia

Plantilla:Refbegin

Plantilla:Refend


Vegeu també

Plantilla:Distribucions de probabilitat Plantilla:Autoritat

  1. Per definició, una matriu definida positiva o semidefinida positiva és simétrica.
  2. Plantilla:Ref-llibre
  3. No hi ha ambiguitat en la notació ja que (Σ1/2)1=(Σ1)1/2. Vegeu Seber, 2008, pàgina 221, item 10.8 (f)
  4. Plantilla:Ref-llibre
  5. Plantilla:Ref-publicació
  6. 6,0 6,1 Plantilla:Ref-llibre
  7. 7,0 7,1 Plantilla:Ref-llibre
  8. Plantilla:Ref-publicació
  9. Plantilla:Ref-publicació
  10. Plantilla:Ref-llibre
  11. Plantilla:Ref-publicació
  12. Plantilla:Ref-llibre
  13. Plantilla:Ref-llibre