Distribució multinomial de Dirichlet

De testwiki
Salta a la navegació Salta a la cerca

Plantilla:Distribució de probabilitat En teoria i estadística de probabilitats, la distribució multinomial de Dirichlet és una família de distribucions de probabilitat multivariables discretes sobre un suport finit de nombres enters no negatius. També s'anomena distribució multinomial composta de Dirichlet (DCM) o distribució multivariada de Pólya (en honor a George Pólya).

És una distribució de probabilitat composta, on un vector de probabilitat p s'extreu d'una distribució de Dirichlet amb vector de paràmetres α, i una observació extreta d'una distribució multinomial amb vector de probabilitat p i nombre de proves n. El vector de paràmetres de Dirichlet captura la creença prèvia sobre la situació i es pot veure com un pseudocompte: observacions de cada resultat que es produeixen abans que es recullin les dades reals. La combinació correspon a un esquema d'urna Pólya.

Es troba freqüentment en l'estadística bayesiana, l'aprenentatge automàtic, els mètodes empírics de Bayes i l'estadística clàssica com una distribució multinomial sobredispersa.[1][2]

Es redueix a la distribució categòrica com a cas especial quan n = 1. També s'aproxima bé la distribució multinomial arbitràriament per a α gran. El multinomial de Dirichlet és una extensió multivariant de la distribució binomial beta, ja que les distribucions multinomial i Dirichlet són versions multivariables de la distribució binomial i distribucions beta, respectivament.[3]

Especificació

Dirichlet-multinomial com a distribució composta

La distribució de Dirichlet és una distribució conjugada a la distribució multinomial. Aquest fet condueix a una distribució composta analíticament tractable. Per a un vector aleatori de categories compta 𝐱=(x1,,xK), distribuït segons una distribució multinomial, la distribució marginal s'obté integrant a la distribució de p que es pot considerar com un vector aleatori seguint una distribució de Dirichlet:

Pr(𝐱n,α)=𝐩Mult(𝐱n,𝐩)Dir(𝐩α)d𝐩

que dona lloc a la següent fórmula explícita:

Pr(𝐱n,α)=Γ(α0)Γ(n+1)Γ(n+α0)k=1KΓ(xk+αk)Γ(αk)Γ(xk+1)

on α0 es defineix com la suma α0=αk . Una altra forma per a aquesta mateixa distribució composta, escrita de manera més compacta en termes de la funció beta, B, és la següent:

Pr(𝐱n,α)=nB(α0,n)k:xk>0xkB(αk,xk).

Usos

La distribució multinomial de Dirichlet s'utilitza en la classificació i agrupació de documents automatitzada, la genètica, l'economia, el modelatge de combat i el màrqueting quantitatiu.[4]

Referències

Plantilla:Referències

Plantilla:Distribucions de probabilitat Plantilla:Autoritat