Distribució de Poisson

De testwiki
Salta a la navegació Salta a la cerca

Plantilla:Distribució de probabilitat

En teoria de probabilitat i estadística, la distribució de Poisson o llei dels petits nombres o dels fenòmens rars és una distribució de probabilitat discreta que és un bon model per molts fenòmens naturals o socials. Una propietat especialment important és que una distribució binomial de paràmetres n i p, B(n,p), amb n gran i p petit es pot aproximar (en distribució) per una distribució de Poisson de paràmetre n×p; moltes de les aplicacions de la distribució de Poisson es justifiquen partint d'aquesta propietat.

Aquesta distribució va ser introduïda per Siméon-Denis Poisson l'any 1837 en el seu treball Recherches sur la probabilité des jugements en matière criminelle et en matière civile[1] ( Investigació sobre la probabilitat dels judicis en matèries criminals i civils ).


Les referències bàsiques d'aquesta pàgina són[2][3]

Definició

Una variable aleatòria de Poisson X de paràmetre λ>0 és una variable discreta que pot prendre qualsevol valor natural, 0, 1, 2, ... amb probabilitatsP(X=k)=eλλkk!, k=0,1,2,S'escriu XPoi(λ) o XPoiss(λ) o alguna notació similar.

Propietats

1. Esperança i variància. L'esperança i la variància d'una variable aleatòria amb distribució de Poisson de paràmetre λ són iguals a λ:E[X]=λiVar(X)=λ.

Així, si la distribució de Poisson s'utilitza per modelar el comptatge d'un fenomen, aleshores λ es pot interpretar com la freqüència esperada del fenomen.

Prova: E[X]=k=0keλλkk!=λeλk=1λk1(k1)!=λeλeλ=λ,on hem utilitzat el desenvolupament es sèrie de la funció exponencial.



Per trobar el moment de segon ordre i la variància calcularem E[X(X1)]:


E[X(X1)]=k=0k(k1)eλλkk!=λ2eλk=2λk2(k2)!=λ2.D'altra banda, E[X(X1)]=E[X2]E[X]=E[X2]λ,d'onE[X2]=λ2+λ.Llavors, Var(X)=E[X2](E[X])2=λ.

2. Moments d'ordre superior. Els moments d'ordre superior són polinomis de Touchard en λ, i els coeficients tenen una interpretació combinatòria. De fet, quan el valor esperat de la distribució de Poisson és 1, llavors segons la fórmula de Dobinski, el n-èsim moment iguala el nombre de particions de mida n.

3. Moda. La moda d'una variable aleatòria de distribució de Poisson amb un λ no sencer és igual a λ, el més gran dels enters menors que λ (els símbols    representen la funció part sencera). Quan λ és un enter positiu, les modes són λ i λ1.




4. Funció generatriu de moments. La Funció generatriu de la distribució de Poisson de paràmetre λ és

E[etX]=k=0etkeλλkk!=eλk=0(λet)kk!=eλeλet=eλ(et1).


Anàlogament, la funció característica és E[eitX]=eλ(eit1).

5. Les variables aleatòries de Poisson són infinitament divisibles.



6. Divergència de Kullback-Leibler. La divergència Kullback-Leibler d'una variable aleatòria de Poisson de paràmetre λ0 a una altra de paràmetre λ és

DKL(λ||λ0)=λ(1λ0λ+λ0λlogλ0λ).

7. Sumes de variables aleatòries de Poisson. La suma de variables aleatòries de Poisson independents és una altra variable aleatòria de Poisson en què el paràmetre és la suma dels paràmetres de les originals. Dit d'una altra manera, si

XiPoi(λi),i=1,,N

són N variables aleatòries de Poisson independents, llavors

i=1NXiPoi(i=1Nλi).

Relació amb altres distribucions

Distribució binomial

La distribució de Poisson és un cas límit de la distribució binomial: una distribució binomial B(n,p) amb n gran, p petita, i np petita respecte a n, es pot aproximar raonablement bé per una distribució de Poisson de paràmetre λ=np. Històricament, Poisson va utilitzar aquest argument per introduir la seva distribució,[4] i és el principal raonament per justificar la utilització d'aquesta distribució, tal com veurem en els exemples més avall.

Formalment, sigui (pn)n1 una successió de nombres 0<pn<1 tals que limnnpn=λ>0. Considerem una llei binomial de paràmetres n i pn, XnB(n,pn), i sigui XPoi(λ) AleshoreslimnP(Xn=k)=P(X=k), k=0,1,


En efecte, tenim que P(Xn=k)=(nk)pnk(1pn)nk,k=0,,n. Llavors, per a k=0, limnP(Xn=0)=limn(1pn)n=limn((1pn)1/pn)npn=eλ=P(X=0),on hem utilitzat un límit tipus nombre e .

Per a qualsevol natural k1, tenim, per a n prou gran,P{Xn=k}=n!k!(nk)!pnk(1pn)nk=n(n1)(nk+1)k!nk(npn)k[(1pn)1pn]npn(1pn)k, i passant al límit s'obté P{Xn=k}=λkk!eλ=P(X=k).Noteu que d'aquí es dedueix que la successió X1,X2, convergeix en distribució a X.


En particular, si partim de λ>0 i prenem pn=λ/n aleshores tenim que una distribució binomial B(n,p) amb n gran, n petita i np=λ relativament petita respecte n, es pot aproximar per una distribució de Poisson Poi(λ). Aquesta propietat fa que la distribució de Poisson també s'anomeni llei dels petits nombres; [5] o dels fenòmens rars, ja que el fenomen subjacent té probabilitat petita; Johnson and Kotz [3] atribueixen el nom <<llei del petits nombres>> a Bortkiewicz (o Borkiewitsch) (1868-1931) i el seu llibre Das Gesetz der kleinen Zahlen (La llei dels petits nombres). Un autor de pes, Feller,[6] considera desafortunat aquest nom i dona nombrosos exemples per mostrar-ho. Cal tenir present que si bé la probabilitat p és petita, el producte np pot ser gran, sempre que sigui relativament petit respecte de n .

Aproximació normal

A conseqüència de teorema central del límit, per a valors grans de λ, una variable aleatòria de Poisson X es pot aproximar per una variable normal de mitjana i variància λ ja que limλXλλ=N(0,1), en distribució.Vegeu.[7][8]

Distribució exponencial

Suposem que per a cada valor t>0, que representa el temps, el nombre d'aparicions de cert fenomen aleatori segueix una distribució de Poisson de paràmetre λt. Llavors, els temps que discorren entre dos aparicions successives segueix la distribució exponencial.

Distribució khi-quadrat χ2

Si X és una distribució de Poisson de paràmetre λ, aleshores [9] per a k=0,1,2,,

P(Xk)=P(χ2(k+1)2>2λ),

on χ2(k+1)2 és una variable aleatòria amb distribució χ2 amb 2(k+1) graus de llibertat.

Aquesta fórmula és útil perquè permet calcular el valor de la funció de distribució d'una variable aleatòria de Poisson de manera ràpida.

Exemples històrics

Soldats de l'exèrcit prussià morts per una guitza del seu cavall

En el llibre que hem citat abans de Bortkiewicz, s'estudia el nombre de soldats de l'exèrcit prussià morts per una guitza del seu cavall. A la taula[10] hi ha el nombre de morts corresponent a 10 cossos de característiques similars [11] durant 20 anys


Taula 1. Nombre de soldats morts per una guitza del seu cavall a l'exercit en 10 cossos de l'exercit prussià durant 1875-1894
Cos de l'exercit
Any II III IV V VII VIII IX X XIV XV Total
1875 1 1 1 3
1876 1 1 1 3
1877 1 1 2 4
1878 2 1 1 1 1 6
1879 1 1 2 1 1 6
1880 2 1 1 1 2 1 3 11
1881 2 1 1 1 5
1882 1 1 2 4 1 9
1883 1 2 1 1 1 6
1884 1 1 2 1 1 6
1885 2 1 3
1886 1 1 1 3 6
1887 2 1 2 1 1 2 9
1888 1 1 1 3
1889 1 1 1 1 2 2 8
1890 2 1 2 2 1 2 2 12
1891 1 1 1 1 1 3 1 9
1892 2 1 1 1 1 1 7
1893 1 2 1 4
1894 1 1 2
Total 12 12 8 11 12 7 13 15 24 8 122

En total es van produir 122 morts. La següent taula és un resum de la Taula 1 en termes de freqüències absolutes i relatives:

Taula 2. Taula de freqüències de les dades de Bortkiewicz
Nombre de soldats morts en un cos i anys 0 1 2 3 4 Total
Freqüència absoluta 109 65 22 3 1 200
Freqüència relativa 0.545 0,325 0,110 0,015 0,005 1

La mitjana de morts per cos i any és X=0109+165+222+33+41200=122200=0,61.

Suposem que cos de l'exèrcit tenia 1000 soldats (com veurem, aquest nombre, que desconeixem, no té cap paper, podríem posar n). Un model raonable per al nombre de soldats morts (per cos i any) és una distribució binomial B(1000,p), on p és la probabilitat que un soldat resulti mort. Aquesta probabilitat és molt petita i podem estimar-la de la següent manera: Tenim 10 cossos durant 10 anys, que representen 10×20×1000=200.000 soldats. Aleshores p=nombre de soldats mortsnombre total de soldats=122200000=0,00061.D'acord amb els comentaris anteriors, podem aproximar la distribució binomial per una distribució de Poisson de paràmetre λ=n×p=1000×0,00061=0,61,que és la mitjana que hem calculat abans. La Taula 3 dona les probabilitats d'una variable aleatòria de Poisson X de paràmetre λ=0,61, XPoi(0,61):

Taula 3. Taula de probabilitats d'una distribució de Poisson Poi(0,61)
X 0 1 2 3 4
Probabilitat 0.543 0,331 0,101 0,020 0,003

En comparar la fila de les freqüències relatives de la Taula 2 i les probabilitats de la Taula 3 veiem que la concordança entre ambdues és realment notable.

Desintegració de partícules radioactives

Rutherford i Geiger [12] reporten que varen observar el nombre de partícules α emeses per una massa de material radioactiu durant 2.608 intervals de 7,5 segons cadascun. A la Taula 4 la k denota el nombre de partícules emeses en un interval de 7,5 segons, la freqüència absoluta és el nombre de vegades que es va observar el corresponent valor k, després hi ha freqüència relativa i finalment la probabilitat que una variable de Poisson de paràmetre λ=3,87 prengui aquell valor:

Taula 4. Experiment de Rutherford et al.
k 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total
Freq. absoluta 57 203 383 525 532 408 273 139 45 27 10 4 0 1 1 2608
Freq. relativa 0,022 0,078 0,147 0,201 0,204 0,156 0,105 0,053 0,017 0,010 0.004 0.002 0.000 0,000 0,000 1
Probabilitat Poisson 0,021 0,081 0,156 0,201 0,195 0,151 0,097 0,054 0,026 0,011 0.004 0.002 0.000 0,000 0,000 1



El paràmetre λ s'ha calculat com la mitjana del nombre de partícules emeses per unitat de temps: λ=X=0×57+1×203+2608=100972608=3,87.

Com veiem la concordança entre les dades observades i les probabilitats corresponents a la distribució de Poisson és molt bona. Breiman [13] argumenta perquè la distribució de Poisson apareix en aquesta situació: Suposem que durant un període llarg, la mitjana de partícules emeses per unitat de temps és λ (en aquest cas, la unitat de temps seria 7,5 seg). Considerem ara el nombre de partícules emeses durant un interval de temps de longitud t unitats; el resultat pot ser 0, 1, 2, etc. Per trobar una assignació raonable de probabilitats dividim l'interval [0,t] en n parts d'amplada t/n; prenem n prou gran perquè els subintervals siguin molt petits; en cada subinterval podem observar 0, 1, 2, ... partícules. Suposem:



1. Les probabilitats d'observar 0, 1, ... partícules són les mateixes per a tots els subintervals.

2. La probabilitat d'observar dos o més partícules en un subinterval és menyspreable comparada amb les probabilitats d'observar-ne zero o una partícula.

3. La probabilitat d'observar o no una partícula en un subinterval és independent d'observar o no una partícula en un altre subinterval.

El bombardeig de Londres durant la 2a. Guerra Mundial

Durant la Segona Guerra Mundial els alemanys van bombardejar Londres i altres llocs amb bombes volants. Molta gent creia que les bombes tendien a agrupar-se en clústers; amb l'objectiu d'analitzar si aquesta suposició era veritat es va dividir el sud de Londres en 576 quadrats de 0'5 km²; durant el període considerat van caure 537 bombes, vegeu la Figura 1.

Figura 1. Part de la quadrícula del mapa de Londres amb els impactes de les bombes volants (punts simulats per ordinador). En total hi havia 576 quadrats, cadascun de 0'5 km²

La taula 5 [14] mostra el nombre de quadrats on van caure 0 bombes, 1 bomba, etc. (freqüència absoluta), així com la freqüència relativa.



Taula 5. Bombardeig sobre Londres
k 0 1 2 3 4 5 Total
Freq. absoluta 229 211 93 35 7 1 576
Freq. relativa 0,397 0,366 0,161 0,061 0,012 0,002 1
Prob. Poisson 0,394 0,367 0,171 0,053 0,012 0,002 1
Freq. esperada Poisson 226,7 211,4 98,5 36,6 7,1 1,3 575,8

La mitjana de bombes per quadrat és X=5375760,932. A la taula 5 hi ha una fila amb les probabilitats P(X=k) d'una variable de Poisson X de paràmetre λ=0,932 per k=0,1,,4 i el valor P(X5). També hi ha una fila amb els productes576×P(X=k),k=0,1,,4i576×P(X5),els quals són les freqüències absolutes esperades per una variable de Poisson.

L'ajustament de les dades observades amb les donades per la distribució de Poisson és molt bona, la qual cosa suggereix que no va haver-hi clústers i que el lloc de caiguda de les bombes era completament aleatori. Chung[15] argumenta el bon ajust amb la distribució de Poisson dient que, si el fenomen és purament aleatori, es pot estudiar com un problema de col·locació de 537 objectes en 576 caixes; la probabilitat d'observar exactament k bombes (objectes) en un quadrat (una capsa) serà P(Y=k), on Y és una variable binomial de paràmetres n=537 i p=1/576 : YB(537,1/576). Atès que n és gran i p petita, podem aproximar Y per una variable de Poisson de paràmetre λ=np=537×15760,932,que és el que hem fet anteriorment.

Feller [16] també analitza aquestes dades i comenta que <<la taula anterior indica que hi ha aleatorietat i homogeneïtat perfectes, [...] però que per a [l'ull] inexpert, l'aleatorietat apareix com regularitat [...]>>. Per profunditzar en aquest comentari de Feller és molt interessant el capítol 2 del llibre de J. A. Paulos [17]

Més exemples

Si el 2% dels llibres enquadernats en cert taller té enquadernació defectuosa, la probabilitat que 5 de 400 llibres enquadernats en aquest taller tinguin enquadernacions defectuoses es pot calcular usant la distribució de Poisson. En efecte, el nombre de llibres defectuosos es pot modelar per una distribució binomial de paràmetres n=400 i p=0,02, la qual el pot aproximar per una distribució de Poisson de paràmetre λ=400×0.02=8, que, d'altra banda, és la mitjana de llibres defectuosos. Per tant, la probabilitat desitjada és

P(X=5)=85e85!=0,092.

Aquest problema també podria resoldre's recorrent a una distribució binomial de paràmetres k=5, n=400 i p=0,02.

Processos de Poisson

Plantilla:Article principal La distribució de Poisson s'aplica a diversos fenòmens discrets de la natura (és a dir, aquells fenòmens que ocorren 0, 1, 2, 3, ... vegades durant un període definit de temps o en una àrea determinada) quan la probabilitat d'ocurrència del fenomen és constant en el temps o l'espai. Exemples d'aquests esdeveniments que poden ser modelats per la distribució de Poisson inclouen:

  • El nombre de cotxes que passen a través d'un cert punt en una ruta (prou distants dels semàfors) durant un període definit de temps.
  • El nombre d'errors d'ortografia que un comet en escriure una única pàgina.
  • El nombre de trucades telefòniques en una central telefònica per minut.
  • El nombre de servidors web accedits per minut.
  • El nombre d'animals morts trobats per unitat de longitud de ruta.
  • El nombre de mutacions de determinada cadena d'ADN després de certa quantitat de radiació.
  • El nombre de nuclis atòmics inestables que van decaure en un determinat període en una porció de substància radioactiva. La radioactivitat de la substància es debilitarà amb el temps, per tant el temps total de l'interval utilitzat en el model ha de ser significativament menor que la vida mitjana de la substància.
  • El nombre d'estels en un determinat volum d'espai.
  • El nombre d'estels fugaços per una unitat de temps.
  • La distribució de receptors visuals a la retina de l'ull humà.
  • La inventiva d'un inventor a través de la seva carrera.[18]

Vegeu també

Plantilla:Commonscat

Referències

Plantilla:Referències Plantilla:Distribucions de probabilitat Plantilla:Autoritat

  1. Plantilla:Ref-llibre
  2. Plantilla:Ref-llibre
  3. 3,0 3,1 Plantilla:Ref-llibre
  4. Plantilla:Ref-llibre
  5. L. von Bortkiewicz, <<Das Gesetz der Klenen Zahlen>> (1898), citat per Jonhson, N. L. and Kotz, S. <<Univariate Discrete Distributions>>, 2nd edition, Wiley (1992)
  6. Plantilla:Ref-llibre
  7. Plantilla:Ref-llibre
  8. Plantilla:Ref-llibre
  9. Plantilla:Ref-llibre
  10. Plantilla:Ref-llibre
  11. De la taula original s'han exclòs les columnes corresponents als cossos G, I, VI i XI perquè tenien característiques diferents
  12. Plantilla:Ref-publicació
  13. Plantilla:Ref-llibre
  14. Plantilla:Ref-publicació
  15. Plantilla:Ref-llibre
  16. Plantilla:Ref-llibre
  17. Plantilla:Ref-llibre
  18. Plantilla:Format ref http://www.leaonline.com/doi/pdfplus/10.1207/s15326934crj1103_3