Aproximació de Laplace

De testwiki
Salta a la navegació Salta a la cerca

Plantilla:Estadística bayesianaL'aproximació de Laplace proporciona una expressió analítica per a una distribució de probabilitat posterior ajustant una distribució gaussiana amb una mitjana igual a la solució MAP i una precisió igual a la informació de Fisher observada.[1][2] L'aproximació està justificada pel teorema de Bernstein–von Mises, que afirma que en condicions de regularitat el posterior convergeix a un gaussià en mostres grans.[3][4]

Per exemple, un model de classificació o regressió (possiblement no lineal) amb un conjunt de dades {xn,yn}n=1,,N que inclou entrades x i sortides y té un vector de paràmetres (desconegut). θ de llargada D. Es denota la probabilitat p(𝐲|𝐱,θ) i el paràmetre anterior p(θ). Suposem que es vol aproximar la densitat conjunta de sortides i paràmetres p(𝐲,θ|𝐱)

p(𝐲,θ|𝐱)=p(𝐲|𝐱,θ)p(θ|𝐱)=p(𝐲|𝐱)p(θ|𝐲,𝐱)q~(θ)=Zq(θ).

L'articulació és igual al producte de la versemblança i l'anterior i per la regla de Bayes, igual al producte de la versemblança marginal p(𝐲|𝐱) i posterior p(θ|𝐲,𝐱). Vist en funció de θ l'articulació és una densitat no normalitzada. En l'aproximació de Laplace aproximem l'articulació mitjançant una gaussiana no normalitzada q~(θ)=Zq(θ), on fem servir q per indicar la densitat aproximada, q~ per a la densitat no normalitzada i Z és una constant (independent de θ ). Des de la probabilitat marginal p(𝐲|𝐱) no depèn del paràmetre θ i el posterior p(θ|𝐲,𝐱) es normalitza θ podem identificar-los immediatament Z i q(θ) de la nostra aproximació, respectivament. L'aproximació de Laplace és

p(𝐲,θ|𝐱)p(𝐲,θ^|𝐱)exp(12(θθ^)S1(θθ^))=q~(θ),

on hem definit

θ^=argmaxθlogp(𝐲,θ|𝐱),S1=θθlogp(𝐲,θ|𝐱)|θ=θ^,

on θ^ és la ubicació d'un mode de la densitat objectiu conjunta, també conegut com a màxim a posteriori o punt MAP i S1 és el D×D matriu definida positiva de segones derivades de la densitat objectiu de l'articulació negatiu al mode θ=θ^. Així, l'aproximació gaussiana coincideix amb el valor i la curvatura de la densitat objectiu no normalitzada en el mode. El valor de θ^ normalment es troba utilitzant un mètode basat en gradients, per exemple, el mètode de Newton. En resum, tenim

q(θ)=𝒩(θ|μ=θ^,Σ=S),logZ=logp(𝐲,θ^|𝐱)+12log|S|+D2log(2π),

per a la part posterior aproximada θ i la probabilitat logarítmica marginal aproximada respectivament. En el cas especial de la regressió lineal bayesiana amb un a priori gaussià, l'aproximació és exacta. Les principals debilitats de l'aproximació de Laplace són que és simètrica al voltant del mode i que és molt local: tota l'aproximació es deriva de propietats en un sol punt de la densitat objectiu. El mètode de Laplace és àmpliament utilitzat i va ser pioner en el context de les xarxes neuronals per David MacKay, [5] i per als processos gaussians per Williams i Barber.[6]

Referències

Plantilla:Referències