Divergència Kullback-Leibler

De testwiki
Salta a la navegació Salta a la cerca
Il·lustració de l'entropia relativa per a dues distribucions normals. La típica asimetria és clarament visible.

En estadístiques matemàtiques, la divergència de Kullback-Leibler (KL) (també anomenada entropia relativa i divergència I [1]), denotada DKL(PQ), és un tipus de distància estadística: una mesura de com una distribució de probabilitat Plantilla:Mvar és diferent d'una segona distribució de probabilitat de referència Plantilla:Mvar.[2] Una interpretació senzilla de la divergència KL de Plantilla:Mvar de Plantilla:Mvar és l'excés de sorpresa esperat per utilitzar Plantilla:Mvar com a model quan la distribució real és Plantilla:Mvar. Tot i que és una mesura de com de diferents són dues distribucions, i en cert sentit és, per tant, una "distància", en realitat no és una mètrica, que és el tipus de distància més familiar i formal. En particular, no és simètric en les dues distribucions (a diferència de la variació de la informació), i no satisfà la desigualtat del triangle. En canvi, pel que fa a la geometria de la informació, és un tipus de divergència, una generalització de la distància al quadrat, i per a determinades classes de distribucions (sobretot una família exponencial), satisfà un teorema de Pitàgores generalitzat (que s'aplica a distàncies quadrades).

En el cas simple, una entropia relativa de 0 indica que les dues distribucions en qüestió tenen quantitats d'informació idèntiques. L'entropia relativa és una funció no negativa de dues distribucions o mesures. Té diverses aplicacions, tant teòriques, com ara caracteritzar l'entropia relativa (Shannon) en sistemes d'informació, aleatorietat en sèries temporals contínues i guany d'informació en comparar models estadístics d'inferència; i pràctics, com l'estadística aplicada, la mecànica de fluids, la neurociència i la bioinformàtica.

Introducció i context

Considereu dues distribucions de probabilitat Plantilla:Mvar i Plantilla:Mvar. Normalment, Plantilla:Mvar representa les dades, les observacions o una distribució de probabilitat mesurada. La distribució Plantilla:Mvar representa en canvi una teoria, un model, una descripció o una aproximació de Plantilla:Mvar. La divergència Kullback-Leibler DKL(PQ) Aleshores s'interpreta com la diferència mitjana del nombre de bits necessaris per codificar mostres de Plantilla:Mvar utilitzant un codi optimitzat per Plantilla:Mvar en lloc d'un optimitzat per Plantilla:Mvar Tingueu en compte que els rols de Plantilla:Mvar i Plantilla:Mvar es poden invertir en algunes situacions en què això és més fàcil de calcular, com ara amb l'algorisme d'expectativa-maximització (EM) i els càlculs de límit inferior de l'evidència (ELBO).

Etimologia

L'entropia relativa va ser introduïda per Solomon Kullback i Richard Leibler a Plantilla:Harvtxt com "la informació mitjana per a la discriminació entre H1 i H2 per observació de μ1 ", on s'està comparant dues mesures de probabilitat μ1,μ2, i H1,H2 són les hipòtesis que s'està seleccionant a partir de la mesura μ1,μ2 (respectivament). Ho van indicar per I(1:2), i va definir la "'divergència' entre μ1 i μ2 " com la quantitat simetritzada J(1,2)=I(1:2)+I(2:1), que ja havia estat definit i utilitzat per Harold Jeffreys el 1948.Plantilla:Sfn A Plantilla:Harvtxt, la forma simètrica torna a ser referida com a "divergència", i les entropies relatives en cada direcció es refereixen com a "divergències dirigides" entre dues distribucions; Kullback va preferir el terme informació de discriminació.[3] El terme "divergència" contrasta amb una distància (mètrica), ja que la divergència simètrica no satisfà la desigualtat del triangle.Plantilla:Sfn Plantilla:Harvtxt. La "divergència dirigida" asimètrica s'ha conegut com la divergència Kullback-Leibler, mentre que la "divergència" simètrica es coneix ara com la divergència de Jeffreys.

Definició

Per a distribucions de probabilitat discretes Plantilla:Mvar i Plantilla:Mvar definides en el mateix espai mostral,  𝒳 , l'entropia relativa de Plantilla:Mvar a Plantilla:Mvar es defineix [4] com a

DKL(PQ)=x𝒳P(x) log( P(x) Q(x)) ,

que equival a

DKL(PQ)=x𝒳P(x) log( Q(x) P(x)).

En altres paraules, és l'expectativa de la diferència logarítmica entre les probabilitats Plantilla:Mvar i Plantilla:Mvar, on l'expectativa es pren utilitzant les probabilitats Plantilla:Mvar.

Referències

Plantilla:Referències