Divergència Kullback-Leibler

En estadístiques matemàtiques, la divergència de Kullback-Leibler (KL) (també anomenada entropia relativa i divergència I [1]), denotada , és un tipus de distància estadística: una mesura de com una distribució de probabilitat Plantilla:Mvar és diferent d'una segona distribució de probabilitat de referència Plantilla:Mvar.[2] Una interpretació senzilla de la divergència KL de Plantilla:Mvar de Plantilla:Mvar és l'excés de sorpresa esperat per utilitzar Plantilla:Mvar com a model quan la distribució real és Plantilla:Mvar. Tot i que és una mesura de com de diferents són dues distribucions, i en cert sentit és, per tant, una "distància", en realitat no és una mètrica, que és el tipus de distància més familiar i formal. En particular, no és simètric en les dues distribucions (a diferència de la variació de la informació), i no satisfà la desigualtat del triangle. En canvi, pel que fa a la geometria de la informació, és un tipus de divergència, una generalització de la distància al quadrat, i per a determinades classes de distribucions (sobretot una família exponencial), satisfà un teorema de Pitàgores generalitzat (que s'aplica a distàncies quadrades).
En el cas simple, una entropia relativa de 0 indica que les dues distribucions en qüestió tenen quantitats d'informació idèntiques. L'entropia relativa és una funció no negativa de dues distribucions o mesures. Té diverses aplicacions, tant teòriques, com ara caracteritzar l'entropia relativa (Shannon) en sistemes d'informació, aleatorietat en sèries temporals contínues i guany d'informació en comparar models estadístics d'inferència; i pràctics, com l'estadística aplicada, la mecànica de fluids, la neurociència i la bioinformàtica.
Introducció i context
Considereu dues distribucions de probabilitat Plantilla:Mvar i Plantilla:Mvar. Normalment, Plantilla:Mvar representa les dades, les observacions o una distribució de probabilitat mesurada. La distribució Plantilla:Mvar representa en canvi una teoria, un model, una descripció o una aproximació de Plantilla:Mvar. La divergència Kullback-Leibler Aleshores s'interpreta com la diferència mitjana del nombre de bits necessaris per codificar mostres de Plantilla:Mvar utilitzant un codi optimitzat per Plantilla:Mvar en lloc d'un optimitzat per Plantilla:Mvar Tingueu en compte que els rols de Plantilla:Mvar i Plantilla:Mvar es poden invertir en algunes situacions en què això és més fàcil de calcular, com ara amb l'algorisme d'expectativa-maximització (EM) i els càlculs de límit inferior de l'evidència (ELBO).
Etimologia
L'entropia relativa va ser introduïda per Solomon Kullback i Richard Leibler a Plantilla:Harvtxt com "la informació mitjana per a la discriminació entre i per observació de ", on s'està comparant dues mesures de probabilitat , i són les hipòtesis que s'està seleccionant a partir de la mesura (respectivament). Ho van indicar per , i va definir la "'divergència' entre i " com la quantitat simetritzada , que ja havia estat definit i utilitzat per Harold Jeffreys el 1948.Plantilla:Sfn A Plantilla:Harvtxt, la forma simètrica torna a ser referida com a "divergència", i les entropies relatives en cada direcció es refereixen com a "divergències dirigides" entre dues distribucions; Kullback va preferir el terme informació de discriminació.[3] El terme "divergència" contrasta amb una distància (mètrica), ja que la divergència simètrica no satisfà la desigualtat del triangle.Plantilla:Sfn Plantilla:Harvtxt. La "divergència dirigida" asimètrica s'ha conegut com la divergència Kullback-Leibler, mentre que la "divergència" simètrica es coneix ara com la divergència de Jeffreys.
Definició
Per a distribucions de probabilitat discretes Plantilla:Mvar i Plantilla:Mvar definides en el mateix espai mostral, l'entropia relativa de Plantilla:Mvar a Plantilla:Mvar es defineix [4] com a
que equival a
En altres paraules, és l'expectativa de la diferència logarítmica entre les probabilitats Plantilla:Mvar i Plantilla:Mvar, on l'expectativa es pren utilitzant les probabilitats Plantilla:Mvar.