Estimació de la densitat del nucli

En estadística, l'estimació de la densitat del nucli (amb acrònim anglès KDE) és l'aplicació de suavització del nucli per a l'estimació de la densitat de probabilitat, és a dir, un mètode no paramètric per estimar la funció de densitat de probabilitat d'una variable aleatòria basada en nuclis com a pesos. KDE respon a un problema fonamental de suavització de dades on es fan inferències sobre la població, a partir d'una mostra de dades finita. En alguns camps com el processament del senyal i l'econometria també s'anomena mètode de la finestra Parzen-Rosenblatt, després d'Emanuel Parzen i Murray Rosenblatt, als quals se'ls atribueix normalment la creació independent en la seva forma actual.[1][2] Una de les famoses aplicacions de l'estimació de la densitat del nucli és en estimar les densitats marginals condicionals de classe de dades quan s'utilitza un classificador Bayes primari,[3][4] que pot millorar la seva precisió de predicció.[3]
Definició
Siguin (x 1, x ₂, ..., x n) mostres independents i distribuïdes de manera idèntica extretes d'alguna distribució univariada amb una densitat desconeguda ƒ en qualsevol punt x donat. Ens interessa estimar la forma d'aquesta funció ƒ. El seu estimador de densitat de nucli és
on K és el nucli — una funció no negativa — i Plantilla:Nowrap és un paràmetre de suavització anomenat ample de banda. Un nucli amb subíndex h s'anomena nucli escalat i es defineix com Plantilla:Nowrap. Intuïtivament, es vol triar h tan petit com ho permetin les dades; tanmateix, sempre hi ha una compensació entre el biaix de l'estimador i la seva variància. L'elecció de l'ample de banda es discuteix amb més detall a continuació.
S'utilitzen habitualment una sèrie de funcions del nucli: uniforme, triangular, bipes, tripes, Epanechnikov, normal i altres. El nucli d'Epanechnikov és òptim en un sentit d'error quadrat mitjà,[5] encara que la pèrdua d'eficiència és petita per als nuclis enumerats anteriorment.[6] A causa de les seves propietats matemàtiques convenients, s'utilitza sovint el nucli normal, que significa Plantilla:Nowrap, on ϕ és la funció de densitat normal estàndard.
La construcció d'una estimació de la densitat del nucli troba interpretacions en camps fora de l'estimació de la densitat.[7] Per exemple, en termodinàmica, això és equivalent a la quantitat de calor generada quan els nuclis de calor (la solució fonamental de l'equació de calor) es col·loquen a cada punt de dades xi. S'utilitzen mètodes similars per construir operadors de Laplace discrets sobre núvols de punts per a l'aprenentatge múltiple (per exemple, mapa de difusió).