Inception Score

De testwiki
Salta a la navegació Salta a la cerca

LPlantilla:'Inception Score (IS) és un algorisme que s'utilitza per avaluar la qualitat de les imatges creades per un model d'imatge generativa com una xarxa adversa generativa (GAN). La puntuació es calcula a partir de la sortida d'un model de classificació d'imatges Inceptionv3 preentrenat i separat aplicat a una mostra d'imatges (normalment unes 30.000) generades pel model generatiu. La puntuació inicial es maximitza quan es compleixen les condicions següents: [1]

  1. Es minimitza l'entropia de la distribució d'etiquetes predita pel model Inceptionv3 per a les imatges generades. En altres paraules, el model de classificació prediu amb confiança una sola etiqueta per a cada imatge. Intuïtivament, això correspon al desideratum que les imatges generades siguin "nítids" o "distintes".
  2. Les prediccions del model de classificació es distribueixen uniformement en totes les etiquetes possibles. Això correspon al desideratum que la sortida del model generatiu és "diversa".[2]

Ha estat una mica substituït per la distància inicial de Fréchet relacionada. Mentre que l'Inception Score només avalua la distribució de les imatges generades, el FID compara la distribució d'imatges generades amb la distribució d'un conjunt d'imatges reals ("veritat bàsica").[3]

Definició

Que hi hagi dos espais, l'espai de les imatges ΩX i l'espai de les etiquetes ΩY . L'espai de les etiquetes és finit.

Deixar pgen ser una distribució de probabilitat sobre ΩX que volem jutjar.

Sigui un discriminador una funció del tipuspdis:ΩXM(ΩY)on M(ΩY) és el conjunt de totes les distribucions de probabilitat sobre ΩY. Per a qualsevol imatge x, i qualsevol etiqueta y, deixar pdis(y|x) sigui la probabilitat que aquesta imatge x té etiqueta y, segons el discriminador. Normalment s'implementa com una xarxa Inception-v3 entrenada a ImageNet. La puntuació inicial de pgen relatiu a pdis ésIS(pgen,pdis):=exp(𝔼xpgen[DKL(pdis(|x)pdis(|x)pgen(x)dx)])Les reescriptures equivalents inclouenlnIS(pgen,pdis):=𝔼xpgen[DKL(pdis(|x)𝔼xpgen[pdis(|x)])]lnIS(pgen,pdis):=H[𝔼xpgen[pdis(|x)]]𝔼xpgen[H[pdis(|x)]]lnIS no és negatiu per la desigualtat de Jensen. Pseudocodi:Plantilla:Blockquote

Interpretació

Una puntuació inicial més alta s'interpreta com a "millor", ja que significa això pgen és una col·lecció d'imatges "nítids i distintes".

lnIS(pgen,pdis)[0,lnN], on N és el nombre total d'etiquetes possibles.

lnIS(pgen,pdis)=0 si per gairebé tots xpgenpdis(|x)=pdis(|x)pgen(x)dxAixò significa pgen és completament "indistint". És a dir, per a qualsevol imatge x mostrat de pgen, el discriminador retorna exactament les mateixes prediccions d'etiquetes pdis(|x). La puntuació inicial més alta N s'aconsegueix si i només si les dues condicions són certes:

  • Per quasi tots , la distribució es concentra en una sola etiqueta. Això és, . És a dir, cada imatge presa de mostres està exactament classificat pel discriminador.
  • Per a cada etiqueta , la proporció d'imatges generades etiquetades com a és exactament . És a dir, les imatges generades es distribueixen per igual en totes les etiquetes.[4]

Referències

Plantilla:Referències