Detecció de regions

De testwiki
La revisió el 08:11, 24 feb 2025 per imported>Rebot (neteja i estandardització de codi)
(dif.) ← Versió més antiga | Versió actual (dif.) | Versió més nova → (dif.)
Salta a la navegació Salta a la cerca

En visió per computador, els mètodes de detecció de regions tenen com a objectiu detectar zones d'una imatge digital que difereixen en propietats, com ara la brillantor o el color, en comparació amb les regions circumdants. De manera informal, un blob és una regió d'una imatge en la qual algunes propietats són constants o aproximadament constants; tots els punts d'un blob es poden considerar, d'alguna manera, semblants entre si. El mètode més comú per a la detecció de taques és utilitzar la convolució.[1]

Donada alguna propietat d'interès expressada en funció de la posició a la imatge, hi ha dues classes principals de detectors de taques: (i) mètodes diferencials, que es basen en derivades de la funció respecte a la posició, i (ii) mètodes basats en extrems locals, que es basen a trobar els màxims i mínims locals de la funció. Amb la terminologia més recent utilitzada en el camp, aquests detectors també es poden denominar operadors de punts d'interès o, alternativament, operadors de regió d'interès (vegeu també detecció de punts d'interès i detecció de cantons).[2]

Hi ha diverses motivacions per estudiar i desenvolupar detectors de taques. Un dels motius principals és proporcionar informació complementària sobre regions, que no s'obté dels detectors de vores o de cantonades. En els primers treballs a la zona, es va utilitzar la detecció de taques per obtenir regions d'interès per a un posterior processament. Aquestes regions podrien indicar la presència d'objectes o parts d'objectes al domini de la imatge amb aplicació al reconeixement d'objectes i/o al seguiment d'objectes. En altres dominis, com l'anàlisi d'histogrames, els descriptors de blob també es poden utilitzar per a la detecció de pics amb aplicació a la segmentació. Un altre ús comú dels descriptors de blob és com a primitius principals per a l'anàlisi de textures i el reconeixement de textures. En treballs més recents, els descriptors de blob han trobat un ús cada cop més popular com a punts d'interès per a una concordança estèreo de base àmplia i per assenyalar la presència de característiques informatives d'imatge per al reconeixement d'objectes basat en l'aparença basat en estadístiques locals d'imatge. També hi ha la noció relacionada de detecció de crestes per indicar la presència d'objectes allargats.[3]

El Laplacià de Gaussià

Un dels primers i també més comuns detectors de taques es basa en el Laplacià del Gaussià (LoG). Donada una imatge d'entrada f(x,y), aquesta imatge està convolucionada per un nucli gaussià

g(x,y,t)=12πtex2+y22t

a una escala determinada t per donar una representació espacial a escala L(x,y;t) =g(x,y,t)*f(x,y). Després, el resultat d'aplicar l'operador laplacià

2L=Lxx+Lyy

es calcula, la qual cosa normalment dóna lloc a fortes respostes positives per a taques fosques de radi r2=2t (per a una imatge bidimensional, r2=dt per a d imatge dimensional) i fortes respostes negatives per a taques brillants de mida similar. Un problema principal a l'hora d'aplicar aquest operador a una escala única, però, és que la resposta de l'operador depèn fortament de la relació entre la mida de les estructures de blob en el domini de la imatge i la mida del nucli gaussià utilitzat per al suavitzat previ. Per tal de capturar automàticament taques de diferent mida (desconeguda) al domini de la imatge, és necessari, per tant, un enfocament multiescala.

Una manera senzilla d'obtenir un detector de taques multiescala amb selecció d'escala automàtica és considerar l'operador laplacià normalitzat a escala.

norm2L=t(Lxx+Lyy)

i detectar màxims/mínims d'escala-espai, que són punts que són simultàniament màxims/mínims locals de norm2L tant pel que fa a l'espai com a l'escala (Lindeberg 1994, 1998). Per tant, donada una imatge d'entrada bidimensional discreta f(x,y) un volum d'escala-espai discret tridimensional L(x,y,t) es calcula i un punt es considera una taca brillant (fosca) si el valor en aquest punt és més gran (menor) que el valor dels seus 26 veïns. Així, selecció simultània de punts d'interès (x^,y^) i escales t^ es realitza segons

(x^,y^;t^)=argmaxminlocal(x,y;t)((norm2L)(x,y;t))

Tingueu en compte que aquesta noció de blob proporciona una definició operativa concisa i matemàticament precisa de la noció de "blob", que condueix directament a un algorisme eficient i robust per a la detecció de blob. Algunes propietats bàsiques dels blobs definits a partir dels màxims d'escala-espai de l'operador laplacià normalitzat són que les respostes són covariants amb les translacions, rotacions i reescalades en el domini de la imatge. Així, si s'assumeix un màxim d'escala-espai en un punt (x0,y0;t0) després sota un redimensionament de la imatge per un factor d'escala s, hi haurà un màxim d'escala-espai a (sx0,sy0;s2t0) a la imatge reescalada (Lindeberg 1998). Aquesta propietat molt útil a la pràctica implica que, a més del tema específic de la detecció de taques laplacianes, els màxims/mínims locals del laplacià normalitzat a escala també s'utilitzen per a la selecció d'escala en altres contextos, com ara la detecció de cantons, el seguiment de característiques adaptatives a l'escala (Bretzner i Lindeberg 1998), en la transformació d'imatges invariants d'escala i altres descriptors de transformació de característiques d'escala i reconeixement d'objectes.

Les propietats de selecció d'escala de l'operador laplacià i altres detectors de punts d'interès a l'espai proper s'analitzen amb detall a (Lindeberg 2013a). A (Lindeberg 2013b, 2015) es mostra que existeixen altres detectors de punts d'interès d'escala-espai, com el determinant de l'operador Hessià, que funcionen millor que l'operador laplacià o la seva aproximació de diferència de gaussians per a la concordança basada en imatges utilitzant descriptors d'imatge locals similars a SIFT.[4]

La diferència d'enfocament gaussians

Del fet que la representació espacial d'escala L(x,y,t) satisfà l'equació de difusió

tL=122L

es dedueix que el laplacià de l'operador gaussià 2L(x,y,t) també es pot calcular com el cas límit de la diferència entre dues imatges suavitzades gaussianes (representacions espacials a escala)

norm2L(x,y;t)tΔt(L(x,y;t+Δt)L(x,y;t))

A la literatura de visió per computador, aquest enfocament es coneix com l'enfocament de la diferència de Gaussians (DoG). Tanmateix, a més de detalls tècnics menors, aquest operador és en essència similar al laplacià i es pot veure com una aproximació de l'operador laplacià. De manera similar a la del detector de taques laplacià, es poden detectar taques a partir d'extrems d'escala-espai de diferències de gaussians; vegeu (Lindeberg 2012, 2015) per a la relació explícita entre l'operador de diferència de Gaussià i l'operador laplacià normalitzat a escala. Aquest enfocament s'utilitza, per exemple, en l'algorisme de transformació de característiques invariants d'escala (SIFT), vegeu Lowe (2004).

El determinant de l'Hessian

Tenint en compte el determinant normalitzat d'escala de l'hessià, també conegut com a operador de Monge-Ampère

detHnormL=t2(LxxLyyLxy2)

on HL denota la matriu hessiana de la representació escala-espai L i després detectant els màxims d'escala-espai d'aquest operador s'obté un altre detector de taques diferencials senzill amb selecció automàtica d'escala que també respon a les cadires (Lindeberg 1994, 1998)

(x^,y^;t^)=argmaxlocal(x,y;t)((detHnormL)(x,y;t))

Els punts del blob (x^,y^) i escales t^ també es defineixen a partir d'una definició geomètrica diferencial operacional que condueix a descriptors de blob que són covariants amb translacions, rotacions i reescalades en el domini de la imatge. Pel que fa a la selecció d'escala, els blobs definits a partir d'extrems d'escala-espai del determinant de l'hessià (DoH) també tenen propietats de selecció d'escala lleugerament millors en transformacions afins no euclidianes que l'operador laplacià més utilitzat (Lindeberg 1994, 1998, 2015). De forma simplificada, el determinant normalitzat d'escala de l'hessià calculat a partir d'onades de Haar s'utilitza com a operador bàsic de punt d'interès en el descriptor SURF (Bay et al. 2006) per a la concordança d'imatges i el reconeixement d'objectes.

Una anàlisi detallada de les propietats de selecció del determinant de l'operador de Hessian i d'altres detectors de punts d'interès a l'espai proper a escala es dóna a (Lindeberg 2013a) que mostra que el determinant de l'operador Hessià té millors propietats de selecció d'escala sota transformacions d'imatge afins que l'operador Laplacià. A (Lindeberg 2013b, 2015) es mostra que el determinant de l'operador de Hesse funciona significativament millor que l'operador laplacià o la seva aproximació de diferència de gaussians, així com millor que els operadors de Harris o Harris-Laplace, per a la concordança basada en imatgesutilitzant descriptors d'imatge locals semblants a SIFT o SURF, donant lloc a valors d'eficiència més alts.[5]

Referències

Plantilla:Referències