Coeficient kappa de Cohen

De testwiki
Salta a la navegació Salta a la cerca

El coeficient kappa de Cohen (κ, minúscula grec kappa) és una estadística que s'utilitza per mesurar la fiabilitat entre avaluadors per a ítems qualitatius (categòrics).[1] En general, es pensa que és una mesura més robusta que el simple càlcul de percentatge d'acord, ja que κ té en compte la possibilitat que l'acord es produeixi per casualitat. Hi ha controvèrsia al voltant del kappa de Cohen a causa de la dificultat d'interpretar els índexs d'acord. Alguns investigadors han suggerit que conceptualment és més senzill avaluar el desacord entre els ítems.[2]

El kappa de Cohen mesura l'acord entre dos evaluadors que classifiquen cadascun N ítems en categories C mútuament excloents. La definició de κ és [3]

κpope1pe=11po1pe,

on Plantilla:Mvar és l'acord relatiu observat entre els evaluadors i Plantilla:Mvar és la probabilitat hipotètica d'acord d'atzar, utilitzant les dades observades per calcular les probabilitats que cada observador vegi aleatòriament cada categoria. Si els avaluadors estan totalment d'acord, aleshores κ=1. Si no hi ha cap acord entre els avaluadors diferent del que s'esperaria per casualitat (tal com dona Plantilla:Mvar), κ=0. És possible que l'estadística sigui negativa,[4] que pot ocórrer per casualitat si no hi ha relació entre les valoracions dels dos evaluadors, o pot reflectir una tendència real dels qualificadors a donar puntuacions diferents.[5]

Per a Plantilla:Mvar categories, Plantilla:Mvar observacions per categoritzar i nki el nombre de vegades que l'evaluador Plantilla:Mvar va predir la categoria Plantilla:Mvar :

pe=1N2knk1nk2

Això es deriva de la següent construcció:

pe=kpk12^=kpk1^pk2^=knk1Nnk2N=1N2knk1nk2

On pk12^ és la probabilitat estimada que tant l'evaluador 1 com l'evaluador 2 classifiquen el mateix ítem com a k, mentre que pk1^ és la probabilitat estimada que l'evaluador 1 classifiqui un element com a k (i de manera similar per a l'evaluador 2). La relació pk^=kpk1^pk2^ es basa en l'ús de la hipòtesi que la qualificació dels dos evaluadors és independent. El terme pk1^ s'estima utilitzant el nombre d'ítems classificats com a k pel qualificador 1 (nk1) dividit pel total d'elements a classificar (N): pk1^=nk1N (i de la mateixa manera per a l'avaluador 2).

A la matriu de confusió tradicional 2 × 2 emprada en l'aprenentatge automàtic i les estadístiques per avaluar classificacions binàries, la fórmula Kappa de Cohen es pot escriure com:[6]

κ=2×(TP×TNFN×FP)(TP+FP)×(FP+TN)+(TP+FN)×(FN+TN)

on TP són els vertaders positius, FP són els falsos positius, TN són els veritables negatius i FN són els falsos negatius. En aquest cas, el Kappa de Cohen és equivalent a la puntuació d'habilitat de Heidke coneguda a Meteorologia.[7] La mesura va ser introduïda per primera vegada per Myrick Haskell Doolittle el 1888.[8]

Referències

Plantilla:Referències