Coeficient kappa de Cohen
El coeficient kappa de Cohen (κ, minúscula grec kappa) és una estadística que s'utilitza per mesurar la fiabilitat entre avaluadors per a ítems qualitatius (categòrics).[1] En general, es pensa que és una mesura més robusta que el simple càlcul de percentatge d'acord, ja que κ té en compte la possibilitat que l'acord es produeixi per casualitat. Hi ha controvèrsia al voltant del kappa de Cohen a causa de la dificultat d'interpretar els índexs d'acord. Alguns investigadors han suggerit que conceptualment és més senzill avaluar el desacord entre els ítems.[2]
El kappa de Cohen mesura l'acord entre dos evaluadors que classifiquen cadascun N ítems en categories C mútuament excloents. La definició de és [3]
on Plantilla:Mvar és l'acord relatiu observat entre els evaluadors i Plantilla:Mvar és la probabilitat hipotètica d'acord d'atzar, utilitzant les dades observades per calcular les probabilitats que cada observador vegi aleatòriament cada categoria. Si els avaluadors estan totalment d'acord, aleshores . Si no hi ha cap acord entre els avaluadors diferent del que s'esperaria per casualitat (tal com dona Plantilla:Mvar), . És possible que l'estadística sigui negativa,[4] que pot ocórrer per casualitat si no hi ha relació entre les valoracions dels dos evaluadors, o pot reflectir una tendència real dels qualificadors a donar puntuacions diferents.[5]
Per a Plantilla:Mvar categories, Plantilla:Mvar observacions per categoritzar i el nombre de vegades que l'evaluador Plantilla:Mvar va predir la categoria Plantilla:Mvar :
Això es deriva de la següent construcció:
On és la probabilitat estimada que tant l'evaluador 1 com l'evaluador 2 classifiquen el mateix ítem com a k, mentre que és la probabilitat estimada que l'evaluador 1 classifiqui un element com a k (i de manera similar per a l'evaluador 2). La relació es basa en l'ús de la hipòtesi que la qualificació dels dos evaluadors és independent. El terme s'estima utilitzant el nombre d'ítems classificats com a k pel qualificador 1 () dividit pel total d'elements a classificar (): (i de la mateixa manera per a l'avaluador 2).
A la matriu de confusió tradicional 2 × 2 emprada en l'aprenentatge automàtic i les estadístiques per avaluar classificacions binàries, la fórmula Kappa de Cohen es pot escriure com:[6]
on TP són els vertaders positius, FP són els falsos positius, TN són els veritables negatius i FN són els falsos negatius. En aquest cas, el Kappa de Cohen és equivalent a la puntuació d'habilitat de Heidke coneguda a Meteorologia.[7] La mesura va ser introduïda per primera vegada per Myrick Haskell Doolittle el 1888.[8]