Taula de freqüències

De testwiki
Salta a la navegació Salta a la cerca

En estadística descriptiva una taula de freqüències[1][2][3] o distribució de freqüències és una taula que mostra els valors d'una variable estadística (individualment o agrupats en classes) juntament amb el comptatge del nombre de vegades de cada valor o classe (freqüència absoluta) o les freqüències relatives, o els percentatges, o similars.[4]

Exemples introductoris

En un estudi estadístic, després de la recollida de dades, el primer que es fa és presentar les dades de manera que siguin fàcilment comprensibles mitjançant taules i gràfiques adients. La presentació més habitual és la de les taules de freqüències.

Per exemple, la següent taula mostra els 10 noms posats a nadons (nenes i nens) més freqüents a Catalunya durant l'any 2018 (font: Institut d'Estadística de Catalunya, consultada el 5/05/20):[5]

𝐍𝐨𝐦𝐅𝐫𝐞𝐪𝐮¨𝐞`𝐧𝐜𝐢𝐚𝐓𝐚𝐧𝐭 𝐩𝐞𝐫 𝐦𝐢𝐥MARC64010,13JU`LIA/JULIA5879,29POL5488,67MARTINA5228,26EMMA5198,22A`LEX/A´LEX4997,90JAN4897,74MARIA/MARI´A4667,38NIL4617,30LEO4597,27

En aquesta taula, freqüència es refereix al nombre de nadons amb el nom corresponent, que s'anomena la freqüència absoluta. La següent columna mostra el nombre de nadons amb aquell nom per cada 1000 nadons.

El segon exemple recull el resultat de les notes d'un examen d'un grup de 25 estudiants. A la següent taula hi ha les freqüències absolutes i relatives (freqüència absolutes dividides per 25) i permet obtenir una primera idea de com ha anat l'examen:

𝐍𝐨𝐭𝐚𝐅𝐫𝐞𝐪𝐮¨𝐞`𝐧𝐜𝐢𝐚 𝐚𝐛𝐬𝐨𝐥𝐮𝐭𝐚𝐅𝐫𝐞𝐪𝐮¨𝐞`𝐧𝐜𝐢𝐚 𝐫𝐞𝐥𝐚𝐭𝐢𝐯𝐚000,00110,04220,08340,16420,08560,24640,16720,08820,08910,041010,04𝐓𝐨𝐭𝐚𝐥𝟐𝟓𝟏

Quan es disposa d'una variable estadística discreta amb molts valors diferents o una variable contínua, cal agrupar els valors de la variable en intervals o classes. La taula següent dona la superfície útil (en m2) dels habitatges principals de Catalunya el 2011. Font: Idescat, consultada el 5/05/20).[6]

𝑆𝑢𝑝𝑒𝑟𝑓ı´𝑐𝑖𝑒 (m2)𝐹𝑟𝑒𝑞𝑢¨𝑒`𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑎𝑡𝑔𝑒menys de 298.5480,3de 30 a 45106.1433,6de 46 a 60424.23514,4de 61 a 75668.64822,7de 76 a 90807.53927,4de 91 a 105348.09611,8de 106 a 120212.2837,2de 121 a 150177.4486,0de 151 a 18078.0912,7me´s de 180113.8733,9𝐓𝐨𝐭𝐚𝐥𝟐.𝟗𝟒𝟒.𝟗𝟒𝟒𝟏𝟎𝟎

Freqüències absolutes i relatives. Percentatges o similars. Freqüències acumulades

En una taula de freqüències es troben una o més de les següents quantitats:

  • Freqüència absoluta de cada possible valor de la variable, o grup de valors (classes o intervals): és el nombre de vegades que es repeteix aquell valor (o d'observacions que estan en una classe). Si hi ha k valors possibles o classes, es designa les freqüències absolutes per F1,,Fk. Es designa per N el nombre total de dades:N=F1++Fk=i=1kFi.
  • Freqüència relativa de cada valor (o tant per u), que és la freqüència absoluta dividia pel nombre total de dades. Es designaran per f1,,fk. Tenim que fi=FiN,i=1,,k.i i=1kfi=1.
  • Percentatge de cada valor: és la freqüència relativa multiplicada per 100. Es designaran per p1,,pk:

pi=100×fi=100×FiN,i=1,,k.i i=1kpi=100.

  • De manera similar es defineixen el tant per mil (denotat per ), el tant per deu mil, etc., i cadascun té notacions diferents segons el context; per exemple, a la indústria s'escriu ppm per «parts per milió», o en epidemiologia pmh que vol dir «per milió d'habitants».
  • Freqüències absolutes acumulades, designades per FA1,,FAk definides per FA1=F1,FA2=F2+FA1,FAi=Fi+FAi1,FAk=Fk+FAk1=N.



Anàlogament es defineixen les freqüències relatives acumulades, o els percentatges acumulats, etc. Per exemple, la taula de la superfície dels habitatges amb els percentatges acumulats és la següent:

𝑆𝑢𝑝𝑒𝑟𝑓ı´𝑐𝑖𝑒 (m2)𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑎𝑡𝑔𝑒𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑎𝑡𝑔𝑒 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑡menys de 290,30,3de 30 a 453,63,9de 46 a 6014,418,3de 61 a 7522,741,0de 76 a 9027,468,4de 91 a 10511,880.2de 106 a 1207,287,5de 121 a 1506,093,5de 151 a 1802,796,1me´s de 1803,9100,0𝐓𝐨𝐭𝐚𝐥𝟏𝟎𝟎

Intervals o classes

Quan s'estudia una variable discreta amb molts possibles valors diferents o una variable contínua els valors de la variable s'agrupen en classes o intervals (en anglès es diuen bins). Ens ocuparem ara de les notacions i dels convenis que normalment es prenen. A part del llenguatge autoexplicatiu, com a l'exemple de la superfície dels habitatges (menys de 29 m2, etc.) normalment es fan servir els intervals (matemàtiques). Cal recordar que:

  • L'interval tancat [a,b] designa el conjunt de nombres (reals) que estan entre a i b incloent ambdós a i b, que s'anomenen els extrems de l'interval.

[a,b]={x:axb}.

  • L'interval obert (a,b) (notació que utilitzarem), o ]a,b[, designa el conjunt de nombres (reals) que estan entre a i b excloent ambdós extrems a i b:

(a,b)={x:a<x<b}.


  • Els intervals semioberts (o semitancats) (a,b] i [a,b) amb definicions evidents.

Construcció de taules de freqüències

No hi ha regles precises per construir una taula de freqüències, ja que depèn molt de les dades que s'estigui analitzant, però unes directrius són les següents:

  1. És convenient (quan es pugui!) que tots els intervals tinguin la mateixa amplada (bin width).
  2. Els intervals no s'han de superposar.
  3. Totes les dades han de caure en un i només un dels intervals.
  4. És convenient que hi hagi un total d'entre 5 i 15 intervals (però vegeu més avall uns criteris basats en la construcció d'histogrames)

Aleshores:

  • Primer s'estableix provisionalment el nombre d'intervals que es vol tenir, suposant que tots els intervals tindran la mateixa amplada.
  • Després, s'ha de determinar l'amplada comuna dels intervals (bin width). Per això, es calcula la diferència entre la dada major i la dada menor, i es divideix entre el nombre d'intervals desitjats. Aquest resultat s'arrodoneix a un nombre més gran amb pocs (o cap) decimal.
  • Es calculen els extrems dels intervals que s'utilitzaran, tenint en compte que han de ser nombres el més senzill possible (amb pocs o cap decimal).
  • Es decideix com han de ser els intervals (semioberts per la dreta, etc.) i si el primer i últim interval han de ser diferents.
  • Si hi ha intervals amb freqüència absoluta petita, cal replantejar-se el nombre d'intervals a utilitzar, provant amb un nombre més petit.
  • Molt sovint els intervals amb les dades més petites o més grans tenen freqüències absolutes molt petites (potser 0), i llavors s'agrupen en intervals més grans


Exemple: Es prepara la taula de freqüències de cinc intervals per al conjunt dels següents 20 dades:

7,45,248,13,76,8103,265,56,27,86,44155,95,575

Dada major = 10, Dada menor = 1. Llavors, per calcular l'amplada, (10-1)/5=1,8, i es pren 2 com a amplada dels intervals.

Com la dada menor és 1, es selecciona a 2 com la límit superior del primer interval. Llavors, la límit superior del segon interval serà 2+2 = 4, el del tercer serà 4+2 = 6 i així successivament.

Es prendran els intervals oberts per la dreta i tancats per l'esquerra, excepte el primer que es prendrà tancat; així, els intervals seran: [0,2], (2,4], (4,6], (6,8] i [8,10]. Cal notar que els intervals són disjunts dos a dos i que no hi ha cap ambigüitat amb les dades que prenen un valor que sigui un extrem de l'interval, per exemple, el nombre 4 està a l'interval (2,4] i no al (4,6].

𝐈𝐧𝐭𝐞𝐫𝐯𝐚𝐥𝐅𝐫𝐞𝐪𝐮¨𝐞`𝐧𝐜𝐢𝐚 𝐚𝐛𝐬𝐨𝐥𝐮𝐭𝐚[0,2]1(2,4]4(4,6]7(6,8]6(8,10]2𝐓𝐨𝐭𝐚𝐥𝟐𝟎

Construcció d'una taula de freqüències amb EXCEL

L'Excel pot calcular de manera automàtica la taula de freqüència d'un conjunt de dades. Aquí s'il·lustra els passos amb les dades de l'exemple anterior.

Pas 1: S'entra els nombres a la columna A, començant a A1. Cal prémer la tecla "ENTER" després de cadascun.

Pas 2: Calcular l'ample comú dels cinc intervals i les límits superiors de cada un:

Dada major = 10, dada menor = 1.
Els límits superiors són: 2, 4, 6, 8, 10.

Pas 3: A la columna B, començant a B1 entrem 2, 4, 6, 8.

No cal posar l'extrem inferior del primer interval (el 0), ja que l'EXCEL posa tots els valors menors o iguals a 2 al primer interval. Després, s'utilitza el mateix conveni adoptat pels extrems dels intervals (oberts per l'esquerra i tancats per la dreta). Finalment, no cal entrar la límit superior de l'últim interval, ja que l'últim interval contindrà tots els valors més grans (estrictament) que el límit superior de l'interval anterior (el 8).

Pas 4: Com que la taula tindrà 5 intervals (bins), es selecciona 5 cel·les contigües, per exemple C3: C7.


Pas 5: Fer un clic a la barra de fórmula i entrar la fórmula (cal tenir en compte si l'EXCEL instal·lat té les fórmules en català o castellà)

Frecuencia (a1: a20; b1: b4) 

Observeu que la primera part conté la llista de dades entre A1 i A20. La segona conté la llista de límits superiors de cada interval (excepte l'últim, segons hem comentat)

Pas 6: Prémer simultàniament les tecles Control-Majúscules-Enter, ja que es tracta d'una fórmula vectorial.

Veureu que es desplegaran una llista de cinc números que corresponen a la freqüència de cada interval.

Elecció del nombre d'intervals

A partir de les propietats dels histogrames es tenen unes regles orientatives per a l'elecció del nombre d'intervals. La primera regla, i una de les que més s'utilitza, és la regla de Sturges[7] (els paquets estadístics la utilitzen a menys que es digui una altra cosa): per a

N

observacions, el nombre de classes recomanat

k

és

k1+log2n=1+log10nlog1021+3,32log10n

on el logaritme de la dreta és en base 10. Una altra regla que s'utilitza és de Terrell and Scott[8]

k2n3,

que justifiquen sobre la base de propietats asimptòtiques. També és important la regla de Scott[9]

k3,49 Sn3,

on

S

és una estimació de la desviació típica de la població, per exemple, la desviació típica modificada de les dades.

Referències

Plantilla:Referències

Vegeu també

Plantilla:Commonscat

Plantilla:Estadística descriptiva