Estadística, mostres i biaixos

Bàsicament l’estadística és la ciència que busca la probabilitat d’un fet a partir de mostres empíriques d’un conjunt de dades.

L’estadística s’encarrega de la recopilació, anàlisi, interpretació i representació de dades. Es basa en l’ús de les dades empíriques per a produir informació a partir de dades en principi aleatòries i incertes. L’estadística és una part de la matemàtica aplicada i es basa en la teoria estadística i la teoria de les probabilitats.

Dins de l’estadística tenim dos grans àrees de treball, la estadística aplicada i l’estadística teòrica. L’estadística aplicada es subdivideix a l’hora en 2 grans branques l’estadística descriptiva que s’encarrega de descriure un grup de dades i l’estadística inferencial o inductiva que s’encarrega de trobar patrons a les dades per tal de poder extrapolar resultats a un grup complet a partir del conjunt de dades recopilat, una mostra.

L’estadística descriptiva serveix per treure dades més o menys comunes d’un grup. Per exemple podem dir que la mitjana d’estat dels estudiants d’una classe és de X anys després d’agafar totes les edats i fer-ne la mitjana. Aquesta dada ens pot donar una idea per exemple de la quantitat d’estudiants que han repetit o que el seu aniversari és cap a final d’any, etc. Ens està descrivint de manera generalista el grup. Aquesta branca de l’estadística no comporta masses problemes doncs agafa totes les dades que hi ha i en treu unes xifres que descriuen tot el conjunt de les dades. En aquest cas s’emmarca el típic acudit, l’estadística és la ciència que si tu tens 2 cotxes i jo no en tinc, tots dos tenim cotxe.

La estadística inferencial busca extrapolar les dades d’un grup petit, dades de mostreig, a un grup més gran o a la totalitat del grup. El concepte genèric d’aquesta estadística seria, jo tinc una població, un grup, del qual agafo una mostra i en funció d’aquesta mostra puc obtenir informació de tot el grup o de la probabilitat que el grup tingui certes característiques.

Un exemple d’estadística inferencial seria, tenim un cistell de bolets que pesa 10 quilograms ( quan ensenyen estadística els exemples sempre són de la mateixa classe, anem a canviar-ho una mica ) volem saber el nombre de bolets que hi ha a dins del cistell. Agafem 10 bolets els pesem i calculem la mitjana del pes d’aquests 10 bolets. Un cop tenim aquesta mitjana dividim els 10 quilograms de bolets pel pes mig de la mostra que hem agafat i tindrem el nombre de bolets que hi ha dins del cistell. Podríem també saber quina probabilitat tenim d’agafar un bolet a l’atzar i que aquest pesi 1 quilogram.

Aquí és on comencen a aparèixer el problemes de l’estadística.

Què passaria si haguéssim agafat els 10 bolets més grans de tot el cistell? I els 10 més petits? Evidentment el resultat que hauríem obtingut seria erroni. Apareix el concepte d’error estadístic. Totes les estadístiques que veiem tenen un error assignat, aquest error bàsicament està relacionat amb la possibilitat que la mostra que hem agafat estigui esbiaixada. Quina és la possibilitat que haguem agafat els bolets més grans del cistell o 10 bolets que estan per sobre de la mitjana.

Així doncs, la presa de dades és una part molt important en l’estadística inferencial. Podríem solucionar aquest problema recollint totes les dades, d’aquesta manera no caldria l’estadística. Però recollir dades té un cost aquest cost fa inviable que es puguin recollir totes les dades. És necessari un procediment de recollida de dades, anomenat mostreig, per obtenir una mostra representativa i lliure de desviacions ( biaix ) i d’aquesta manera poder assegurar que els estudis i les extrapolacions que se’n poden fer no tindran problemes.

Això que sembla senzill a primer cop d’ull no ho és.

Existeixen exemples històrics i sonats de problemes amb d’esbiaixament en les mostres que van portar a errors clamorosos. Per exemple, una enquesta online en una web de fans de bola de drac que pregunti sobre quin personatge els agrada més si Son Goku o Spiderman, té moltes possibilitats que doni resultats aclaparadors a favor de Son Goku, però aquesta mostra no podrà estendre’s a la resta de la població, “El 99% dels catalans són més partidaris de Son Goku”

El biaix anterior és força clar, però de vegades hi haurà desviacions però no seran tan clares ni fàcils de detectar. Per exemple podem extrapolar les dades d’una mostra de Barcelona o de Sant Feliu de Codines a la totalitat de la població de Catalunya? O una mostra feta per telèfon a les 12 del migdia trucant a les cases és representativa de tota la població? I les dades recollides de l’accés a una web concreta, ens permet d’afirmar que al conjunt de tots internautes els agraden més els anuncis de color blau?

En el cas que l’estadística es vulgui fer sobre persones, la recollida de dades s’ha de fer en base a enquestes i existiran també esbiaixaments psicològics. Una persona probablement no respondrà igual sobre un tema concret després d’una notícia impactant relacionada amb la pregunta que la mateixa pregunta feta quan el tema no es d’actualitat. Imaginem que es vol preguntar sobre la pena de mort. Obtindrem la mateixa resposta dia després que pel Telenotícies hagi aparegut un assassí en sèrie que al cap de 6 mesos?. A més a més les persones menteixen a les enquestes!!

Tot i que existeixen mètodes per tal de reduir la possibilitat dels biaixos en la recollida de dades, sempre apareix la necessitat de la mal anomenada “cuina” de les dades. Fins i tot recollint les dades de manera correcta com que sabem hi ha biaixos en les dades i en el cas d’enquestes que les persones menteixen cal intentar d’alguna manera compensar aquests efectes per tal que la mostra pugui reflectir una millor imatge del grup que es vol representar amb aquestes dades.

En aquesta cuina és on pot aparèixer el possible mal ús de les dades recollides doncs les correccions que s’introdueixin poden provocar que, per error o intencionadament, els resultats que finalment es presentaran siguin més o menys reals. El problema torna a ser de les persones que usen l’eina estadística en aquest cas i no de l’eina. ( Les matemàtiques tramposes )

Fins i tot en els casos de recollides de dades automatitzades, per exemple en els processos de control de qualitat o en entorns computeritzats ( big data ) cal tenir sempre present que estem treballant amb mostres i que aquestes mostres tot i que siguin molt grans no són de tot el grup i per tant poden tenir biaixos que ens poden passar desapercebuts ( o no ) i que afectaran a l’anàlisi que podrem fer d’aquestes dades.

Cal doncs tenir molta cura a l’hora de treballar amb l’estadística per no caure en els paranys que presenta aquesta ciència, però s’ha de ser molt més curós encara quan llegim aquestes dades doncs poden contenir errors importants, volguts o involuntaris.