le insidie delle statistiche

Lo scopo di questa sezione non è finalizzato alla presentazione di semplici tecniche statistiche, bensì alla comprensione della loro importanza e dei loro limiti. La finalità è permettere di valutare non tanto le raffinatezze di una ricerca statistica, per la quale occorre una preparazione specifica, piuttosto saper individuare gli elementi che portano a dare credito ad una qualsiasi statistica.

visualizzazione grafica di dati statistici

statistiche mortalità
principali cause di morte nell'uomo nei Paesi industrializzati (fonte: WHO)

Nel grafico in alto, la scala delle ascisse indica i tassi di mortalità per 100.000 persone e per anno (cioè il numero di morti ogni 100.000 persone in 1 anno per ogni causa considerata). In particolare, le barre verdi forniscono i valori osservati nel 1900, quelle gialle i valori del 1984.
Ora, confrontando le differenze fra le barre verdi e le gialle per tutte le cause riportate nel grafico, saltano agli occhi gli enormi progressi ottenuti per le malattie infettive (tubercolosi, influenza, polmonite ecc.) alcune delle quali risultano oggi pressocché scomparse nei Paesi industrializzati a cui il grafico si riferisce.

La facilità con cui abbiamo acquisito informazioni dal grafico, è una conseguenza della loro visualizzazione in forma di grafico a barre: questa rappresentazione consente di cogliere le caratteristiche salienti della rilevazione statistica e di effettuare raffronti con notevole immediatezza rispetto ai soli dati numerici. Per contro, a questa maggior immediatezza di sintesi può far riscontro una diminuzione del senso critico nel valutare i dati.

Per esempio, nel 1984 sono morte per cancro circa 190 persone su 100.000, mentre nel 1900 ne sono morte - per la stessa causa - circa 60 su 100.000. Anche per le malattie cardiache, si nota un incremento da 140 (1900) a 320 (1984).
In realtà, questi regressi sono apparenti in quanto sono legati all'allungamento della vita media della popolazione. Per interperetare correttamente i dati, bisogna tener conto che in una popolazione con molti anziani saranno più frequenti le loro patologie tipiche, quali appunto le neoplasie o le malattie cardiache.
Se non si tiene in considerazione l'allungamento della vita media e la crescita della popolazione, è facile costruire grafici che suggeriscono conclusioni false.

falsa statistica

Fino all'abolizione del proibizionismo, in base al Volstead Act (approvato dal Congresso nel 1919) nessuna birra poteva contenere alcol in misura maggiore allo 0.5% in volume. Il primo frigorifero fu commercializzato dalla Electrolux nel 1930. La radio iniziò ad avere vasta diffusione negli anni '30. Ecco, ora guardate il grafico precedente (inventato): si può concludere che i primi modelli di radio e frigorifero siano stati in qualche modo responsabili di un maggior numero di decessi? Ancóra, la birra era probabilmente meno consumata durante il proibizionismo e questo potrebbe spiegare la maggior mortalità nel 1984 rispetto al 1930.

Come è chiaro, se non si considera l'aumento della popolazione, si possono produrre raccolte di dati che dimostrano qualsiasi cosa. Per questo, come vedremo, è importante analizzare il grado di correlazione che lega due raccolte di dati (test chi-quadro).

osservazioneUno studio mise effettivamente in evidenza che in una città si era verificato un forte aumento delle morti per malattite cardiache e del consumo di birra. Il consumo di birra aumentava la probabilità di subire un attacco cardiaco? No, in effetti si dimostrò che la rilevazione era stata fatta in due periodi differenti, il secondo dei quali aveva visto un notevole incremento della popolazione cittadina.


Questi esempi dimostrano come per effettuare un confronto preciso che annulli l'effetto dell'età, e della numerosità della popolazione, i dati devono essere standardizzati in base a queste variabili. Ovviamente, la standardizzazione si può riferire anche ad altri elementi.

standardizzazione di uno studio statistico

La non standardizzazione di dati può condurre a conclusioni errate. Per esempio, supponiamo che i responsabili marketing di un'azienda farmaceutica si trovino di fronte alla tabella seguente:

Dall'analisi della media, la zona B sembra molto più recettiva della zona A. Questo potrebbe suggerire che gli isf (informatori scientifici del farmaco) della prima zona, nelle loro interviste con i medici, siano meno convincenti degli isf della seconda zona. Tuttavia, in questo caso la media è falsata dal non aver considerato la tipologia delle farmacie.

farmacie numero prescrizioni 30gg media
zona A 30 600 20
zona B 18 460 25.5

Infatti, le farmacie devono essere classificate come farmacie di "quartiere", la cui clientela è stabile, e farmacie di "passaggio", la cui clientela non è riconducibile alle prescrizioni di un numero ben individuato di medici, ma è occasionale (il paziente esce dallo studio medico e consegna la ricetta ad una farmacia situata in posizione centrale). Così, dividendo le farmacie per tipologia, si costruisce una nuova tabella:

farmacie numero prescrizioni 30gg media
zona A 16 di quartiere 340 21.5
14 di passaggio 260 18.5
zona B 12 di quartiere 260 21.6
6 di passaggio 200 33.3

Dalla nuova tabella, si vede che il numero medio di prescrizioni, limitatamente alle farmacie di quartiere, è indifferente per le due zone considerate. Lo scarto fra farmacie "di quartiere" e farmacie "di passaggio" verrà discusso in un esempio relativo al campionamento.

altre statistiche strane

Gli esempi che seguono mostrano statistiche che collezionano "numeri in libertà".

esempio 1: un articolo su Il Messaggero del 31 agosto 2003, riportava la seguente tabella:

1.000.000 gli italiani che soffrono di scompensi cardiaci
235.000 le persone che muoiono ogni anno in Italia per malattie cardiovascolari
160.000 le persone fra i 35 e i 64 anni che ogni anno subiscono un attacco cardiaco
187 i morti per infarto miocardico ogni 100.000
1 persona ogni 4 minuti subisce un attacco cardiaco e uno su quattro non sopravvive
6 a 1 il rapporto tra gli uomini colpiti e le donne

Una persona ogni 4 minuti subisce ua attacco cardiaco e uno su quattro non sopravvive. Stando a questa affermazione "giornalistica", per attacco cardiaco muore una persona ogni 16 minuti. Questo significa che poiché un anno comprende 525.600 minuti, muoiono 32.850 persone ogni anno. Ma dalla stessa tabella risulta che le persone morte ogni anno sono 235.000!
Questa statistica, della quale non è citata la fonte, non ha alcun interesse.

esempio 2: alcune statistiche dimostrano che la maggior parte degli incidenti automobilistici coinvolgono autovetture che viaggiano a velocità moderata e che si verificano pochissimi incidenti a velocità superiori a 150 km/h.
Questo non significa che il detto "chi va piano va sano e va lontano" sia sbagliato... Il fatto è che le statistiche non implicano necessariamente relazioni di causa-effetto. La maggior parte degli automobilisti guida a velocità moderate ed è naturale che la maggior parte degli incidenti si verifichi a queste velocità.

esempio 3: è stato riportato che la probabilità di morire in Marina durante il conflitto Ispano-americano era pari a 9/1000. Il tasso di mortalità nella città di New York in quel periodo era 16/1000, Si doveva concludere che verso la fine del 1900 era più sicuro essere in marina durante la guerra piuttosto che vivere a New York? Questo è ovviamente assurdo. Le due statistiche non sono riferibili allo stesso tipo di popolazione. I marinai sono giovani adulti in piena salute; la popolazione di New York ha una differente composizione della popolazione, che dovrebbe includere bambini, anziani, malati. Questa popolazione, nell'insieme ha una mortalità più elevata dei giovani adulti in salute.


esempio 4: secondo un gruppo di studiosi dell'università di Bristol, che ha esaminato il comportamento di 2.438 uomini di mezza età del Galles, gli uomini che non si radono ogni giorno rischiano l'infarto o un attacco cardiaco. E in più potrebbero avere problemi di tipo ormonale che influirebbero sulla sfera sessuale.
Secondo quanto sostengono i ricercatori, negli ultimi 20 anni ci sono stati 835 decessi. Di questi il 45% riguardava uomini che non si radevano quotidianamente, mentre solo il 31% era rappresentato da maschi che si facevano la barba ogni giorno. Raccolte di dati simili a questa, senza aver specificato dettagliatemente le possibili variabili non hanno alcuna validità scientifica.

esempio 5: una ricerca condotta intervistando un vastissimo campione di persone, dimostrò inequivocabilmente che i mancini hanno un'aspettativa di vita nettamente inferiore rispetto ai destrimani. Tale conclusione venne raggiunta constatando che i mancini fossero il 15 per cento di tutti i bambini americani al momento della nascita. Però la percentuale di mancini si riduceva al 5 per cento fra i 50 enni e solo all'1 per cento tra gli ultra 80 enni.
L'errore, in questo caso è legato al differente comportamento educativo del passato: le persone che oggi hanno una cinquantina d'anni sono state forzate fin dall'infanzia, com'era d'uso allora, da insegnanti e famigliari, ad utilizzare la mano destra, così la percentuale di mancini ufficiali diminuisce con l'aumentare dell'età. Però, in conseguenza del fatto che non si cerca di "correggere" un problema inesistente.

Porscheesempio 6: una ricerca condotta in Germania, dimostrò che i guidatori più infedeli erano quelli alla guida di Porsche e BMW, rispettivamente adulteri nel 49 e 47% dei casi. Possedere un'auto costosa e blasonata è un elemento di richiamo per le donne sensibili al fascino dell'uomo in carriera e di successo; tuttavia, la ricerca dimostrò che anche il 37% delle donne "Porschiste" tradiva con regolarità i propri partner (!?).
Al contrario, le mogli dei proprietari di vetture Opel possono stare abbastanza tranquille: solo il 31% dei loro proprietari è un adultero...


quando le cose non sono del tutto vere e del tutto false

Accanto a statistiche mal costruite e/o affette da errori di metodo, ve ne sono alcune che sono sempre vere, o, se si preferisce, sono comunque non false.

esempio 1: 2 dentisti su 3 raccomandano la pasta dentifrica "come si chiama". Come hanno preso questa decisione? Facile. Trovate due dentisti che raccomandano "come si chiama" e un dentista che non lo fà.

Questa statistica potrebbe sembrare banale; tuttavia, molto spesso è possibile fare simili affermazioni, sfruttando il fatto che nella statistica la proprietà transitiva (se A > B e B > C, allora A > C) non è sempre vera.
Osservate la tabella seguente, dove vi sono tre prodotti A, B, C scelti, in ordine di preferenza da tre gruppi di persone con la stessa consistenza numerica, per es., 10, 10 e 10.

prodotto preferito prodotto preferito prodotto preferito
gruppo 1 consigliato da: 1/3 A B C
gruppo 2 consigliato da: 1/3 B C A
gruppo 3 consigliato da: 1/3 C A B

Come si vede, il primo gruppo ha scelto, nell'ordine A, B, C; il secondo gruppo, B, C, A, ecc.
Come è chiaro, due gruppi su tre (primo e terzo gruppo) preferiscono A a B .

Però, anche 2/3 delle persone intervistate (secondo e terzo gruppo) preferiscono C ad A

prodotto preferito prodotto preferito prodotto preferito
gruppo 1 consigliato da: 1/3 A B C
gruppo 2 consigliato da: 1/3 B C A
gruppo 3 consigliato da: 1/3 C A B

Se controllate attentamente la tabella, vedrete che i 2/3 delle persone intervistate preferiscono B a C.

Questo paradosso statistico è noto come paradosso di Arrow, dal nome di Kenneth J. Arrow (premio Nobel per l'economia, 1972), il quale dimostrò sulla base di questa e di altre considerazioni logiche l'impossibilità di un sistema democratico perfetto. Il paradosso si presenta in ogni situazione nella quale si debba decidere tra possibilità raggruppate a due a due rispetto a tre caratteristiche.

esempio 2: alcune affermazioni sono formulate in modo da dare un effetto positivo. Nel 1948, era stato scritto «Oggi, l'energia elettrica è disponibile per oltre i 3/4 delle fattorie U.S.». Si sarebbe potuto scrivere «Quasi 1/4 delle fattorie U.S. non hanno energia elettrica disponibile». E d'altra parte, entrambe le affermazioni sono fuorvianti... dicono "disponibile". Non significa che l'abbiano.

Questo è dunque un esempio di informazione corretta ma presentata in una forma ottimistica


1 indicatori della statistica descrittiva2 esempi applicativi3 grafici e statistiche4
home page HOME PAGE

Marcello Guidotti, copyright 2003 - 2007
questa pagina può essere riprodotta su qualsiasi supporto o rivista purché sia citata la fonte e l'indirizzo di questo sito (ai sensi degli artt. 2575 e 2576 cc. Legislazione sul diritto d'autore). Le fotografie sono tratte da siti web e costituiscono materiale pubblicitario, oppure sono, o possono ritenersi, di pubblico dominio purché utilizzate senza fini di lucro.