Affidandoci al senso comune, tendiamo senz'altro a rispondere affermativamente. D'altra parte, l'epidemiologo, di fronte ad una domanda dei questo tipo, ritiene sia più corretta una risposta del tipo «non è possibile rispondere in quanto i dati forniti sono insufficienti».
Nella statistica, infatti, il termine "associazione" assume un significato diverso da quello comune; infatti, nel linguaggio parlato due eventi si dicono associati quando compaiono o si verificano solitamente in correlazione l'uno con l'altro...
due eventi si dicono "associati" solo quando sono correlati in modo maggiore di quanto si verifichi per puro caso.
Tutti i metodi che si basano su distribuzioni probabilistiche dei dati, quali la distribuzione normale, sono detti parametrici. In contrapposizione, le tecniche non parametriche sono quelle che non sono basate su alcuna distribuzione probabilistica. In generale i test non parametrici dovrebbero essere preferiti quando i dati non si distribuiscono secondo una normale, o comunque non si è in grado di dimostrarlo, ad esempio per numerosità ridotta.
Il test del chi-quadro è un test statistico non parametrico atto a verificare se i valori di frequenza ottenuti tramite rilevazione, sono diversi in maniera significativa dalle frequenze ottenute con la distribuzione teorica. Questo test ci permette di accettare o rifiutare una data ipotesi.

L'istogramma sopra a sinistra, mostra i risultati ottenuti dal lancio di due dadi ripetuto per 36 volte. A destra, sono riportati i risultati attesi (dopo 36 lanci) in base alla probabilità di uscita dei vari risultati : ottenere un 2 con due dadi è più difficile che ottenere un 4 (con 4 lanci ci si può aspettare che esca un 2 e tre volte 4). Ancóra, nell'istogramma a sinistra, le differenze positive (risultati oltre il previsto) sono rappresentate da zone colorate in verde; quelle negative, da zone colorate in rosso. Supponendo che dopo un certo numero di lanci, si ottenga una serie di lanci "non fortunati", diremo che la "sfortuna" ci perseguita se l'istogramma di sinistra si discosta oltre un certo valore da quella che sarebbe la distibuzione dei risultati attesi. Diversamente, diremo che le nostre perdite sono una semplice conseguenza del caso (qualche volta si vince e qualche volta si perde, anche se generalmente tendiamo a prestare maggior attenzione alle perdite).
Il test con il quale si decide se due o più eventi sono tra loro associati, oppure una semplice conseguenza della probabilità, utilizza la cosiddetta ipotesi zero, Ho.

Il diagramma in alto illustra i passi per effettuare un test di significatività:
![]() |
| gradi di libertà | |||
| 10% | 5% | 1% | |
| 1 | 2.71 | 3.84 | 6.63 |
| 2 | 4.61 | 5.99 | 9.21 |
| 3 | 6.25 | 7.81 | 11.34 |
| 4 | 7.78 | 9.49 | 13.28 |
| 5 | 9.24 | 11.07 | 15.00 |
quando vi è un solo grado di libertà, oppure quando il numero delle osservazioni é inferiore a 500, può essere necessario applicare la correzione di YATES. Le frequenze marginali della tabella di contingenza non sono molto grandi, oppure sono abbastanza grandi, ma vi sono frequenze attese inferiori a 5. Per i valori osservati si devono aumentare di 0,5 le frequenze più basse e diminuire di 0,5 le frequenze più elevate (negli esercizi, vedremo come viene applicata la correzione).
|
esempio 1: supponiamo che da uno studio epidemiologico effettuato su un campione di 50 bambini appartenenti a famiglie disagiate, si sia trovato che il 26% di loro è affetto da asma. Il gruppo di controllo, costituito da 100 bambini mostra una percentuale di asmatici dell'8%. Sulla scorta di questo ipotetico studio epidemiologico, è ragionevole ammettere una relazione di causalità fra acari e asma?
Per prima cosa, riportiamo i dati raccolti in una tabella:
dall'esame dei dati raccolti in tabella, risulta che la percentuale complessiva di bambini asmatici provenienti sia dalle famiglie indigenti (13) che da quelle di controllo (8), è 21/150 = 0.14 = 14%
Ora, utilizzando i dati raccolti nelle due tabelle, applichiamo il test del chi-quadro: c2 = (37 - 43)2/43 + (13 - 7)2/7 + (92 - 86)2/86 + (8 - 14)2/14 = 8.95 A questo punto, il valore c2 viene confrontato con quello riportato sull'apposita tabella (v. sopra), in corrispondenza di (2 - 1) x (2 - 1) = 1 grado di libertà. Con un grado di libertà, la massima probabilità che sia vera l'ipotesi Ho, con probabilità pari a 1% , è 6.63. Poiché il valore ottenuto è 8.95, rifiutiamo Ho e deduciamo che: la correlazione fra asma ed acari è significativa con una probabilità del 99% Applicando la correzione di Yates, il valore osservato più alto deve essere ridotto di 0.5 (92-0,5); il valore più basso deve essere aumentato di 0.5 (8+0.5). Applicando la formula del chi-quadro, si ha: c2 = (37 - 43)2/43 + (13 - 7)2/7 + (91,5 - 86)2/86 + (8,5 - 14)2/14 = 8.49 anche con la correzione di Yates, il risultato non cambia: rifiutiamo l'ipotesi Ho
|
|
esempio 2: si vuole verificare quale di due farmaci è più efficace. A questo scopo, 23 pazienti vengono trattati con il farmaco A e 17 con il farmaco B. Dei 23 pazienti trattati con A, 13 risultano guariti, mentre dei 17 trattati con B ne risultano guariti 8.
La percentuale di guarigione per entrambe i due trattamenti è complessivamente 21/40 = 0,525 = 52,5% Con questa percentuale, costruiamo la tabella dei valori attesi:
il calcolo del c2 fornisce: c2 = (13 - 12)2/12 + (10 - 11)2/11 + (8 - 9)2/9 + (9 - 8)2/8 = 0,41 Dall'esame della tabella risulta che il valore 0,41 con 1 grado di libertà, è minore di 2.71 (P = 10%) e dunque dobbiamo accettare l'ipotesi Ho. Questo significa che non vi sono margini statistici per stabilire se il farmaco A è più efficace della terapia B. Detto diversamente, la differenza nelle guarigioni ottenute tra la terapia con A (10/23 = 56%) e con B (8/17 = 47%) ha il 90% di probabilità di essere dovuta al caso. Applicando la correzione di Yates, il valore osservato più alto deve essere ridotto di 0.5 (13 - 0,5); il valore più basso deve essere aumentato di 0.5 (8 + 0,5). Applicando la formula del chi-quadro, si ha: c2 = (12,5 - 12)2/12 + (10 - 11)2/11 + (8,5 - 9)2/9 + (9 - 8,5)2/8,5 = 0,16 con la correzione, la conclusione non cambia: rifiutiamo l'ipotesi Ho | ||||||||||||||||||||||||||||||||||||
|
esempio 3: in un campione di N = 70 unità statistiche vengono rilevati due caratteri X (reddito) ed Y (rendimento scolastico); raggruppando i valori osservati di X in 3 classi, e quelli di Y anche in 3 classi, si ottiene la seguente tabella di contingenza:
le percentuali sui totali parziali sono rispettivamente:
il calcolo del c2 fornisce: c2 = (7 - 9)2/9 + (12 - 12)2/12 + (15 - 13)2/13 + (5 - 6)2/6 + (7 - 8)2/8 + (8 - 8)2/8 + (7 - 4)2/4 + (6 - 5)2/5 + (3 - 5)2/5 = 4.29 Dall'esame della tabella risulta che il valore 1.28 con (3-1)x(3-1) = 4 gradi di libertà, è minore di 7.78 (P = 10%) e dunque dobbiamo accettare l'ipotesi Ho. Questo significa che non vi sono margini statistici per stabilire se c'è correlazione fra reddito ed rendimento scolastico. Detto diversamente, la differenza (per il campione ipotizzato) è verosimilmente dovuta al caso.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
esempio 4: in un'indagine epidemiologica si sono campionate 100 persone secondo i seguenti caratteri: A = influenzato durante l'inverno, B = generalmente usa i mezzi pubblici, ottenendo la seguente tabella:
Dopo aver costruito la tabella dei risultati attesi, il lettore può verificare che il valore di c2 è 15.59. I gradi di libertà sono (2-1)x (2-1) =1. Dalla tabelle risulta che il valore trovato è maggiore di 6.63 (P 1%). Concludiamo (per questo caso ipotetico) che ci siano una probabilità del 99% a favore delle correlazione fra l'uso dei mezzi pubblici e la probabilità di contrarre l'influenza. |
Qualsiasi test che permetta di stabilire la fiducia accordata nel rifiutare l'ipotesi nulla, non implica necessariamente una relazione di causa-effetto tra le variabili esaminate.
Frederick Mosteller (1916 - 2006), lavorando presso il Samuel Wilks's Statistical Research Group durante la II Guerra Mondiale, esaminò alcune questioni statistiche a proposito di associazione non causale. Nel corso della guerra, si era riscontrato un fatto paradossale: i bombardamenti alleati in Europa risultavano tanto più precisi quanto maggiore era il numero di caccia nemici decollati per intercettarli e quanto più intensa era la reazione della contraerea.
Però, questa curiosa correlazione era apparente... Infatti, in condizioni di cielo nuvoloso, le nuvole impedivano ai bombardieri la visibilità degli obiettivi; per la stessa ragione, la contraerea e l'azione dei caccia si dimostrava scarsamente efficace. Viceversa, in condizioni di cielo sereno, la visibilità degli obiettivi era ottimale ma la contraerea ed i caccia offrivano una forte difesa.
In conclusione, l'apparente associazione di causalità (bombardamenti più efficaci quanto più intensa era l'azione della contrarerea e più elevato il numero di caccia) era mediata dal fattore "nuvole".
Come altro esempio, possiamo citare una vecchia indagine svolta in Usa, su un campione di donne: si evidenziò una forte correlazione positiva tra l'avere il cancro ai polmoni e il portare le calze di seta.
Poiché certamente il cancro ai polmoni non induceva le donne a portare le calze di seta, potrebbe sembrare vero il contrario... In realtà, le calze di seta erano abbinate ad un comportamento sociale che imponeva anche la sigaretta e dunque la correlazione cancro ai polmoni-sigaretta era mediata da un fattore, le calze di seta, estraneo alla relazione di causalità.
Sulla scorta di questo esempi, in termini più generali, si può concludere che in presenza di un'associazione causale tra A e B, può verificarsi che in realtà entrambi dipendano da un terzo fattore X.
Per esempio, un campione studiato con bassa validità interna, può portare a correlazioni affette da bias.
| 5 | ||||
Marcello Guidotti, copyright 2003, 2005, 2007
questa pagina può essere riprodotta su qualsiasi supporto o rivista purché sia citata la fonte e l'indirizzo di questo sito (ai sensi degli artt. 2575 e 2576 cc. Legislazione sul diritto d'autore). Le fotografie sono tratte da siti web e costituiscono materiale pubblicitario, oppure sono, o possono ritenersi, di pubblico dominio purché utilizzate senza fini di lucro.