statistica inferenziale: variabilità di una stima

variabilità di una stima

Dopo aver estratto un campione probabilistico da una popolazione, si procede alla misurazione, su tutti i componenti, dei parametri che interessano. Alla fine della nostra indagine, conosceremo esattamente le caratteristiche studiate di tutte le unità che compongono il campione; tuttavia, potremo soltanto stimare le caratteristiche delle altre unità della popolazione da cui essi provengono.

esempio 1: è necessario valutare la copertura anticorpale per il virus dell'influenza in un centro sociale per anziani composto da 200 ospiti. Viene prelevato un campione di sangue da 20 soggetti presi a caso, e poi, sul siero, si effettua la titolazione degli anticorpi. Dei 20 soggetti, 18 (90%) risultano provvisti di un titolo tale da farli ritenere "protetti"; pertanto, stimiamo che il 90% degli ospiti del centro sociale siano protetti.

I risultati delle misurazioni effettuate sul campione esaminato non hanno un interesse intrinseco, bensì perché possono essere estesi, ovverosia generalizzati alla popolazione dalla quale è stato estratto il campione.
Ovviamente questo processo di generalizzazione, detto inferenza, è sempre associato ad una qualche percentuale di errore, in quanto il campione non potrà mai essere perfettamente rappresentativo della popolazione da cui è stato estratto. Pertanto, attraverso la misura ottenuta dal campione potremo unicamente ottenere una stima della "vera" misura della popolazione.
E' intuitivo che il numero di unità che compongono il campione (cioè la sua dimensione) è uno dei fattori più importanti che influisce sulla precisione della stima: campioni di grandi dimensioni permettono stime più precise

esempio 2: riprendendo l'esempio precedente (1), se avessimo selezionato un campione di 40 ospiti, avremmo ottenuto una stima molto più accurata. D'altra parte, se avessimo effettuato l'indagine su un campione composto soltanto da 10 ospiti, avremmo ottenuto una stima molto meno accurata.

osservazione
Una stima costituisce una valutazione approssimativa: per definizione, non può essere esatta; però, se il campione è stato selezionato con una metodica corretta (randomizzazione), ne potremo stabilire la variabilità, ossia i limiti probabili di variazione.

esempio: si è somministrato un farmaco ad un campione randomizzato di 20 individui, su 12 di questi, il farmaco ha dato risultati soddisfacenti.
indicando con p(t +) la precentuale di positività del campione, si ha:

Dal calcolo risulta che la positività del campione è pari a 0,60. Poiché il campione è randomizzato, si suppone che non siano presenti fonti di distorsione (bias) e quindi può considerarsi rappresentativo della popolazione-oggetto. Dunque, sarà ragionevole assumere che anche nella popolazione la positività sia pari a 0,60
D'altra parte, la misura del campione, per quanto ben costruito, è influenzata dal cosiddetto errore di campionamento, di cui possiamo stimare i limiti; a tale scopo, si calcola la varianza e, da questa, l'errore standard. Quest'ultimo rappresenta un indice della variabilità della nostra misura.
la varianza del campione è calcolata come segue:
calcolo varianza campione
l'errore standard è:

con la correzione precedente, la stima per la popolazione, P(T+), fornisce:

limiti fiduciali
Questo significa che l'attendibilità con cui studiando il campione, p(t+), inferiamo la positività della popolazione, P(T+), è compresa in un intervallo di ± 10%
Evidentemente questo risultato non è certo soddisfacente in quanto la variabilità con cui stimiamo l'efficacia del farmaco rientra in un limite inferiore decisamente basso. Dunque, in questo caso il farmaco sembrerebbe poco efficace e, per una decisione conclusiva, si dovrà valutare l'eventualità (si può anche fare un confronto con i risultati prodotti da altri farmaci normalmente usati per lo stesso tipo di infezione) di estendere la sperimentazione ad un maggior numero di unità in modo da aumentare la consistenza del campione.

errore standard e limiti fiduciali

Mentre la variabilità di una misura è indicata dalla deviazione standard, la variabilità di un valore statistico (es. una percentuale, una media ecc.) è indicata dall'errore standard.
L'errore standard è un numero che è direttamente correlato alla variabilità della misura ottenuta: tanto più piccolo è l'errore standard, tanto minore è la variabilità della misura e quindi tanto più attendibile è la statistica.

Dopo aver introdotto il concetto di errore standard, si tratta di precisarne l'utilità. Nell'esempio precedente, l'efficacia di un certo farmaco portava a concludere che può essere risolutivo da un minimo di 50 casi su cento ad un massimo di 70 casi su cento. Però, questo risultato è riferito al particolare campione studiato. Se vogliamo generalizzare questa conclusione, occorre calcolare quelli che sono definiti limiti fiduciali ed i relativi intervalli di confidenza.

L'errore standard rappresenta un parametro fondamentale che viene comunemente impiegato per il calcolo dei limiti fiduciali (inferiore e superiore) tra i quali è compreso l'intervallo di confidenza. I limiti fiduciali sono molto utili per avere un'idea della vera caratteristica della popolazione che stimiamo tramite un campione.

Il limite fiduciale può essere fissato al livello di probabilità desiderato; comunemente si utilizza un limite fiduciale pari a 0,95 o 0,99, che espressi in termini di probabilità percentuale, corrispondono a "limite fiduciale 95%" o "limite fiduciale 99%".
Le espressioni "intervallo di confidenza 95%" o "limite fiduciale 95%" implicano che vi é una probabilità del 95% che l'intervallo trovato includa la vera caratteristica della popolazione.

Per campioni ragionevolmente ampi (almeno 50-60 osservazioni), i limiti fiduciali 95% possono essere espressi come: valore statistico ± 2 volte l'errore standard.

limiti fiduciali

Nell'esempio sopra esaminato di calcolo della variabilità di una stima su un gruppo di pazienti, il valore statistico trovato era pari a 0,60 e l'errore standard era di 0,1. Pertanto, la vera positività nella popolazione è compresa fra [0,60 - 0,10] e [0,60 + 0,10].

Il limite fiduciale 95% di una popolazione può essere stimato con la seguente formula, in cui p è la positività - espressa in percentuale - osservata ed n è il numero di unità del campione.

esempio di calcolo

In conclusione, possiamo affermare che abbiamo una probabilità del 95% che la percentuale di positività nella popolazione sia compresa fra 38 [(0,60-0,22)·100] e 82 (si noti che questa stima può non essere del tutto attendibile in quanto il campione era composto soltanto da 20 individui).

In altri termini, se ripetessimo la stessa indagine per 100 volte con gli stessi metodi (ma su 100 campioni diversi), verosimilmente otterremmo ogni volta una stima diversa; tuttavia, il vero valore della popolazione si troverebbe all'interno del nostro intervallo di confidenza 95 volte su 100 (in pratica otterremmo percentuali di positività in un minimo di 38 individui ed un massimo di 82).

intervallo di confidenza Per calcolare correttamente i limiti fiduciali al 95%, avremmo dovuto effettuare la sperimentazione su un campione di 50 individui, e supponendo di aver ottenuto anche in questo caso p(t+)=60%, i limiti (con N = 50 invece di 20) sarebbero risultati pari 0.6 ± 2 · 0.07, corrispondenti ad un intervallo fra 46 e 74 individui.

1	2	3	4	5	6	7
HOME PAGE

Marcello Guidotti, copyright 2003-2006-2011
questa pagina può essere riprodotta su qualsiasi supporto o rivista purché sia citata la fonte e l'indirizzo di questo sito (ai sensi degli artt. 2575 e 2576 cc. Legislazione sul diritto d'autore). Le fotografie sono tratte da siti web e sono, o possono ritenersi, di pubblico dominio purché utilizzate senza fini di lucro. Le immagini di prodotti presenti nel sito hanno unicamente valenza esemplificativa oltre che, eventualmente, illustrare messaggi fuorvianti e non vi è alcun richiamo diretto o indiretto alla loro qualità e/o efficacia il cui controllo è affidato alle autorità regolamentatorie.