metodi di campionamento

Ogni anno, per conoscere i gusti e le abitudini delle persone, si investono in Europa 8 miliardi di euro. Negli Stati uniti, la cifra è ancóra più elevata. Il numero di aziende (ma anche partiti politici, opinionionisti, programmatori televisivi, ecc.) che per prendere decisioni si affidano all'opinione delle persone - o a quella che sembra essere l'opinione delle persone - cresce continuamente. Così, quasi tutto può essere oggetto di un sondaggio e, secondo una stima per difetto, nel mondo viene condotto un sondaggio ogni due minuti: le statistiche, sono quasi costantemente presenti nei quotidiani, nei periodici, nella televisione, nella radio e, ovviamente, in Internet.

I sondaggi sono nati - negli Stati Uniti prima e sùbito dopo in Europa - con lo sviluppo del mercato di massa tanto dal punto di vista politico che da quello economico. Da quando, cioè, i consumatori divennero un soggetto fondamentale nel mercato ed era quindi importante conoscere i loro gusti, i loro interessi ed il loro comportamento. Il primo a manifestare interesse nei sondaggi - negli Usa - è stato il mondo politico. Con il diffondersi del suffragio universale era aumentata l'esigenza di scoprire come influenzare l'opinione pubblica e i sondaggi fornirono la risposta e lo strumento necessario.

Il primo sondaggio realizzato con criteri scientifici venne condotto negli Stati Uniti da Gorge Horace Gallup (1901-1984), che fondò nel 1935 l'American Institute of Public Opinion. Gallup pensò di "misurare" l'opinione pubblica a partire da un questionario indirizzato ad un campione rappresentativo di qualche migliaio di americani. In occasione delle elezioni presidenziali del 1936, la maggior parte dei giornali americani, condotti dal Literary Digest, che aveva intervistato telefonicamente più di due milioni di persone, preannunciava la netta vittoria del candidato repubblicano Alf Landon, contro Franklin D. Roosevelt. Per contro, l'Istituto Gallup, sulla base di poche migliaia di questionari, previde la vittoria di Roosevelt (54% secondo gli ultimi pronostici di Gallup). Roosevelt vinse con il 61% dei suffragi. Era nata la mistica dei sondaggi, la cui diffusione continuò ad aumentare anche quando - in occasione dell'elezione presidenziale del 1948 - Gallup preannunciò, sbagliando, la vittoria del repubblicano Dewey contro Truman.

i sondaggi: una fotografia della realtà

Un paragone spesso citato è che i risultati di un sondaggio sono una fotografia della realtà. Questo è vero, però con i limiti e i difetti di una fotografia.

fotografiaLa fotografia (v. riassunto nel riquadro) è un'approssimazione della realtà e, per parte loro, i sondaggi sono basati sull'assunto che un numero ridotto di persone possa riprodurre il pensiero dell'intera popolazione (detta universo) Questo assunto si è dimostrato spesso vero ma in altri casi (come il secondo sondaggio Dewey vs. Truman) no. Per riprendere l'analogia con la fotografia, il risultato sbagliato può dipendere da cattiva scelta del campione (messa a fuoco sul soggetto sbagliato), inadeguadezza numerica del campione rispetto all'universo (eccessiva grana della pellicola o scarsa definizione del sensore).

Nella composizione a destra: in alto a sinistra un primo piano della foto originale, che però è stata modificata aggiungendo un riflesso sul casco e un prodotto nella mano dell'astronauta.

fotografia
sondaggio
 la fotografia è bidimensionale ma la realtà è 3d  un campione non è la realtà
 la messa a fuoco sul soggetto principale, oppure un primo piano può offuscare o tagliare lo scenario retrostante: manca il contesto e la foto può portare a false conclusioni (confondere un astronauta con una pubblicità)  nei sondaggi la tipologia ed il modo in cui sono proposte le domande può cambiare il risultato
 la scelta di un'inquadratura piuttosto che un'altra può isolare un aspetto di comodo della realtà che si vuole mostrare  la scelta di un campione piuttosto che un altro può fare altrettanto
 quanto più si ingrandisce una fotografia tanto più si perdono i dettagli (questo si può compnesare con un obiettivo migliore e una grana della pellicola inferiore, oppure con un sensore a maggior definizione  un piccolo campione non riflette bene la popolazione che vuole rappresentare
 con un fotoritocco si può alterare una fotografia (l'astronauta con il riflesso sul casco e un prodotto da pubblicizzare in mano)  manipolando i dati si può suggerire un risultato diverso
 col tempo le stampe perdono la loro qualità  nel caso dei sondaggi, la durata è molto breve e può addirittura essere limitata al momento in cui sono stati fatti (v. exit-poll nelle elezioni politiche)

come si costruisce un campione

La procedura standard parte da dati Istat, facendo in modo che all'interno del campione siano rappresentate nei corretti rapporti tutte le fasce sociali e demografiche: sesso, età, grado di istruzione, residenza, lavoro, reddito. Se il sondaggio lo richiede, si possono considerare altri elementi (statura, peso, sport praticato, alimentazione). Il campione può essere rappresentativo non solo di chi vive in una Regione o uno Stato, ma anche di una categoria: lavoratori dipendenti, avvocati, gelatai, ecc.

formazione di un sondaggio

Se dai dati Istat, si ricava, per esempio, che la percentuale di laureati è C% della popolazione, in un campione composta da N = 100 persone, le persone caratterizzate da questo indicatore dovranno essere C/N.

esempio: posto che in Italia, il 5% della popolazione è laureato, allora un campione di 100 persone dovrà comprendere 5 laureati; le altre classi costitutive saranno presenti seguendo lo stesso criterio.

La dimensione del campione può variare, ma l'esperienza suggerisce che un sondaggio condotto su meno di 500 persone è poco affidabile (1000 è senz'altro un campione migliore), e sorprendentemente - se il campione è scelto con criterio - la sua consistenza numerica è indipendente dall'universo di riferimento.

Modalità di selezione del campione

Il criterio guida di un buon campionamento, in linea teorica e a prescindere dai costi, prevede che ciascun membro della popolazione abbia la stessa probabilità di essere scelto. In tal caso il campione viene detto "randomizzato" o "casuale". Un campionamento randomizzato offre il vantaggio di essere privo di errori sistematici (bias = distorsione) e consente di accertare rigorosamente l'attendibilità dei risultati o, per meglio dire, i rapporti fra i risultati forniti dal campione e la vera caratteristica della popolazione.
In realtà, nella pratica dei sondaggi di opinione e delle ricerche di mercato l'attuale normativa prevede che vengano usati anche gli approcci non probabilistici. E la preferenza ai vari tipi di campionamento avviene in base alle proprietà degli stimatori di alcuni parametri oppure per tener conto di problemi di costo, mobilità o altro.

Due fattori sono determinanti: la formulazione delle domande e delle risposte (che possono indirizzare le opinioni di chi risponde al questionario) e la modalità con cui vengono svolte le interviste. Esistono delle tecniche relative all'uso del linguaggio che studiano la composizione delle frasi in modo da renderle il più possibile neutre, oppure accentuare più o meno un elemento.
Per esempio, una domanda del tipo: "è d'accordo per un aumento delle piscine comunali?" potrebbe riscuotere un certo consenso in mancanza di alternative, ma il consenso sarebbe probabilmente minore se la domanda fosse formulata così: "è d'accordo ad un aumento della tassa sui rifiuti urbani se aumenta il numero delle piscine comunali?"

campionamento non probabilistico

Il campionamento non probabilistico non fornisce a ciascuna unità della popolazione la stessa occasione di essere scelta a far parte del campione, ma alcuni gruppi o individui hanno maggiore probabilità di essere scelti, pertanto il campionamento non probabilistico è da considerare un metodo abbastanza critico a meno di giustificazioni ragionevoli.

Questo metodo, infatti, prevede la selezione del campione in base a criteri di comodo o di praticità: per esempio perché gli elementi da campionare sono più facilmente accessibili, o per ragioni di costo, o perché in una certa zona sono disponibili volontari ecc. Un campione selezionato con questi criteri di comodo, sebbene abbia il vantaggio della rapidità, essendo soggetto ad un forte bias, può fornire dati poco affidabili e può essere facilmente viziato da errori sistematici.

esempio 1: in un sondaggio di opinioni all'interno di una piccola azienda con 200 impiegati si vuole studiare la valutazione attribuita alla qualità della mensa. A questo scopo si decide di esaminare un campione composto da 20 persone. Per motivi di convenienza, si intervistano le prime 20 persone che si presentano in sala mensa. Questo criterio é molto pratico, in quanto non bisogna attendere l'arrivo di tutti i dipendenti; tuttavia, si esamineranno impiegati di livello più basso: i dipendenti più impegnati o comunque meno "affamati" non entreranno a far parte del campione. Questo campione, è dunque viziato da un errore sistematico. D'altra parte, l'errore si sarebbe evitato scegliendo una persona ogni 8 - 10 fra quelle che varcano la porta d'uscita.

esempio 2: un classico esempio di cattivo uso del campionamento si presentò durante le elezioni presidenziali Usa del 1936. La rivista Literary Digest studiò un sondaggio elettorale nel 1932, con un risultato molto accurato; così, ripropose il sondaggio per le elezioni del 1936 utilizzando la stessa metodologia. I loro risultati davano Alf Landon vincente contro Franklin Roosevelt con un margine elettorale di 370 voti contro 161. I risultati reali furono un pò differenti... 523 contro 8!

Cos'era accaduto? Il sondaggio era stato fatto utilizzando un campione di utenti telefonici. Un campionamento che non avrebbe dovuto dare problemi. Tuttavia, nel 1929 il mercato azionario era crollato dando inizio alla depressione. Dal 1932, le cose iniziarono ad andare male, ma non troppo male. Dal 1936, le cose andarono realmente male. La popolazione aveva rinunciato alla cose non necessarie come gli abbonamenti alle riviste e l'uso del telefono. Solo i ricchi potevano permettersi simili lussi. Però, negli anni '30 i ricchi votavano tendenzialmente per i Repubblicani e quindi era naturale che un sondaggio vedesse vincente un candidato repubblicano.

esempio 3: nel 1948 l'Istituto Gallup sbagliò la previsione pronosticando la sconfitta di Harry Truman. In questo caso Gallup attribuì l'errore al fatto di aver concluso le interviste 3 settimane prima del voto supponendo che dato il consistente margine di vantaggio di Dewey non potessero esserci cambiamenti significativi. Nelle poche settimane precedenti al voto, però, una parte degli indecisi si schierò a sostegno di Truman, mentre una parte dei sostenitori di Dewey decise di non recarsi al voto dando per certa la vittoria del proprio candidato in base al risultato dei sondaggi: per questo che la previsione di Gallup fu smentita dai fatti.

campionamento per randomizzazione semplice

Il campionamento per randomizzazione semplice si effettua estraendo una certa quota di unità dalla popolazione attraverso un metodo che garantisce la casualità delle estrazioni. Questa viene ottenuta, ad esempio, con il classico sistema dell'estrazione di un numero, come avviene nel gioco del bingo, oppure - più comunemente - si utilizza un computer con un generatore di numeri casuali.

osservazione
Occorre prestare attenzione al fatto che anche un campione casuale, particolarmente nella sperimentazioni clinica, non può essere considerato esente da errori: le persone non sono oggetti e la loro variabilità biologica rende il campione intrinsecamente affetto da bias (basti pensare a come è definita la DE50 e alla necessità di farmacovigilanza)

La randomizzazione semplice (come, d'altra parte, altri metodi di campionamento) è un metodo valido per il campionamento in medicina; essa offre due vantaggi:

campionamento per randomizzazione semplice
campionamento per randomizzazione semplice effettuato tra i degenti di un reparto ospedaliero. Le unità campionarie sono scelte a caso con l'estrazione di numeri corrispondenti al numero di ogni letto.

Ovviamente vi sono situazioni in cui il campionamento per randomizzazione semplice risulta poco pratico se non addirittura inapplicabile. Infatti, il principale svantaggio è quello di richiedere la preventiva numerazione di tutti i soggetti; successivamente è necessario individuare nella popolazione quelli corrispondenti ai numeri estratti. La scarsa applicabilità di questo metodo può essere ben evidenziata con un esempio.

esempio: supponiamo di voler controllare il tempo di disaggregazione di un campione di 100 compresse da estrarre con randomizzazione semplice da un lotto di 4000 compresse. La procedura richiederà la numerazione da 1 a 4000 di tutte le compresse (per esempio con una matita), l'estrazione dei 100 numeri casuali e la selezione delle 100 compresse corrispondenti. Queste operazioni necessitano di risorse preziose e costose quali tempo e mano d'opera e nella pratica non sono applicabili.

Il campionamento per randomizzazione semplice è di facile applicazione quando si dispone di una popolazione già numerata e composta di un numero non elevato di unità.

campionamento per randomizzazione sistematica

Nel campionamento per randomizzazione sistematica le n unità che costituiranno il campione sono scelte dalla popolazione ad intervalli regolari: per esempio, in un reparto ospedaliero si potrà scegliere un soggetto ogni 4 degenti. Questo metodo è più pratico rispetto alla randomizzazione semplice, ed assicura anche che le singole unità del campione siano distribuite uniformemente all'interno della popolazione.
Occorre tuttavia porre attenzione che l'intervallo di campionamento prescelto non sia influenzato da qualche variabile esterna che agisce con la stessa ciclicità del campionamento.

esempio: si vuole stimare il livello di contaminazione batterica di un reparto di inflaconamento, ed in particolare osservare se esso subisce variazioni nel tempo. Procediamo quindi al prelievo di materiali diversi (tamponi da filtri dell'aria, dai pavimenti, dalle macchine, ecc.) attraverso randomizzazione sistematica effettuata per due settimane in base al giorno della settimana: i prelievi vengono fatti i giorni dispari: lunedì, mercoledì e venerdì. Tuttavia, nel reparto ogni sabato viene effettuata un'operazione di pulizia e disinfezione particolarmente energica. Pertanto, il campione costituito dai «tamponi del lunedì» non è rappresentativo.


campionamento per randomizzazione stratificata

Il campionamento per randomizzazione stratificata trova applicazione quando si studia un carattere che, presumibilmente o notoriamente, è influenzato da un certo fattore presente nella popolazione.
In pratica, prima di effettuare l'estrazione del campione la popolazione viene suddivisa in strati basati sul fattore che influenza il livello del carattere da studiare. Quindi, all'interno di ciascuno strato si sceglie un campione con il metodo della randomizzazione semplice o sistematica.

campionamento per randomizzazione stratificata
campionamento per randomizzazione stratificata effettuato tra i degenti di due reparti ospedalieri (le unità, sebbene selezionate in due reparti differenti, costituiscono le stesso campione).

Il campionamento con randomizzazione stratificata è più flessibile di quello eseguito con randomizzazione semplice in quanto nei diversi strati può essere scelta una percentuale differente (es. 10% in uno strato, 5% in un altro ecc.). Lo svantaggio del campionamento stratificato è che lo stato di tutte le unità di campionamento, rispetto ai fattori su cui è basata la stratificazione, deve essere noto prima di scegliere il campione.

esempio: supponiamo di voler studiare, dopo un anno dal suo inserimento nel mercato farmaceutico, la penetrazione presso la classe medica di un farmaco A concorrente di un noto farmaco B. Lo studio, effettuato in una grande città, mostra che la diffusione di B (da più tempo sul mercato e di buona efficacia) è superiore rispetto ad A.
Supponiamo inoltre di conoscere che il rapporto numerico fra le farmacie "di quartiere" (dove la clientela è quasi sempre la stessa) e "di passaggio" (situate in zone centrali o vie discretamente trafficate, dove il fruitore è anche occasionale) sia 9/1 ; allora, dovremo scegliere un campione di farmacie in due "strati" che rispettino la proporzione esistente nel mercato: un campione di 50 farmacie composto da 45 farmacie di quartiere e 5 farmacie di passaggio.

Il campionamento dovrebbe essere effettuato direttamente presso i grossisti, in quanto possono fornire il rendiconto della consistenza degli ordini effettuati dalle 50 farmacie scelte. Il dato ricavato dovrebbe permettere una prima risposta al problema: cosa hanno di particolare le farmacie dove si concentra la maggior parte delle prescrizioni di A? Sono "farmacie di quartiere", oppure "farmacie di passaggio"?

primo caso: la maggior parte delle prescrizioni si concentra in farmacie di quartiere. Questo significa che l'informazione presso la classe medica per il nuovo farmaco, A, non è capillare (l'informazione è stata recepita da pochi medici) ed occorre aumentare il numero di informatori o la frequenza delle interviste.
secondo caso: le prescrizioni sono equamente distribuite fra le due tipologie di farmacie. Questo significa che gli informatori intervistano medici omogeneamente distribuiti nelle varie parti della città. D'altra parte, poiché le prescrizioni di A sono minori di quelle di B, il "problema" dovrà essere affrontato con una diversa impostazione: per esempio, associare la prescrizione di A ad una specifica indicazione terapeutica meno ricordata dal farmaco B; verificare il numero di informatori e la ciclicità delle interviste al medico rispetto alla concorrenza.


scopi del campionamento1 2 errori di campionamento3 variabilità di una stima4 test di significatività5 teorema di Bayes6 meta-analisi7
home page HOME PAGE

Marcello Guidotti, copyright 2003-2005-2007
questa pagina può essere riprodotta su qualsiasi supporto o rivista purché sia citata la fonte e l'indirizzo di questo sito (ai sensi degli artt. 2575 e 2576 cc. Legislazione sul diritto d'autore). Le fotografie sono tratte da siti web e sono, o possono ritenersi, di pubblico dominio purché utilizzate senza fini di lucro. Le immagini di prodotti presenti nel sito hanno unicamente valenza esemplificativa oltre che, eventualmente, illustrare messaggi fuorvianti e non vi è alcun richiamo diretto o indiretto alla loro qualità e/o efficacia il cui controllo è affidato alle autorità regolamentatorie.