statistica descrittiva

La statistica può essere divisa in due campi di applicazione:
  1. statistica descrittiva: il suo obiettivo è ricavare da un insieme di dati raccolti in tabelle e grafici (troppo numerosi per poter essere esaminati singolarmente) alcune informazioni significative per il problema studiato;
  2. statistica inferenziale: il suo obiettivo è fornire metodi che servono ad imparare dall'esperienza, cioè a costruire modelli per passare da casi particolari al caso generale. Nella statistica inferenziale o induttiva, si usano anche tecniche del calcolo delle probabilità.

media, moda e mediana

I principali indicatori della statistica descrittiva sono:

osservazione
Il poeta romano Carlo Alberto Salustri (1871 - 1950), noto con lo pseudonimo - anagramma del proprio cognome - di Trilussa, è spesso ricordato per l'aforisma del pollo: Dalli conti che se fanno, risulta che ce tocca 'n pollo a testa. Ma si nun centra nelle spese tue, c'entra nella statistica lo stesso perché c'è 'nartro che ne magna due.

Effettivamente, se abbiamo due misurazioni, [0, 2], per esempio riferite proprio a due persone, una sola delle quali mangia due polli, la media fornisce il valore 1, e quindi risulta un pollo a testa
Questa situazione "imbarazzante", però è superabile mediante la stima fornita dalla deviazione standard e degli indicatori statistici che esamineremo nella prossima pagina.

deviazione standard

Supponiamo di aver ricavato N misure della stessa grandezza x. Con queste abbiamo poi calcolato la media. La media sembra indicare qual è, grosso modo, il valore che possiamo aspettarci scegliendo un dato a caso; in probabilità, si chiama valore atteso. Questo non è necessariamente vero in quanto, calcolata la media, i valori dei dati possono essere molto lontani da questa.

Per dare una valutazione dell'incertezza da associare a tale stima, iniziamo col considerare una prima quantità chiamata scarto o deviazione. Tale grandezza è così definita:

d = x - x media

Questa differenza fornisce una indicazione di quanto una qualsiasi misura differisce dalla media. In generale, se tutti gli scarti sono molto piccoli, le nostre misure saranno tutte vicine e quindi, presumibilmente, molto precise.
Oltre al valore numerico degli scarti, indice di precisione nelle misure, è interessante notarne il segno: le deviazioni possono essere infatti sia positive che negative a seconda che una qualsiasi delle N misure cada a destra o a sinistra della media.

Questo fatto complica un pò la situazione. Infatti, se volessimo provare a valutare l'incertezza attraverso una media dei singoli scarti, ci accorgeremmo subito che la media degli scarti è uguale a zero.

osservazionePossiamo rapidamente verificare questo fatto nel caso semplice di due misure: x1, x2;

la loro media è : x media = (x1 + x2)/2

I singoli scarti sono: d1 = x1 - x media;   d2 = x2 - x media

la somma degli scarti é: d1 + d2 = (x1 - x media) + (x2 - x media)

reggruppando: d1 + d2 = (x1 + x2) - 2x media. Essendo nullo il secondo membro, risulta d1 + d2 = 0

Non dovremmo però rimanere sorpresi per questo risultato valido in generale: la media, per definizione, è tale per cui i dati si distribuiscono sia alla sua sinistra che alla sua destra, facendo sì che la somma tra gli scarti negativi e quelli positivi sia appunto nulla.

Poiché gli scarti costituiscano un buon punto di partenza per lo studio dell'incertezza da associare alla media, per ovviare all'inconveniente legato alla loro somma, eleviamo al quadrato le singole deviazioni ottenendo tutte quantità positive e quindi in grado di essere sommate tra loro senza produrre in un risultato nullo.
Dopodiché si può passare a calcolare la media degli scarti estraendone la radice quadrata, in modo da ottenere una grandezza compatibile, a livello di unità di misura, con quella di partenza. La grandezza così ottenuta è detta deviazione standard.

(1)    deviazione standard
(2)    deviazione standard

approssimazione di una Gaussiana
Approssimazione di una Gaussiana mediante un istogramma
La deviazione standard fornisce un'indicazione numerica di quanto i dati siano vicini o lontani dalla media. L'eq. 2 si applica quando N < 20; per valori superiori, il termine sottrattivo a denominatore diventa trascurabile ed i risultati ottenuti sono coincidenti con quelli forniti dall'eq. 1

Quando i dati sperimentali sono molti, raccogliendoli in un istogramma (diagramma a barre), viene approssimano per difetto il profilo di una curva detta Gaussiana, dal nome del matematico Carl F. Gauss (1777-1855). Per una Gaussiana, è possibile dimostrare che nell'intervallo:


gaussaina 1 gaussaina 2

esempio: Disegnare l'istogramma delle frequenze (v. fig. a destra) e calcolare le stime campionarie per un paziente del quale è stati registrato il seguente numero di battiti cardiaci al minuto in un periodo di 10 giorni: [73, 72, 73, 74, 70, 76, 72, 74, 74, 73]

istogramma battiti cardiaciLe stime campionarie sono:

la media è: Sosservazioni/N = (73 + 72 + 73 + 74 + 70 + 76 + 72 + 74 + 74 + 73)/10 = 73,1

la mediana, trattandosi di un insieme costituito da osservazioni in numero pari, è data dalla media dei valori centrali:

70, 72, 72, 73, 73, 73, 74, 74, 74, 76 freccia destra (73 + 73)/2 = 73

la moda è bimodale, ed è costituita dai due valori più frequenti: 73 e 74

la deviazione standard (eq. 2) è: s = 1.59

questo significa che il 68% delle misure deve rientrare nell'intervallo (73,1 - 1,59) e (73,1 + 1,59), cioè tra + 71,5 e + 74,7. Le misure che cadono in questo intervallo sono: 72, 72, 73, 73, 73, 74, 74, 74; cioé 7 su 10.


le insidie della statistica1 2 esempi applicativi3 grafici e statistiche4
home page HOME PAGE

Marcello Guidotti, copyright 2003
questa pagina può essere riprodotta su qualsiasi supporto o rivista purché sia citata la fonte e l'indirizzo di questo sito (ai sensi degli artt. 2575 e 2576 cc. Legislazione sul diritto d'autore). Le fotografie sono tratte da siti web e sono, o possono ritenersi, di pubblico dominio purché utilizzate senza fini di lucro. Le immagini di prodotti presenti nel sito hanno unicamente valenza esemplificativa oltre che, eventualmente, illustrare messaggi fuorvianti e non vi è alcun richiamo diretto o indiretto alla loro qualità e/o efficacia il cui controllo è affidato alle autorità regolamentatorie.