il metodo dei minimi quadrati

metodo dei minimi quadratiData una certa distribuzione di dati sperimentali, supponiamo che questa possa essere approssimata da una retta che, in qualche modo, sia allineabile fra detti punti. Per esempio, nella figura a destra, fra i punti sperimentali (colorati in rosso) possono essere collocate diverse rette (per es. in blu, in verde e violetto); tuttavia, la scelta "ad occhio" non garantisce che sia la migliore e, soprattutto, la ripetibilità della retta individuata: altri sperimentatori sceglierebbero una retta differente. Per questa ragione, si ricorre ad un metodo matematico oggettivo, che prende il nome di metodo dei minimi quadrati.

metodo dei minimi quadratiIl criterio su cui si basa l'individuazione della retta di regressione è abbastanza intuitivo. Si parte dall'ipotesi ragionevole che la retta migliore sia quella che ha distanza minore (quella parallela all'asse delle ordinate) da tutti i punti del diagramma. Questa retta si ottiene costruendo, per ogni punto sperimentale, un quadrato che ha un lato costituito dalla distanza verticale (ordinata) del punto dalla retta (v. figura a destra). Si ripete quindi il procedimento per ogni punto del grafico (per chiarezza, in figura non sono mostrati tutti i quadrati) e si sommano le aree di tutti i quadrati. La retta che approssima meglio la distribuzione dei punti è quella che determina la minore superficie dei quadrati (di qui il termine "metodo dei minimi quadrati"). Il calcolo dei quadrati č necessario perché se il procedimento si basasse sull'uso diretto delle distanze dei punti dalla retta ideale, si perderebbe accuratezza in quanto le ordinate negative si sottrarrebbero a quelle positive. Il procedimento descritto, sebbene sia possibile con metodi manuali, è piuttosto laborioso e quindi si utilizzano programmi per computer, analoghi a quello qui proposto.

la curva migliore non è lineareE' bene chiarire che i dati sperimentali possono essere approssimati anche con funzioni matematiche polinomiali: questo è necessario quando i dati non sono distribuiti in modo lineare, ma seguono un andamento curvilineo come quello riportato nella figura a sinistra. Anche in questo caso, si utilizza un programma che permette di scegliere i coefficienti e le potenze dei termini polinomiali in modo da trovare la curva che meglio si inserisce tra i dati sperimentali.

uso del calcolatore

Dopo aver aperto la nuova finestra, potete ridimensionarla per adattarla allo schermo del vostro monitor. Di séguito sono fornite alcune spiegazioni; tenete conto che questo calcolatore è limitato alla regressione lineare.

La linea punteggiata in rosso rappresenta la migliore approssimazione dei dati con una retta ottenuta mediante regressione lineare. La pendenza, l'intercetta e r2 (il quadrato del coefficiente di correlazione) sono riportati sotto il grafico. Il quadrato di r è un'indicazione della bontà con cui con cui sono correlati i valori di x e y. Una perfetta correlazione dovrebbe dare un valore di r2 = 1; al contrario, un valore vicino allo zero indica una correlazione dubbia.

il coefficiente di correlazione, r :

il quadrato del coefficiente di correlazione, r2 indica la misura percentuale di quanto r sia realistico. Per esempio, se r = 0,5 allora r2 = 0,25 e quindi al 25% la variazione di una variabile (y) dipende dall'altra (x). Se r = 0,7 allora r2 = 0,49 e quindi al 49% una variabile dipende dall'altra. Se r = 0,9 allora al 81% una variabile dipende dall'altra.

Il coefficiente di correlazione non è un buona misura dell'esistenza di un legame (correlazione) tra due variabili quando la loro distribuzione non segue un andamento lineare.

Le linee punteggiate in verde mostra un 90% dell'intervallo di confidenza della media. Si può riporre fiducia al 90% che la vera media sia compresa tra le linee verdi. Vista come un singolo intervallo di confidenza, si può stimare con una fiducia del 95% che la media vera sia sotto la linea verde superiore, o che la media vera si sopra la linea retta inferiore.

Una previsione per un valore di y esterno ai dati sperimentali può essere ottenuta introducendo un valore di x nel box in basso a sinistra e cliccando su Replot! Il valore medio previsto per y è compreso nell'intervallo di confidenza del 90% definito dalle due linee punteggiate in verde.


Marcello Guidotti, copyright 2008
www.galenotech.org