LA REGRESSIONE LINEARE SEMPLICE

 

 

16.15INDICI DELLA CAPACITA’ PREDITTIVA DELLA REGRESSIONE: , , ,  E LORO SIGNIFICATIVITA’.

 

 

Il test  e il test  servono per verificare se al variare della  si abbia anche una variazione di tipo lineare del valore della ; quindi se la relazione tra le due variabili può essere espressa da una retta. Per questo sono chiamati test per la linearità. Ma essi non danno informazioni sulla intensità della relazione, in merito alla

- quantità d’informazione sulla variabile  che si ricava dalla conoscenza del valore della .

 

Questa valutazione è possibile mediante altri criteri, tra loro differenti e che evidenziano aspetti diversi della regressione. Pertanto, questi indici possono essere utilizzati separatamente. Sono impiegati in modo simultaneo, quando si vuole ottenere una risposta più completa e dettagliata. Nel caso della regressione lineare semplice, gli indici sono:

A -  il coefficiente di determinazione (coefficient of determination): ,

B – il coefficiente di determinazione aggiustato (adjusted R-square):  

C - l’errore standard (standard error): e/o  la varianza residua (residual variance):  

D - la PRESS (Predicted Residual Error Sum of Squares).

 

A -  Il coefficiente di determinazione (coefficient of determination) R2 (R-square indicato in alcuni testi e in molti programmi informatici anche con R oppure r2) è la

- proporzione di variazione totale della variabile dipendente  che è spiegata dalla variabile indipendente .

Più recentemente, alcuni testi consigliano di distinguere tra

-  r2 il coefficiente di determinazione semplice,

-  R2 il coefficiente di determinazione multiplo,

 anche se tale distinzione è applicata raramente, in particolare nei programmi informatici.

 

In un campione di  dati, è

il rapporto tra la devianza dovuta alla regressione  e la devianza totale

 

 

o, calcolata per differenza,

-  la differenza da 1 del rapporto tra la devianza d’errore e quella totale

 

 

Espresso a volte in percentuale, più spesso con un indice che varia da 0 a 1,

- R2 serve per misurare quanto della variabile dipendente Y sia predetto dalla variabile indipendente X;

- quindi, per valutare l’utilità dell’equazione di regressione nella previsione dei valori della Y.

Il valore del coefficiente di determinazione  

- è uguale a 0, quando le due variabili sono completamente indipendenti.

 

E’ tanto più elevato quanto più la retta passa vicino ai punti osservati, fino a

- raggiungere 1 quando tutti i punti sperimentali sono collocati esattamente sulla retta.

In questo caso, infatti, ogni  osservato può essere predetto con precisione totale dal corrispondente valore di .

Nella ricerca ambientale e in molti settori delle ricerca biologica, data l’ampia variabilità delle risposte individuali agli stessi stimoli, è prassi diffusa che la determinazione possa essere ritenuta buona (in linguaggio tecnico, il modello ha un buon fitting con in valori sperimentali),

-  quando R2 supera 0,6 (o 60%).

In realtà, è una indicazione molto approssimata, che può generare interpretazioni errate.

La valutazione della significatività del valore di R2 calcolato su una regressione, è in stretto rapporto con la disciplina studiata e il settore nel quale è applicata. Ad esempio, i sociologi spesso ritengono alto un valore di R2 = 0,30 mentre i fisici stimano basso un R2 = 0,98.

 

R2 è una misura che ha scopi descrittivi del campione raccolto; non è legata ad inferenze statistiche, ma a scopi pratici, specifici dell'uso della regressione come metodo per prevedere conoscendo .

Per meglio spiegare il concetto, è utile un esempio.

In una città, per valutare l’inquinamento atmosferico sono state prese misure della concentrazione di N02 con una serie di rilevatori. Per evitare variazioni indotte dal traffico (quale la sosta prolungata di uno o più automezzi con il motore acceso) e manomissioni da parte dei passanti, tali strumenti di rilevazione sono stati collocati a 12 metri di altezza. All’obiezione che per le persone comunque sono importanti le concentrazioni che  respirano, quindi presenti ad un altezza dal suolo tra metri 1 e 1,8 e non certo a 12 metri, con alcune rilevazioni di confronto è stata fatta una regressione lineare. Mediante essa, a partire dal valore dell’inquinamento a 12 metri (X), era stimato il valore presente a 1,5 metri (Y).

L’errore di stima appariva trascurabile per una disciplina ambientale, poiché R2 risultava uguale a circa 0,92. Purtroppo, in molte stazioni, il valore stimato risultava intorno a 9,6 quando i limiti di legge, oltre i quali scattano misure di riduzione del traffico, erano posti a 10. Con un errore di 0,08 o 8% nello stimare il valore al suolo (in valore assoluto pari a 0,77 rispetto al valore stimato di 9,6) diventa impossibile decidere se i limiti di legge sono stati effettivamente  superati oppure no.

In questo caso, il valore di R2, seppure oggettivamente molto alto, era troppo piccolo per ottenere una stima abbastanza precisa, richiesta dalle condizioni sperimentali e dalla interpretazione legale dei risultati. Ovviamente, se i valori stimati fossero stati sensibilmente inferiori o maggiori dei limiti di legge, anche un R2 inferiore a 0,9 sarebbe stato un risultato ottimo.


 

Il valore di R ha una significatività disciplinare, non statistica.

E’ quindi il ricercatore esperto della singola disciplina alla quale è applicata l’analisi statistica che deve valutare se l’errore commesso nel caso specifico è accettabile oppure troppo grande.

 

Anche in questo caso è valido quanto scritto nel 1988 da James O. Westgard nell’articolo Points of care in using statistics in methods comparisons studies (editoriale della rivista Clinical Chemistry, Vol. 44, No. 11, pp.: 2240-2242, a pag. 2240) sull’importanza da attribuire al risultato statistico: The statistics do not directly tell you whether the method is acceptable; rather they provide estimates of errors that allow you to judge the acceptabilility of a method. You do this by comparing the amount of error observed with the amount of error that be allowable without compromising the medical use and interpretation of the test result. Methods performance is judged acceptable when the observed error is smaller than the defined allowable error. Method performance is not acceptable when the observed error is larger the allowable error. The decision-making process can be facilitated by mathematical criteria or by graphic tools.

 

B -  Benché i testi di statistica evidenzino la funzione descrittiva dell’indice R2, riferito limitatamente ai dati del campione, in alcune condizioni ad esso viene attribuito anche un significato generale di predittività della variabile  sulla base di generici valori. Quindi non è utilizzato solo per descrivere il caso sperimentale, ma è esteso a una valutazione generale della

-  capacità predittiva generale della relazione esistente tra le due variabili.

 

A questo scopo, è stato proposto un  corretto, chiamato più frequentemente  aggiustato (  adjusted o ) e ottenuto

 dalla formula generale

 =

 dove

  è il numero di coppie di dati od individui misurati,

  è il numero di variabili (nel caso della regressione lineare semplice p = 1).

 

Nel caso della regressione lineare semplice, quindi con una sola variabile indipendente,

 la formula semplificata diventa

 = 


 

In altri testi, la formula per il calcolo di R2adj da R2

 è riportata come

 dove, nella regressione lineare semplice,

 i gdl dell’errore sono N-2

Dalla semplice lettura della formula si evidenzia che  < .

 

ESEMPIO.   Con le 7 osservazioni su peso ed altezza, il coefficiente di determinazione

 

 è  = 0,797.

Questo risultato indica che,

-   noto il valore dell'altezza,

-  nel caso dei 7 dati utilizzati il valore del peso è stimato mediante la retta di regressione con una approssimazione di circa l'80 per cento (79,7%). Il restante 0,2 (oppure 20% ) è determinato dalla variabilità dei valori sperimentali rispetto alla retta.

 

Per una applicazione di quella retta a scopi predittivi, estesa all’universo delle relazioni tra peso ed altezza nella popolazione dalla quale sono stati estratti i 7 individui del campione, è più corretto utilizzare  il cui valore

 

-  sia con la prima formula

 =   = 0,797 -  0,797 – 0,0406 = 0,7564

 

-  sia con la seconda

 

1 - 0,2436  = 0,7564

 risulta  = 0,7564.


 

C – L’errore standard  o la varianza residua  (residual variance, residual mean square) è la quantità che è resa minima nel calcolo del coefficiente angolare . Ha quindi un ruolo fondamentale nella regressione lineare.

Seppure sotto forma di devianza , è al numeratore nel calcolo di  e quindi fornisce, almeno in parte, anche questa informazione.

E’ al denominatore nel test  sulla linearità.

Tanto minore è il valore dell’errore standard o della varianza residua, tanto maggiore è la significatività della regressione e la capacità predittiva della retta.

 

D – La Predicted Residual Error Sum of Squares, abbreviata in  è un altro indice della capacità predittiva della retta di regressione. E’ molto meno utilizzato di  e quasi mai è riportato nei programmi informatici sulla regressione lineare semplice. Il suo uso è più frequente nella regressione multipla.

Questo indice è costruito su un principio simile a quello della distanza di Cook (Cook’s distance statistic) che, discussa nei paragrafi dedicati all’outlier nella statistica bivariata, è una misura normalizzata di

quale sia il peso di una singola coppia di dati sul valore della regressione calcolata su tutti i dati.

Per ricavare la , dal campione raccolto

-  si toglie un primo punto (), prima di calcolare i coefficienti della regressione;

-  con questa retta, si stima il valore di  atteso per lo stesso valore di , che può essere indicato con  ;

-  per differenza si ricava il prediction error o PRESS residual

 che è

 

Il procedimento è ripetuto un secondo punto (), dopo aver reimmesso il primo nel campione. Con i coefficienti della regressione calcolati senza questo secondo punto,

- si stima il valore di  atteso per lo stesso valore di , che può essere indicato con  ;

-  per differenza si ricava il prediction error o PRESS residual  di questo secondo punto

 che è


 

Con tutti gli  punti del campione,

si ottiene la Press statistic

 

Ha capacità predittiva migliore la retta che ha la  minore.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007