LA REGRESSIONE LINEARE MODELLO II  E LEAST-PRODUCTS.

IL CONFRONTO TRA DUE METODI QUANTITATIVI.

 

 

 

24.2   LA RETTA DEL COEFFICIENTE ANGOLARE DELL’ASSE MAGGIORE.

 

 

Come è stato sviluppato più ampiamente nel capitolo sulla correlazione,

quando si dispone di due variabili (X e Y),

-  con dati campionari che sono rappresentati nel diagramma di dispersione come punti compresi entro un piano cartesiano circoscritto dall’ellissoide,

 è possibile calcolare

-  due rette di regressione, non più una sola.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


La prima è la retta di regressione

 

 che, come nella prassi, assume la X come variabile indipendente o predittiva e la Y come variabile dipendente o predetta.

L’intercetta  e il coefficiente angolare  sono rappresentati rispettivamente con

-  oppure, meno frequentemente,

-  oppure, meno frequentemente,

 per indicare che la è stata assunta come variabile dipendente e la  come variabile indipendente.


 

Se venisse calcolata con i dati rappresentati dall’ellissoide nel diagramma di dispersione, tale retta

-  coinciderebbe con quella descritta dalla serie dei punti vuoti rappresentata da Y/X.

E’ chiamata retta di Y su X, passa dal baricentro, il punto d’incontro delle  medie ( e ) delle due variabili, ma non coincide con l’asse maggiore dell’ellissoide, essendo più spostata verso la media  della variabile dipendente.

 

La seconda retta è ricavata scambiando tra loro le variabili X e Y:

Per distinguerla dalla precedente, l’intercetta  e il coefficiente angolare  sono rappresentati rispettivamente con

-  oppure, meno frequentemente,

-  oppure, meno frequentemente,

 per indicare che la è stata assunta come variabile dipendente e la  come variabile indipendente.

 

Nella formula della retta, i valori di questa intercetta  e del suo coefficiente angolare  sono diversi da quelli della retta precedente, anche se qui per semplicità sono impiegati gli stessi simboli.

Rappresentata nello stesso grafico precedente, questa ultima retta

-  coinciderebbe con quella descritta dalla serie dei punti pieni rappresentata da X/Y.  

E’ detta retta di X su Y.

Anch'essa attraversa il baricentro, ma non coincide con l’asse maggiore dell’ellissoide. In modo simmetrico alla prima, in questo caso è più spostata verso la , la media della nuova variabile dipendente.

 

Le due rette sono tra loro tanto più differenti, quanto più ampio è l’asse minore, perpendicolare all’asse principale.

Per trovare un numero solo che fornisca una misura sintetica della relazione esistente tra le due variabili X e Y, è possibile utilizzare la correlazione

 

 

 che concettualmente è fondata sulla media geometrica dei due differenti coefficienti angolari, calcolati con le due diverse rette.

Tale metodo è stato ampiamente discusso nel capitolo sulla correlazione.


 

Un altro metodo per ricavare un indicatore sintetico delle due rette, che è il problema della Model II Regression qui discusso,

-  è calcolare la retta che passa lungo l’asse maggiore.

-  per utilizzare il suo coefficiente angolare , detto appunto coefficiente angolare dell’asse maggiore  (the slope of the major axis) o dell’asse principale (principal axis).

Anche questa retta attraversa il baricentro della distribuzione.

 

In queste analisi sulla Model II Regression, le due variabili  e  possono essere ritenute scambievolmente sia la causa sia l’effetto dell’altra.

Pertanto, per convenzione, su molti testi non sono più indicate con X (causa) e Y (effetto), ma con

X1   riportata sull’asse delle ordinate

-   X2   riportata sull’asse delle ascisse.

In questo caso sono scambiate rispetto alla correlazione.

Su altri testi, per meglio distinguere le formule che si riferiscono alle due variabili, continua a essere utilizzata la simbologia della regressione lineare   e  .

 

L’equazione che individua i punti collocati sull’asse principale (), riferiti sempre agli stessi assi cartesiani X1 e X2 è

 

 

 dove

-  = coefficiente angolare dell’asse principale (slope of the principal axis)

  ed è ricavato da

 con

-    = covarianza delle variabili X1 e X2

 che  nella formula euristica è

 


 

  e nella formula abbreviata diventa

 

 

-  =  varianza della X1

 che nella formula euristica è

 

 e nella formula abbreviata diventa

 

 

-  = varianza della X2

 che nella formula euristica è

 

 

 e nella formula abbreviata diventa

 

 

-  è la quantità nuova, che misura la variabilità dei punti campionari lungo l’asse maggiore;  è definita in termini di varianza e covarianza, misurate sull’asse delle ascisse e delle ordinate originali,

 

 

I criteri per individuare questa retta e sulla base dei quali è stata definita la formula sono tre:

- la retta deve passare attraverso il punto d’incontro delle  medie ( e ) delle due variabili,

-   la devianza dei punti da questa retta deve essere quella minima,

-   e le deviazioni sono misurate

a)  non sull’asse delle ordinate (Y nella retta di regressione, X1 in questa rappresentazione per l’asse principale),

b)  ma sull’asse delle ascisse (X nella retta di regressione, X2 in questa rappresentazione).

 

ESEMPIO.  Per illustrare in modo semplice e operativo il metodo del coefficiente angolare dell’asse maggiore  (the slope of the major axis) o dell’asse principale (principal axis), appositamente scelto come riferimento bibliografico internazionale e autorevole, è utile svolgere in tutti i passaggi logici l’esempio riportato nel testo di Sokal  e Rohlf già citato (pag. 587-593).

 

Su un campione di 12 granchi della specie Pachygrapsus crassipes come coppie di variabili sono state rilevate

- il peso delle branchie (X1, espresse in milligrammi)

- il peso complessivo del corpo (X2, espresso in grammi)

 

 

X1

159

179

100

45

384

230

100

320

80

220

320

210

X2

14,40

15,20

11,30

2,50

22,70

14,90

1,41

15,81

4,19

15,39

17,25

9,52

 

 

Il grafico mostra con evidenza  la dispersione dei punti lungo l'asse principale.

(In esso, come in molte pubblicazioni, i due assi cartesiani sono indicati con Y1 e Y2 invece di X1 e X2 come nel testo e nelle formule).

Calcolare il coefficiente angolare  della retta  che rappresenta l'asse principale e

che può essere scritta come


 


 

 

Risposta.  Ricordando di dover utilizzare più cifre decimali,

 dopo aver calcolato

-  le due  medie

 

 

 

 

-  le due varianze

 

 

- e la covarianza

 

 

- si ricava l

 

     con

 dove

 

 

Da essi si ottiene

 

 

 il risultato  = 11.337,76576

 e infine il coefficiente

 

 

 ottenendo  = 18,9365

 con il quale si ricava l'intercetta

 

 

e infine con entrambi si definisce  la retta dell'asse principale

 

 

La sua rappresentazione grafica è

 

 


 (Come nel precedente diagramma di dispersione,

-  le due variabili sono indicate con Y1 e Y2 invece di  X1 e X2;

-  i simboli  corrispondono ai punti della figura precedente)

 

Per approfondimenti sul calcolo del secondo asse e soprattutto

-   sulla trasposizione dei punti su questi assi,

-  sugli autovalori (eighenvalues, latent roots, characteristic roots), che stanno alla base di molte tecniche di statistica multivariata,  

si rimanda al testo citato di  Sokal e Rohlf del 1995 Biometry dal titolo The Principles and Practice of Statistics in Biological Research (3rd ed. W. H. Freeman and Company, New York, XIX, + 887 p.).

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007