CONFRONTI TRA RETTE,

CALCOLO DELLA RETTA CON Y RIPETUTE, CON VERIFICA DI LINEARITA’ E

INTRODUZIONE ALLA REGRESSIONE LINEARE MULTIPLA

 

 

17.1.  CONFRONTO TRA DUE RETTE DI REGRESSIONE CON IL TEST t DI STUDENT E CALCOLO DELLA RETTA COMUNE

 

 

I coefficienti angolari delle rette di regressione possono essere posti a confronto, con concetti e metodi del tutto analoghi a quelli utilizzati per le medie.

Anche sotto l'aspetto concettuale, le rette sono medie, in quanto

-  indicano la risposta media di Yi per un dato valore di Xi.

 

Questi test, detti di parallelismo poiché le rette con lo stesso coefficiente angolare sono parallele, servono per

- verificare la significatività delle differenze tra due o più coefficienti di regressione, mediante la distribuzione t o la distribuzione F.

 

 

 

Gruppi

 

1

2

 

J

 

P

Ind.

1

Y1

2

Y2

...

j

Yj

...

p

Yp

1

x11

y11

X12

...

x1j

y1j

...

X1p

y1p

2

x21

y21

X22

...

x2j

y2j

...

X2p

y2p

---

...

...

...

...

...

...

...

...

...

...

I

xi1

yi1

xi2

Yi2

...

xij

yij

...

Xip

yip

---

...

...

...

...

...

...

...

...

...

...

M

xm1

ym1

 

xmj

Ymj

 

Xmp

ymp

Medie

...

...


 

Quando si dispone di dati di regressione che sono stati classificati in due o più gruppi, all'interno di ognuno di essi è possibile ammettere l'esistenza di una regressione lineare di Y su X. Come esempio, può essere considerato il confronto

-  della relazione  tra il peso e l'altezza in un gruppo di maschi ()

-  un altro della relazione tra il peso e l'altezza in un gruppo di femmine ()

 oppure tra più gruppi classificati per classe d’età (giovani(), adulti(), anziani()).

I dati di  gruppi, ognuno con  osservazioni sperimentali, possono essere riportati in una tabella come la precedente, utile per la presentazione dei dati e per la comprensione delle formule. In essa per ogni gruppo sono riportati i valori sia della variabile X sia della variabile Y.

 

Due o più rette di regressione possono differire per

-  la pendenza o coefficiente angolare ,

- la posizione (elevation), che rappresenta un concetto leggermente differente da quello dell’intercetta, anche se fondamentalmente coincidente

 

Mentre

-  per la pendenza il confronto utilizza i valori dei coefficienti angolari ,

-  per l’intercetta il confronto utilizza i valori ,

-  per la posizione (elevation) il confronto verifica la stessa ipotesi dell’intercetta, ma senza utilizzare il confronto tra i valori delle intercette  perché per X = 0  il valore di Y potrebbe essere privo di significato o comunque non seguire la legge lineare stimata in un campo di osservazioni lontano da esso.

Ad esempio, nella stima della relazione tra altezza (X) e peso (Y) in un gruppo di persone, non esiste una persona con altezza X = 0. Se si misura la relazione tra la capacità respiratoria (Y) in persone di varie età (X) ma sempre adulte, non è detto che la stessa relazione sia valida anche per un neonato (con X = 0).

 

Inoltre, l’uso statistico dell’intercetta  nelle discipline biologiche si scontra con il grave limite che

-  ha un errore standard molto grande, come mostrato nel capitolo precedente.

Di conseguenza, per valutare la significatività della differenza tra due posizioni (elevations), vari autori ritengono più corretto e vantaggioso ricorrere a altri metodi. Il risultato dei confronti tra rette implica scelte successive.

Se il test sulla pendenza tra più gruppi non rifiuta l’ipotesi nulla (1=2=3), può essere utile stimare un coefficiente angolare comune.

Se anche il test sulla posizione non rifiuta l’ipotesi nulla (1=2=3), per gli stessi gruppi si può calcolare una retta comune, che esprima la relazione tra le X e le Y di tutta la popolazione.

 

Il confronto per il parallelismo tra due rette di regressione,

-  la prima con coefficiente angolare b1 calcolato su un campioni di dati n1

-  la seconda con coefficiente angolare b2 calcolato su un campioni di dati n2

 può essere realizzato con il test t di Student, per verificare

 l’ipotesi nulla

H0: b1 = b2

 contro una delle ipotesi alternative (che possono essere sia bilaterali che unilaterali)

H1: b1 ¹ b2;      oppure       H1: b1 < b2       oppure       H1: b1 > b2

 

Questo test t di Student ha un numero di gdl = (n1 –2) + (n2 –2), in quanto utilizza le varianze d’errore delle due rette; spesso i gdl complessivi sono indicati come N - 4, dove N è il numero totale di osservazioni dei due gruppi.

Il valore di t(N-4) è calcolato con

t(N-4) =

 dove

-  è l'errore standard della differenza tra i due coefficienti angolari  e  

e è ottenuto da

 =

 dove

 

 

Se l’ipotesi nulla

H0:

 non viene respinta, in particolare quando la probabilità P risulta alta, maggiore di 0.10 - 0.20, è accettabile assumere che i due coefficienti angolari  e  siano uguali.


 

Se si rifiuta l’ipotesi nulla, a volte è utile conoscere quale sia il loro punto di intersezione, che ha coordinate e :

- dapprima si calcola il valore di

- successivamente da esso si ricava la stima di  

 con

 oppure con

 

Quando non si rifiuta l’ipotesi nulla, molto frequentemente si richiede anche di calcolare

il coefficiente angolare medio  o comune  

 che è ottenuto nel modo più rapido dal rapporto tra

-  la somma delle due codevianze e

-  la somma delle due devianze di X

 

 =

 

La sua varianza  è uguale alla  riportata sopra.

Come è stata verificata l’ipotesi nulla sulla pendenza, pure con i limiti evidenziati in precedenza può essere verificata quella sulla intercetta, con l’ipotesi nulla

H0: a1 = a2

 contro ipotesi alternative che possono essere sia bilaterali che unilaterali:

H1: a1 ¹ a2;      oppure       H1: a1 < a2       oppure       H1: a1 > a2

 

Si utilizza ancora un test t, sempre con gdl = N - 4

 

 dove

 

 

 

Per stimare la significatività della differenza tra le due posizioni (elevations), con un test t che può essere sia unilaterale sia bilaterale, si può applicare (con gdl = N – 3) =

 

 dove

 rappresenta la varianza d’errore comune, ricavata dai due gruppi (1 e 2) dei dati originari con la serie di passaggi logici e i calcoli successivi.

 

Dapprima dalle devianze e codevianze si stimano

-  

-  

-  

 

Da questi si ricavano

-   il coefficiente angolare comune

 

-   la devianza d’errore comune

 i cui gdl sono N-3

 e infine la varianza d’errore comune

sempre con gdl N-3

si applica il test t, che ha DF = N – 3(come la devianza e la varianza d'errore), con

 

 

Se le due rette a confronto non sono significativamente differenti (con una probabilità alta, non prossima al valore critico significativo)

-   né per il coefficiente angolare

-   né per la posizione (elevation)

 si può dedurre che appartengono alla stessa popolazione e quindi hanno la stessa equazione di regressione o la regressione comune:

 dove

-    è calcolato come indicato in precedenza, mentre

-    è ricavato da

 

 con   e   che sono le medie ponderate dei due gruppi

 

       e       

 

 

ESEMPIO 1.   Come dimostrazione di tutti i passaggi logici e metodologici descritti in precedenza, si assumano due campioni (1 e 2) non bilanciati di individui adulti che svolgono una attività fisica diversa, per valutare se hanno un valore di pressione sanguigna differente (Y), in rapporto all'età (X).

Sviluppando in tutti i suoi passaggi l’esempio tratto dal testo di Zar,


 

1)   i calcoli preliminari dedotti dalla serie di dati (due serie campionarie di   e  )

 hanno fornito i seguenti risultati:

 

 

Stime preliminari dalle distribuzioni dei dati

Campione 1

Campione 2

  = 

 

1.012

 

1.659

  = 

 

2.618

 

3.849

  = 

 

1.585

 

2.475

54,6

56,9

170,2

162,9

13

15

 

 

2)   Da essi si ricavano i due coefficienti angolari con le loro intercette e quindi le 2 rette

 

 

Rette

Campione 1

Campione 2

 

 

3)   Per giungere al test di significatività della differenza tra i due coefficienti angolari e la posizione,

si ricavano le devianze d’errore e i df relativi

 

 

Campione 1

Campione 2

Devianza d’errore

 = 136

 = 157

DF

13 – 2 = 11

15 - 2 = 13

 

 

 e da essi si perviene alla varianza d’errore associata  o comune   che è

 

 

4)   Infine il test per il parallelismo, cioè per la verifica dell’ipotesi

H0:       contro      H1:

 (potrebbe anche essere unilaterale, ma in questo caso la domanda è di tipo bilaterale),

 può essere effettuato con il test t di Student

 

 

 e si ottiene (t24 )=0,53

E' un risultato non significativo, poiché il valore di t calcolato (0,53) è nettamente inferiore a quello critico per a = 0.05 in una distribuzione bilaterale con gdl = 24. Anzi, il valore è addirittura vicino a quello per a = 0.5; la probabilità P così alta che si può affermare che le due rette sono parallele.

 

5)   Successivamente si passa al confronto tra le due posizioni, per verificare l’ipotesi

H0: le due rette hanno la stessa posizione

 contro 

H1: le due rette non hanno la stessa posizione


 

Dopo aver calcolato

-    = 1.012 + 1.659 = 2.671

-    = 1.585 + 2.475 = 4.060

-    = 2.618 + 3.849 = 6.467

 

 si ricavano

-   il coefficiente angolare comune

 =

 

-   la devianza d’errore comune

 =

 i cui gdl sono N-3, cioè 27 - 3 = 24

 

-   e infine la varianza d’errore comune

=

 

6)   Per la verifica si applica il test t con DF = N – 3 (cioè 27 – 3) = 24

 

 

 

 ottenendo (t24 )=8,06.

Poiché la tabella dei valori critici per a = 0.001 bilaterale (a causa della domanda sulla esistenza della sola differenza) riporta 3,745 si rifiuta l’ipotesi nulla con probabilità P nettamente minore di 0.001.

 

7)   Si deve quindi concludere che esistono due rette di regressione, che

-   hanno lo stesso coefficiente angolare

-   ma non hanno la stessa posizione (elevation).

In altri termini, i due gruppi sono caratterizzati da due rette differenti, che hanno lo stesso coefficiente angolare  ma due intercette  differenti.

 


 

 

La rappresentazione grafica evidenzia il loro parallelismo:

- hanno coefficienti angolari  uguali, ma intercette  differenti.

 

Le statistiche delle due rette stimate sono

-   per il gruppo 1

-   per il gruppo 2

=


8)   Se l’ultimo test non fosse risultato significativo, si sarebbe dovuto concludere che esiste una sola retta di regressione, che ha

-   il coefficiente angolare comune  = 1,52

-   e la posizione di Y comune (o intercetta  comune poiché il concetto rimane valido, anche se il metodo non le ha utilizzate per il confronto).

 

Questa intercetta comune può essere calcolata a partire dalle due medie ponderate

-   delle  , cioè  

 

-   e delle , cioè

 e risulta

 uguale a 81,5.

 

In conclusione, se nessuno dei due test (il primo sulla differenza tra b, il secondo sulla differenza fra a) fosse risultato significativo,

 la retta comune sarebbe stata

      cioè    

 

Altri testi limitano il confronto delle rette ai due coefficienti angolari. Infatti l'intercetta quasi sempre non ha significato biologico. Qualunque sia il risultato statistico di b e a, è sempre importante evidenziarne l’interpretazione biologica e ambientale.

 

ESEMPIO 2.  Si confronta la capacità respiratoria (Y, misurata in litri) di 40 soggetti esposti da anni alle esalazioni di Cadmio (gruppo 1) con quella di 44 lavoratori non esposti (gruppo 2), considerando l’effetto dell’età (X, misurata in anni).

 

 1) Dalla distribuzione dei dati si ricavano le stime preliminari per il test,

 ottenendo


 

Stime preliminari dalle distribuzioni dei dati

Campione 1

Campione 2

  = 

 

4.397

 

6.197

  = 

 

26,58

 

20,61

  = 

 

-236,39

 

-189,71

41,38

39,80

3,92

4,46

40

44

 

 

2)   Da essi si ricavano i due coefficienti angolari, con le loro intercette e quindi le due rette

 

 

Rette

Campione 1

Campione 2

 

 

3)   Per giungere al test di significatività della differenza tra i due coefficienti angolari, si devono ricavare le loro devianze d’errore (di solito con la formula abbreviata come per i calcoli riportati) e i df relativi come nella tabella seguente


 

 

Campione 1

Campione 2

Devianza d’errore =

 

DF

40 – 2 = 38

44 - 2 = 42

 

 

 e da essi pervenire alla loro varianza associata  o comune  che è

 

 

4)   Infine il test per il parallelismo, cioè la verifica dell’ipotesi

H0:       contro      H1:

 (potrebbe anche essere unilaterale, ma in questo caso la domanda era di tipo bilaterale),

 può essere effettuato con il test t di Student

 

 

 

Poiché in valore assoluto il risultato (1,966) è minore del valore critico (1,990) riportato nella tabella del test t di Student con gdl = 80 per la probabilità a = 0.05 bilaterale,

non è possibile rifiutare l’ipotesi nulla.

Tuttavia, dato il numero non molto alto di osservazioni e la vicinanza al valore critico, si può parlare di significatività tendenziale.

Ancora una volta è utile sottolineare l’importanza dell’ipotesi che si vuole verificare e quindi della esatta conoscenza del problema disciplinare, che non deve mai essere disgiunta dalla conoscenza della tecnica statistica: se la domanda fosse stata di tipo unilaterale, la probabilità stimata sarebbe stata leggermente maggiore di 0.025 e quindi si sarebbe evidenziata una differenza significativa tra i due coefficienti angolari.


 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007