TEST NON PARAMETRICI

PER CORRELAZIONE, CONCORDANZA,

REGRESSIONE MONOTONICA E REGRESSIONE LINEARE

 

 

21.16.    LA REGRESSIONE MONOTONICA DI IMAN-CONOVER

 

 

In una distribuzione bivariata, nella quale

-  una variabile è identificata con la causa e è detta variabile indipendente, indicata con X,

-  l’altra è identificata con l’effetto e è detta variabile dipendente, indicata con Y,

 può sorgere il problema di verificare se al crescere della prima variabile la seconda cresce o diminuisce, senza richiedere che il rapporto sia di tipo lineare, cioè costante.

E’ la regressione monotonica.

 

Tra i metodi presenti in letteratura, quello proposto da R. L. Iman e W. J. Conover nel 1979 (vedi The use of the rank transform in regression su pubblicato su Technometrics vol. 21 pp. 499-509) è il più diffuso; inoltre, è presentato nel testo di Conover del 1999 (Practical Nonparametric Statistics, 3rd ed. John Wiley & Sons, New York, 584 p.), indubbiamnete da annoverare tra quelli internazionali più noti.


 

Da esso è tratto l’esempio seguente, qui illustrato con una presentazione più dettagliata della metodologia, una esposizione  di tutti i passaggi logici e con la correzione di alcuni risultati.

 

 

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

Campioni

A

0,0

>30

1

16

16

1

16,4800

>30

B

0,5

>30

2

16

32

4

15,5450

29,54

C

1,0

>30

3

16

48

9

14,6100

28,61

D

1,8

28

4

14

56

16

13,6750

26,68

E

2,2

24

5

13

65

25

12,7400

22,70

F

2,7

19

6

12

72

36

11,8050

18,60

G

4,0

17

7,5

11

82,5

56,25

10,4025

15,00

H

4,0

9

7,5

8

60

56,25

10,4025

15,00

I

4,9

12

9

9,5

85,5

81

9,0000

11,00

L

5,6

12

10

9,5

95

100

8,0650

9,13

M

6,0

6

11

5

55

121

7,1300

8,13

N

6,5

8

12

7

84

144

6,1950

7,20

O

7,3

4

13

1,5

19,5

169

5,2600

6,26

P

8,0

5

14

3

42

196

4,3250

5,67

Q

8,8

6

15

5

75

225

3,3900

5,20

R

9,3

4

16

1,5

24

256

2,4550

4,64

S

9,8

6

17

5

85

289

1,5200

4,02

996,5

1784,5

 

 

 

La teoria sottostante a tale approccio, già presentato nel paragrafo dedicato alla correlazione non parametrica, è che

-  quando tra i ranghi di due variabili esiste regressione lineare,

-  tra i loro valori osservati (su scale ad intervalli o di rapporti) esiste regressione monotonica.

Di conseguenza, è utile calcolare la retta di regressione lineare sui ranghi e la sua significatività. Per questo ultimo test, cioè per valutare l’ipotesi nulla H0: b = 0 si ritorna alla correlazione non parametrica già illustrata, per un concetto del tutto analogo alla verifica della regressione lineare di Theil.

 

Per valutare se l’aggiunta di zucchero al mosto d’uva favorisce la fermentazione, in 17 esperimenti indipendenti alla stessa quantità di mosto è stata aggiunta una quantità differente di zucchero (X, misurata in libbre); successivamente per 30 giorni è stato valutato se la fermentazione era iniziata (Y, misurata in giorni trascorsi). Dopo 30 giorni l’esperimento è stato interrotto. Nei tre contenitori ai quali erano state aggiunte le quantità di zucchero minori (cioè X uguale a 0,0;  0,5;  1,0 libbre) la fermentazione non era ancora iniziata: a essi è stata attribuita la misura approssimata Y >30.

 


Curva di regressione monotonica con i dati osservati

 

 

I dati dei 17 campioni indipendenti (individuati nella colonna 1 dalle lettere da A a S) sono riportati nelle colonne 2 () e 3 () della tabella precedente. Nel grafico sottostante, sono rappresentati i punti () che identificano le 17 osservazioni (i segmenti che descrivono la tendenza sono spiegati nella parte finale del paragrafo).

 

Il metodo di Iman-Conover richiede due serie di passaggi:

-  la prima per calcolare la retta di regressione sui ranghi dei valori;

-  la seconda per ritornare da questa retta ai valori originali, trasformadola in una serie di segmenti che descrivono la regrassione monotonica di Y su X, nella scala effettivamente utilizzata.

 

Questi passaggi logici e metodologici sono:

1 - Trasformare i valori della variabile X e Y (riportati nelle colonne 2 e 3 della tabella precedente) nei loro ranghi (come nelle colonne 4 e 5).


 

Il grafico sottostante, come evidenzia anche la differente scala riportata in ascissa e in ordinata, è la rappresentazione dei punti mediante i loro ranghi.

 


RETTA DI REGRESSIONE OTTENUTA CON LA TRASFORMAZIONE DEI DATI IN RANGHI

 

 

2 – Calcolare la retta sui ranghi (quella rappresentata nella figura). Dapprima si stima il coefficiente angolare  con

 

 una formula corrispondente a quella abbreviata della retta parametrica.

Utilizzando i dati dell’esempio, dove

-  = 996,5  (colonna 6)

-  = 1784,5  (colonna 7)

-    = 17


 

 

 si ottiene il coefficiente angolare  = -0,935.

 Successivamente, si stima l’intercetta  con

 

 

 Utilizzando i dati dell’esempio

 

 

 risulta  = 17,415.

Di conseguenza, la retta di regressione stimata mediante i ranghi è

 

 

 

3 – Questa formula permette di calcolare i valori attesi per ogni rango di Y a partire dai ranghi di X, cioè gli  riportati nella colonna 8, anche se per tracciare la retta è sufficiente calcolarne solo due.

Ad esempio,

-  per il campione A con  = 0,0  e  quindi rango  = 1 si ottiene la stima del rango di Y

 

-  per i campioni G e H  con  = 4,0  e  rango  = 7,5 si ottiene la stima del rango di Y

 

La retta è costruita con i punti (), cioè utilizzando i dati della colonna 4 e quelli riportati nella colonna 8.

 

4 – Per valutare la significatità della retta così calcolata (H0: b = 0), quindi se esiste regressione monotonica sui dati originali, è sufficiente valutare la significatività della correlazione non parametrica (H0: r = 0); può essere ottenuta  indifferentemente con il test r di Spearman oppure con il t di Kendall.

 

 

5 - Dalla retta calcolata sui ranghi, si ritorna alla scala originale di X e Y calcolando gli  riportati nella colonne 9. Unendo i punti individuti dai valori  osservati della colonna 1 e quelli  stimati riportati nella colonna 9 (cioè i punti , si ottiene la linea spezzata, rappresentata nella prima figura.

 

 

6 - Per identificare tutti i valori  di questa regressione monotonica, la procedura è complessa e richiede alcune scelte, che dipendono dal valore ottenuto del rango stimato per Y (cioè  della colonna 8):

a)       se  è uguale al rango reale della stessa osservazione Y, cioè  della colonna 5,  si attribuisce a  il valore osservato ;

b)       se  è compreso tra il rango di due osservazioni adiacenti di Y, cioè  e  della colonna 3, con  minore in valore di ,  per ottenere il valore stimato di Y, cioè  della colonna 9, si usa l’interpolazione

 

 

c)        se  è minore del rango osservato  più piccolo (colonna 4), il valore stimato di Y (cioè  della colonna 9) è uguale a quel valore osservato minore;

d)       se   è maggiore del rango osservato  più grande (colonna 4), il valore stimato di Y (cioè  della colonna 9) è uguale a quel valore osservato  maggiore.


 

Ad esempio,

-          per il campione A il valore stimato del rango è  = 16,48 (colonna 8); poiché è maggiore del rango più grande (= 16 di colonna 4) , il valore stimato di Y è  >30;

-          per il campione B il valore stimato del suo rango è  = 15,55 (colonna 8); è compreso tra il rango 16 e il rango 14; quindi

-          per il campione C

 

-          per il campione D

 

-          per il campione E

 

-          per il campione F

 

-          per il campione G

 

I valori stimati sono riportati nella colonna 9 (gli altri sono ripresi da Conover).

Nell’esempio utilizzato, tre valori sono molto approssimati (>30) e tra loro identici, quindi che introducono bias nei calcoli. Il metodo dimostra di essere abbastanza robusto da riuscire ugualmente a fornire stime della regressione monotonica. Tuttavia, lo stesso Conover raccomanda di usare scale continue, quindi definite con precisione e senza valori identici

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007