METODI NON PARAMETRICI PER UN CAMPIONE

 

 

 

7.9.    DIFFERENZE NULLE E TIES NEL TEST T DI WILCOXON

 

 

Nel calcolo delle differenze tra ogni valore osservato e la mediana espressa nell’ipotesi nulla, può succedere che uno o più valori diano differenza 0 (zero). Come si debba trattare questa informazione, quale sia il comportamento più corretto del ricercatore in questi casi, non vede gli statistici concordi. Le indicazioni sono due:

-          molti, come illustrato nel test dei segni, propongono di eliminare tale risultato, cioè tutti i valori uguali a 0, riducendo di altrettante unità le dimensioni del campione;

-          altri propongono di attribuire al valore 0  il rango 1 (o la media dei ranghi, se gli zero sono più di uno), con la motivazione che essi rappresentano effettivamente le differenze minori; successivamente, tutti gli altri ranghi sono attribuiti con la stessa metodologia utilizzata nel paragrafo precedente; infine, si elimina il rango 1 (se c’è solamente, uno 0) oppure tutti quelli la cui differenza era 0, mantenendo tutti gli altri ranghi.

Il primo metodo è più semplice e permette di utilizzare sia le tabelle dei valori critici riportati, sia la distribuzione normale per il calcolo della significatività.

Il secondo metodo è più potente e ha vantaggi teorici; ma richiede che il calcolo dei valori critici sia effettuato dal ricercatore, attraverso la stima delle probabilità esatte. E’ un procedimento che ora è semplice, con l’uso del computer; ma che negli anni scorsi richiedeva calcoli lunghi, anche se concettualmente non complessi.

Questo calcolo delle probabilità esatte è spiegato nel paragrafo successivo, dedicato alla illustrazione

-          della teoria del metodo di Wilcoxon e

-          del metodo per associare ogni valore T alla corrispondente probabilità.

 

Il test T di Wilcoxon richiede l’uso di una scala continua, in modo che non esistano due (o più) valori identici. Quando i valori delle differenze sono distribuiti in un intervallo ristretto o la scala utilizzata è discreta, soprattutto in grandi campioni si possono avere alcuni punteggi uguali o valutazioni ex-aequo, indicati in statistica con il termine inglese ties. E’ intuitivo comprendere che essi determinano qualche problema,

-          nel calcolo dei ranghi e

-          nella stima del risultato del test.

 

Quando due o più valori sono identici, ad ognuno di essi deve essere attribuito lo stesso rango, calcolato come media dei valori ad essi assegnati nella scala continua. Ad esempio, con i 9 valori campionari seguenti

 

Campione

a

b

c

d

e

f

g

h

i

2,2

2,4

2,4

2,7

2,8

2,9

2,9

2,9

3,4

 

 

dove sono presenti due volte il valori 2,4 e tre volte il valore 2,9

 i ranghi relativi diventano

 

Campione

a

b

c

d

e

f

g

h

i

Ranghi

1

2,5

2,5

4

5

7

7

7

9

 

 

Rispetto ai casi in cui ogni rango è attribuito in modo univoco ad un valore, con i ties

-          la media attesa T dei ranghi non subisce variazioni,

-          ma la loro varianza  diviene più ridotta.

A causa di queste valutazioni ex-aequo (ties), in quasi tutti i test non parametrici si impone quindi una correzione di  ,indicata con , ottenuta sottraendo alla prima il fattore di correzione Q

 =  - Q

 

Nel caso del test T di Wilcoxon, la varianza corretta è ottenuta con la sottrazione dalla varianza  di una quantità Q pari a

Q =

 dove

-          g è il numero di gruppi di ranghi identici,

-          t è il numero di dati con lo stesso rango entro ogni gruppo.

 

ESEMPIO 1. Calcolare   con la correzione per i ties (cioè ), dalla seguente distribuzione di ranghi con segno

1   2   4   4  -4   6  -8,5   8,5   8,5  -8,5   11   12   13,5   13,5  -15   16   17   19   19   19   -21   -22

 

Risposta.   Senza correzione, utilizzando la formula

 

s2T  =

 con N = 22

 si ottiene  = 948,75.

Ma poiché sono presenti 4 gruppi (i ranghi   4   8,5   13,5   19   riportati in grassetto  e sottolineati nella distribuzione seguente) con valori uguali

1   2   4   4  -4   6  -8,5   8,5   8,5  -8,5   11   12   13,5   13,5  -15   16   17   19   19   19   -21   -22

che possono essere riassunti in

-          1 gruppo con 2 valori uguali (il rango 13,5);

-          2 gruppi con 3 valori uguali (i ranghi 4 e 19);

-          1 gruppo con 4 valori uguali (il rango 8,5).

 la varianza  deve essere ridotta di una quantità Q

Q =

 Q =

 che risulta uguale a 114. 

Di conseguenza,

-          la varianza corretta 

 =   – Q = 948,75 - 114 = 834,75

 diventa uguale a 834,75

-          e la deviazione standard sT’ corretta utilizzata nelle formule per l’uso della distribuzione Z

 

 diventa uguale a 28,89 mentre,

 senza correzione, sarebbe stata

sT  =

 uguale a 30,80.

Con la diminuzione del valore di sT, aumenta proporzionalmente il valore di Z, che pertanto risulterà più facilmente significativo.

 

La formula per la correzione dimostra che ha un peso molto maggiore un solo ties con molti valori uguali, rispetto a molti ties di coppie di valori uguali. Nell’esempio precedente, anche confrontando solamente i ties con dimensioni 2,  3  e  4, su una correzione Q = 114,

-          il ties di 2 valori determina una correzione uguale a 6,

-          un ties di 3 valori determina una correzione uguale a 24,

-          il ties di 4 valori determina una correzione uguale a 60.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007