|
METODI NON PARAMETRICI PER UN CAMPIONE
7.13. TEST T DI WILCOXON PER LA SIMMETRIA
Disponendo di una rilevazione campionaria di N dati, - sia per l’analisi delle caratteristiche della distribuzione, come la verifica di una particolare asimmetria destra o sinistra, - sia per la successiva applicazione ad essi di un test parametrico, quale il test t di Student, - sia per stimare l’intervallo fiduciale della media e della varianza, assume importanza valutare se la distribuzione è simmetrica. Esistono i test parametrici, illustrati nel capitolo dedicata alla simmetria; ma può essere vantaggioso ricorrere a un test non parametrico, per le sue caratteristiche specifiche, esposte nel primo paragrafo di questo capitolo. Tra le proposte rintracciabili in letteratura, assume importanza per la sua semplicità e generalizzazione il test T di Wilcoxon per ranghi con segno (the Wilcoxon signed-rank test), non attribuibile ad un autore specifico per questa sua utilizzazione.
La metodologia è del tutto simile a quella per il test sulla tendenza centrale, con la sola differenza che le differenze sono calcolate rispetto alla mediana del campione, non ad un valore qualsiasi prefissato. Il test è bilaterale, quando si verifica se esiste una differenza significativa tra i ranghi degli scarti positivi e di quelli negativi dalla mediana. E’ unilaterale, per asimmetria destra o asimmetria sinistra, quando la verifica è specificatamente per l’eccesso degli scarti positivi oppure di quelli negativi.
La serie di passaggi logici ed operativi può essere illustrata in modo semplice con un esempio. Si assuma di voler verificare la simmetria (bilaterale ) della seguente distribuzione di valori
1- Si ordinano i dati in modo crescente e si individua la mediana
che, con N = 10, cade a metà tra il 5° e il 6° valore, cioè tra 29 e 30; quindi la mediana è 29,5.
2 –Per ogni dato (
ottenendo la seguente serie con il loro segno
3 - Si trasformano queste differenze con segno (
4 – Ad ognuno di questi ranghi (
5 – Di questa serie di valori, si sommano tra loro - i ranghi negativi T- = 8 + 6,5 + 4 +3 + 1,5 = 23 ottenendo T- = 23 - i ranghi positivi T+= 1,5 + 5 + 6,5 + 9 + 10 = 32 ottenendo T+ = 32
6 - Come nel test precedente, la loro somma dipende solo da N ed è
T- + T+ =
|
|
|
a bil. |
0.50 |
0.20 |
0.10 |
0.05 |
0.02 |
0.01 |
0.005 |
0.001 |
|
a uni. |
0.25 |
0.10 |
0.05 |
0.025 |
0.01 |
0.005 |
0.0025 |
0.0005 |
|
|
4 |
|
2 |
0 |
--- |
--- |
--- |
--- |
--- |
--- |
|
5 |
4 |
2 |
0 |
--- |
--- |
--- |
--- |
--- |
|
|
6 |
6 |
3 |
2 |
0 |
--- |
--- |
--- |
--- |
|
|
7 |
9 |
5 |
3 |
2 |
0 |
--- |
--- |
--- |
|
|
8 |
12 |
8 |
5 |
3 |
1 |
0 |
--- |
--- |
|
|
9 |
16 |
10 |
8 |
5 |
3 |
1 |
0 |
--- |
|
|
10 |
20 |
14 |
10 |
8 |
5 |
3 |
1 |
--- |
|
|
11 |
24 |
17 |
13 |
10 |
7 |
5 |
3 |
0 |
|
|
12 |
29 |
21 |
17 |
13 |
9 |
7 |
5 |
1 |
|
|
13 |
35 |
26 |
21 |
17 |
12 |
9 |
7 |
2 |
|
|
14 |
40 |
31 |
25 |
21 |
15 |
12 |
9 |
4 |
|
|
15 |
47 |
36 |
30 |
25 |
19 |
15 |
12 |
6 |
|
|
16 |
54 |
42 |
35 |
29 |
23 |
19 |
15 |
8 |
|
|
17 |
61 |
48 |
41 |
34 |
27 |
23 |
19 |
11 |
|
|
18 |
69 |
55 |
47 |
40 |
32 |
27 |
23 |
14 |
|
|
19 |
77 |
62 |
53 |
46 |
37 |
32 |
27 |
18 |
|
|
20 |
86 |
69 |
60 |
52 |
43 |
37 |
32 |
21 |
|
|
21 |
95 |
77 |
67 |
58 |
49 |
42 |
37 |
25 |
|
|
22 |
104 |
86 |
75 |
65 |
55 |
48 |
42 |
30 |
|
|
23 |
114 |
94 |
83 |
73 |
62 |
54 |
48 |
35 |
|
|
24 |
125 |
104 |
91 |
81 |
69 |
61 |
54 |
40 |
|
|
25 |
136 |
113 |
100 |
89 |
76 |
68 |
60 |
45 |
|
|
26 |
148 |
124 |
110 |
98 |
84 |
75 |
67 |
51 |
|
|
27 |
160 |
134 |
119 |
107 |
92 |
83 |
74 |
57 |
|
|
28 |
172 |
145 |
130 |
116 |
101 |
91 |
82 |
64 |
|
|
29 |
185 |
157 |
140 |
126 |
110 |
100 |
90 |
71 |
|
|
30 |
198 |
169 |
151 |
137 |
120 |
109 |
98 |
78 |
|
|
35 |
272 |
235 |
213 |
195 |
173 |
159 |
146 |
120 |
|
|
40 |
358 |
313 |
286 |
264 |
238 |
220 |
204 |
172 |
|
|
45 |
456 |
402 |
371 |
343 |
312 |
291 |
272 |
233 |
|
|
50 |
566 |
503 |
466 |
434 |
397 |
373 |
350 |
304 |
|
|
55 |
688 |
615 |
573 |
536 |
493 |
465 |
438 |
385 |
|
|
60 |
822 |
739 |
690 |
648 |
600 |
567 |
537 |
476 |
|
|
65 |
968 |
875 |
820 |
772 |
718 |
681 |
647 |
577 |
|
|
70 |
1126 |
1022 |
960 |
907 |
846 |
805 |
767 |
689 |
|
|
75 |
1296 |
1181 |
1112 |
1053 |
986 |
940 |
898 |
811 |
|
|
80 |
1478 |
1351 |
1276 |
1211 |
1136 |
1086 |
1039 |
943 |
|
|
85 |
1672 |
1533 |
1451 |
1380 |
1298 |
1242 |
1191 |
1086 |
|
|
90 |
1878 |
1727 |
1638 |
1560 |
1471 |
1410 |
1355 |
1240 |
|
|
95 |
2097 |
1933 |
1836 |
1752 |
1655 |
1589 |
1529 |
1404 |
|
|
100 |
2327 |
2151 |
2045 |
1955 |
1850 |
1779 |
1714 |
1578 |
Nel caso di grandi campioni, si ricorre alla distribuzione normale.
Sempre nella condizione che H0 sia vera, la somma dei ranghi dello stesso segno (T) segue approssimativamente la distribuzione normale
![]()
dove
-
è calcolato con la
formula precedente
-
è la deviazione
standard di T, determinata solamente da N (il numero di dati)
secondo la relazione
![]()
Con misure ripetute e campioni grandi, la metodologia diventa più complessa.
Per illustrare anche questa procedura, utile in varie situazioni, viene sviluppato l’esempio tratto dal testo di Jarrold Zar del 1999 (Biostatistical Analysis 4th ed. Prentice Hall, Upper Saddle River, Nee Jersey). E’ stato utilizzato in questo corso anche per la verifica della normalità, della simmetria e della curtosi con metodi parametrici, allo scopo di confrontarne i risultati e valutare la diversa potenza.
Misurando l’altezza (
espressa in pollici, riportata nella
colonna 1) di 70 studenti, è stata ottenuta la seguente distribuzione di
frequenza (
,
nella colonna 2):
|
(1) |
(2) |
(3) |
(4) |
(5) |
(6) |
(7) |
|
|
|
|
|
|
|
|
|
63 |
2 |
-7,5 |
7,5 |
69,5 |
-69,5 |
-139 |
|
64 |
2 |
-6,5 |
6,5 |
67,5 |
-67,5 |
-135 |
|
65 |
3 |
-5,5 |
5,5 |
64 |
-64 |
-192 |
|
66 |
5 |
-4,5 |
4,5 |
57,5 |
-57,5 |
-287,5 |
|
67 |
4 |
-3,5 |
3,5 |
48,5 |
-48,5 |
-194 |
|
68 |
6 |
-2,5 |
2,5 |
35,5 |
-35,5 |
-213 |
|
69 |
5 |
-1,5 |
1,5 |
21,5 |
-21,5 |
-107,5 |
|
70 |
8 |
-0,5 |
0,5 |
8 |
-8 |
-64 |
|
71 |
7 |
+0,5 |
0,5 |
8 |
+8 |
+56 |
|
72 |
7 |
+1,5 |
1,5 |
21,5 |
+21,5 |
+160,5 |
|
73 |
10 |
+2,5 |
2,5 |
35,5 |
+35,5 |
+355 |
|
74 |
6 |
+3,5 |
3,5 |
48,5 |
+48,5 |
+291 |
|
75 |
3 |
+4,5 |
4,5 |
57,5 |
+57,5 |
+172,5 |
|
76 |
2 |
+5,5 |
5,5 |
64 |
+64 |
+128 |
|
Totale |
70 |
--- |
--- |
--- |
--- |
--- |
La procedura per valutare se esiste una asimmetria significativa (quindi test bilaterale) con il test non parametrico T di Wilcoxon richiede i seguenti passaggi logici:
1 - Individuare la mediana. Poiché le misure sono 70 (già ordinate dalla minore alla maggiore nella distribuzione di frequenza delle colonne 1 e 2), la mediana è il valore collocato tra il 35° rango (70) e il 36° rango (71), cioè mediana = 70,5.
2 - Si calcola la differenza (
) tra ogni misura (
) e la mediana, riportandone
anche il segno (
,
vedi la terza colonna).
3 – Considerando queste differenze in valore assoluto (
, vedi quarta colonna),
si attribuisce ad esse il rango; è l’operazione che richiede più tempo e alla
quale occorre prestare maggiore attenzione (
di
, nella quinta colonna).
Ad esempio.
a) Le misure
=
70 che sono 8 e le misure
= 71 che sono 7 hanno tutte uno scarto
dalla mediana (70,5) che in valore assoluto è 0,5 (
= 0,5).
In una disposizione ordinata per dimensioni, questi scarti occupano i
ranghi da 1 a 15, il cui valore medio è 8. Quindi gli 8 scarti positivi (+0,5)
e i 7 scarti negativi (-0,5) hanno tutti rango 8 (
di
= 8).
b) Le misure
=
69 che sono 5 e le misure
= 72 che sono 7 hanno tutte uno scarto
dalla mediana (70,5) che in valore assoluto è 1,5 (
= 1,5).
In una disposizione ordinata per dimensioni, questi 12 scarti occupano
le posizioni da rango 16 a rango 27, il cui valore centrale (individuabile
anche come media della somma dei valori da 16 a 27) è 21,5. Quindi i 5 scarti
positivi (+1,5) e i 7 scarti negativi (-1,5) hanno tutti rango 21,5 (
di
= 21,5)
c) Si continua in questo modo procedendo dai valori centrali, vicini alla mediana e quindi con scarti minori, verso i valori estremi, ovviamente con scarti maggiori.
Ad esempio, le misure
= 63 sono 2 e hanno uno scarto dalla
mediana (70,5) che in valore assoluto è 7,5 (
= 7,5). Sono i due scarti maggiori su 70
e quindi occupano i ranghi 69 e 70, il cui valore medio è 69,5 (vedi, nella
colonna 5,
di
= 69,5).
4 – Nella sesta colonna (
con segno ) vengono riportati i ranghi
della quinta colonna, con il segno della loro differenza, riportata nella terza
colonna.
5
– Nella settima e ultima colonna (
)
è riportato il prodotto della colonna 2 con la colonna 6.
Infine si devono sommare tra loro
- i valori negativi
T- = 139 + 135 + 192 + 287,5 + 194 + 213 + 107,5 + 64 = 1.332
ottenendo T- = 1.332
- i valori positivi
T+ = 56 + 160,5 + 355 + 291 + 172,5 + 128 = 1.163
ottenendo T+ = 1.163
6 - Il valore di T minore è quello determinato dalla somma dei positivi (T+ = 1.163).
E’ un risultato che indica una asimmetria sinistra, ma si tratta di valutarne la significatività.
Tale valore non è assolutamente significativo, poiché per N = 70 il valore minimo di T è maggiore non solo di quello critico riportato per la probabilità bilaterale a = 0.05 (907), ma è maggiore anche di quello per la probabilità a = 0.5 (1.126).
Applicato allo studio della simmetria, il test T di Wilcoxon è poco potente. Mentre per il confronto della tendenza centrale rispetto al corrispondente parametrico test t di Student esso perde poco in potenza (è 0,95 in alcune stime; 0,96 in altre), nel caso del test sulla simmetria la perdita di potenza è grande. Infatti, applicata agli stessi dati, la metodologia parametrica proposta da D’Agostino (vedi capitolo relativo) per un test bilaterale con Z = -1,23 fornisce una stima della probabilità uguale a 0,219 o 21,9%.
Poiché il campione è grande (N = 70) è possibile ricorrere alla distribuzione normale e applicare la formula per la stima di Z.
Con
=
![]()
e
=
![]()
si ottiene
=![]()
una stima Z = -0,47.
In una distribuzione normale bilaterale a questo valore corrisponde una probabilità uguale a 0,638 (63,8%). E’ un risultato che conferma quello della tabella; ma fornisce una stima più precisa della probabilità.