COEFFICIENTI DI ASSOCIAZIONE, DI COGRADUAZIONE E DELL’ACCORDO

RISCHIO RELATIVO E ODDS RATIO

 

 

20.7.  COGRADUAZIONE PER VARIABILI ORDINALI IN TABELLE r x c:  IL g di GOODMAN E KRUSKALL, IL tc.DI KENDALL-STUART, IL dba E dab DI SOMERS.

 

 

In una tabella r x c, in cui le due variabili siano di tipo ordinale, l’associazione viene chiamata con il nome specifico di cograduazione. Pure in questo caso, il punto di riferimento sono le due diagonali; ma in modo più complesso, poiché sono prese in considerazione anche le altre caselle.

Quando la tabella r x c è impostata con le stesse modalità di quella successiva

 

 

 

VARIABILE 1

Valore Basso

Valore  Alto

VARIABILE

2

Valore Basso

Valore Alto

 

 

-  la diagonale dai valori bassi verso quelli alti (a – d) è chiamata diagonale della cograduazione,

-  la diagonale opposta (c – d) è chiamata diagonale della contro-graduazione.

 

L’indice di cograduazione più diffuso è il g (presentato anche con il simbolo G) di Goodman e Kruskal presentato nell’articolo del 1954 e  nei 3 successivi, già citati.

Ha una formula analoga al coefficiente bidirezionale Q di Yule

 per tabelle 2 x 2

Q

Estesa a una tabella r x c diventa

g  = 

 

In letteratura il g di Goodman e Kruskal è presentato come una misura di correlazione/associazione, in rapporto al fatto che le variabili siano di tipo ordinale (correlazione) oppure nominale (associazione).

Il significato di questo indice, che può essere compreso interpretando la formula per il calcolo, trova la difficoltà maggiore nel capire come sono ottenuti S e D.


 

Più della definizione

S = somma delle coppie cograduate, partendo dal valore in alto a sinistra: numero totale di coppie di osservazioni in cui si abbiano sia i>i’ e j>j’ oppure entrambi i<i’ e j<j’

D = somma delle coppie cograduate, partendo dal valore in alto a destra: numero totale di coppie di osservazioni in cui si abbiano sia i>i’ e j<j’ oppure entrambi i<i’ e j>j’

 è utile un esempio.

 

A partire dalla tabella

 

 

 

B1

B2

B3

B4

Totale

A1

10

5

18

20

53

A2

8

16

5

13

42

A3

11

7

3

4

25

Totale

29

28

26

37

120

 

 

 in cui, A e B in questo caso devono essere due variabili ordinali, ranghizzate (ordinate per rango) in modo crescente, il valore di S è determinato dalla somma di più prodotti Si.

Nel caso specifico della tabella i valori Si sono sei, ottenuti come indicato di seguito

 

1)  S1 = 10 (16 + 5 + 13 + 7 + 3 + 4 ) = 10 (48) = 480

 

 

 

B1

B2

B3

B4

Totale

A1

10*

5

18

20

53

A2

8

16*

5*

13*

42

A3

11

7*

3*

4*

25

Totale

29

28

26

37

120


 

2)  S2 = 5 (5 + 13 + 3 + 4) = 5 (25) = 125

 

 

 

B1

B2

B3

B4

Totale

A1

10

5*

18

20

53

A2

8

16

5*

13*

42

A3

11

7

3*

4*

25

Totale

29

28

26

37

120

 

 

3)  S3 = 18 (13 + 4) = 18 (17) = 306

 

 

 

B1

B2

B3

B4

Totale

A1

10

5

18*

20

53

A2

8

16

5

13*

42

A3

11

7

3

4*

25

Totale

29

28

26

37

120

 

 

4)  S4 = 8 (7 + 3 + 4) = 8 (14) = 112

 

 

 

B1

B2

B3

B4

Totale

A1

10

5

18

20

53

A2

8*

16

5

13

42

A3

11

7*

3*

4*

25

Totale

29

28

26

37

120


 

5)  S5 = 16 (3 + 4) = 16 (7) = 112

 

 

 

B1

B2

B3

B4

Totale

A1

10

5

18

20

53

A2

8

16*

5

13

42

A3

11

7

3*

4*

25

Totale

29

28

26

37

120

 

 

6)  S6 = 5 (4) = 20

 

 

 

B1

B2

B3

B4

Totale

A1

10

5

18

20

53

A2

8

16

5*

13

42

A3

11

7

3

4*

25

Totale

29

28

26

37

120

 

 

S =  = 480 + 125 + 306 + 112 + 112 + 20 = 1155

 

In modo esattamente simmetrico, il valore di D è ottenuto a partire dal valore in alto a destra

 

1)       D1 = 20 (8 + 16 +5 + 11 + 7 + 3) = 20 (50) = 1000

2)       D2 = 18 (8 + 16 + 11 + 7) = 18 (42) = 756

3)       D3 = 5 (8 + 11) = 5 (19) = 95

4)       D4 = 13 (11 + 7 + 3) = 13 (21) = 273

5)       D5 = 5 (11 + 7) = 5 (18) = 90

6)       D6 = 16 (11) = 176

D = = 1000 + 756 + 95 + 273 + 90 + 176 = 2390

Da S e D si ricava g, indicato spesso con G quando ricavato da dati campionari,

 

Con l’esempio

G  = 

 si ricava G = - 0,348.

Il segno negativo sta ad indicare che a valori bassi di A sono associati valori alti di B, come evidenzia la tabella dei dati.

 

Il valore di G dovrebbe essere calcolato su campioni con un numero totale di conteggi (N) grande. E’ quanto avviene normalmente, poiché G è calcolato in tabelle di grandi dimensioni.

 

Per la significatività di G, appunto perché stimato in grandi campioni, si ricorre alla distribuzione normale Z:

- per verificare l’ipotesi nulla

H0: g = 0

 contro un’ipotesi alternativa che può essere bilaterale

H1: g ¹ 0

 quando serve un indice nondirezionale (detto anche bidirezionale),

 

- oppure contro un’ipotesi alternativa unilaterale che può essere

H1: g > 0     oppure     H1: g < 0

 quando si è stimato un indice direzionale, il cui segno (positivo oppure negativo) assume un significato preciso nella disciplina analizzata.

 

Il test per la significatività di G è

 dove

- N è il numero totale di osservazioni utilizzate nella tabella

 e SEG

SEG =

 è l’errore standard di G.

 

Il valore G calcolato dai dati sperimentali può essere testato non solo rispetto a 0 (H0: g = 0), ma pure  rispetto a un valore g atteso, specificato nell’ipotesi nulla (ad esempio,  H0: g = 0,7).

In questa ultima condizione, il test diventa

 

L’intervallo di confidenza di g alla probabilità a prefissata

è

 

Quando il valore G è calcolato per due campioni indipendenti (1 e 2) e in condizioni sperimentali del tutto uguali, cioè se

-  i campioni sono entrambi abbastanza grandi, tanto da poter giustificare per ognuno l’uso della normale,

-  le due tabelle r x c hanno lo stesso numero di righe e di colonne,

-  i livelli di ogni variabile, cioè i gruppi ordinali di ogni variabile, sono identici,

 è possibile confrontare se i due valori G campionari (G1 e G2) sono statisticamente uguali,

 cioè  verificare l’ipotesi nulla H0: g1 = g2

con

 in test sia bilaterali che unilaterali.

 

 

ESEMPIO (tratto dal testo di David J. Sheskin del 2000, Parametric and nonparametric statistical procedures, 2nd ed. Chapman & Hall/CRC, London, 982 p.).

Per valutare se esiste una relazione tra peso alla nascita di un bambino e il suo ordine di nascita, esiste il problema pratico che mentre il primo è misurato su una scala continua, il secondo è una misura di rango con molti valori identici.

A tale scopo, i dati di 300 bambini sono stati aggregati in una tabella r x c, di dimensioni 3 x 4,


 

 

 

Ordine di nascita

 

4° e +

Totale

 

Peso

Sotto la media

70

15

10

5

100

Uguale alla media

10

60

20

10

100

Sopra la media

10

15

35

40

100

 

Totale

90

90

65

55

300

 

 

 in cui il peso è stato aggregato in tre gruppi di dimensioni uguali (100), definiti sotto, uguale e sopra la media.

Calcolare g e verificare la sua significatività.

Inoltre stimare l’intervallo di confidenza di g per a = 0.05

 

Risposta. Scindendo lo sviluppo dell’esempio nei suoi passaggi logici fondamentali,

 

1 - è necessario calcolare S e D

Il valore di S è dato dalla somma dei seguenti 12 prodotti

1)   Cella 11:  70 x (60 + 20 + 10 + 15 + 35 + 40)              = 12600

2)   Cella 12:  15 x (20 + 10 +35+ 40)                                 =   1765

3)   Cella 13:  10 x (10 + 40)                                                =     500

4)   Cella 14:  5 x (0)                                                                             =         0

5)   Cella 21:  10 x (15 + 35 + 40)                                        =     900

6)   Cella 22:  60 x (35 + 40)                                                =   4500

7)   Cella 23:  20 x (40)                                                                         =     800

8)   Cella 24:  10 x (0)                                                                           =         0

9)   Cella 31:  10 x (0)                                                                           =         0

10) Cella 32:  15 x (0)                                                                           =         0

11) Cella 33:  35 x (0)                                                                           =         0

12) Cella 34:  40 x (0)                                                                           =         0

 e risulta S = 20875


 

Il valore di D, iniziando dall’angolo in alto a destra, è dato dalla somma dei seguenti 12 prodotti

1)   Cella 14:  5 x (10 + 60 + 20 + 10 + 15 + 35)                =  750

2)   Cella 13:  10 x (10 + 60 + 10 + 5)                                 =  950

3)   Cella 12:  15 x (10 + 10)                                                =  300

4)   Cella 11:  70 x (0)                                                                           =      0

5)   Cella 24:  10 x (10 + 15 + 35)                                        =  600

6)   Cella 23:  20 x (10 +15)                                                 =  500

7)   Cella 22:  60 x (10)                                                                         =  600

8)   Cella 21:  10 x (0)                                                                           =      0

9)   Cella 34:  40 x (0)                                                                           =      0

10) Cella 33:  35 x (0)                                                                           =      0

11) Cella 32:  15 x (0)                                                                           =      0

12) Cella 31:  10 x (0)                                                                           =      0

 e risulta D = 3700

 

2 – Il valore di G

 risulta G = 0,699.

 

3 - La significatività del valore sperimentale ottenuto  G = 0,699, cioè la verifica dell’ipotesi nulla

H0: g = 0

 contro l’ipotesi alternativa bilaterale oppure unilaterale è

 

 data da Z = 8,847.

In una distribuzione normale, Z è altamente significativo sia considerando un test bilaterale che unilaterale.

 

4 - L’intervallo di confidenza (con Z = 1,96 in quanto richiesto per a = 0.05 in una distribuzione bilaterale)

 

 è uguale a 0,699 ± 0,155

 e quindi come

- limite inferiore ha l1 =  0,699 – 0,155 = 0,544

- limite superiore ha l2 = 0,699 + 0,155 = 0,854

 

 

Il coefficiente tc di Kendall (Kendall’s tau-c), chiamato anche tc di Stuart (Stuart’s tau-c) o  tc di Kendall-Stuart (Kendall-Stuart tau-c) è una estensione del tb (specifico per tabelle 2 x 2 e già presentato) a tabelle di dimensioni maggiori, cioè r x c.

Il tc di Kendall-Stuart è un coefficiente di cograduazione; è uguale all’eccesso di coppie concordanti su quelle discordanti, con aggiustamento per le dimensioni del campione.

Con i simboli usati in precedenza per il g

 il tc è dato da

 in cui

-   S e D sono uguali alla formula precedente ed ovviamente calcolati nello stesso modo,

-   Ta = numero totale di coppie di osservazioni in cui i = i’: è la somma dei prodotti di ogni valore per la somma di quelli che sulla stessa riga stanno alla sua destra, a partire dalla prima colonna;

-   Tb = numero totale di coppie di osservazioni in cui j = j’: è la somma dei prodotti di ogni valore per la somma di quelli che stanno sotto di lui, nella stessa colonna, a partire dalla prima riga.

 

Dalla stessa tabella utilizzata in precedenza

 

 

B1

B2

B3

B4

Totale

A1

10

5

18

20

53

A2

8

16

5

13

42

A3

11

7

3

4

25

Totale

29

28

26

37

120


 

 si ricava che  Ta è la somma di 9 valori, dei quali vengono riportati dettagliatamente tutti i calcoli, come spiegazione del metodo:

1)  Ta1  =  10 (5 + 18 + 20) = 10 (43)   = 430

2)  Ta2  =  5 (18 + 20) = 5 (38)                             = 190

3)  Ta3  =  18 (20)                                  = 360

4)  Ta4  =  8 (16 + 5 + 13) = 8 (34)       = 272

5)  Ta5  =  16 (5 + 13) = 16 (18)           = 288

6)  Ta6  =  5 (13)                                    =   65

7)  Ta7  =  11 (7 + 3 + 4) = 11 (14)       = 154

8)  Ta8  =  7 (3+4) = 7 (7)                     =   49

9)  Ta9  = 3 (4)                                                       =   12

  Ta =  = 430 + 190 + 360 + 272 + 288 + 65 + 154 + 49 + 12 = 1820

 

 Tb ( sempre in questa tabella specifica) è la somma di 8 valori:

1)  Tb1  =  10 (8 + 11) = 10 (19)           = 190

2)  Tb2  =  8 (11)                                    =   88

3)  Tb3  =  5 (16 + 7) = 5 (23)                               = 115

4)  Tb4  =  16 (7)                                    = 112

5)  Tb5  =  18 (5+3) = 18 (8)                 = 144

6)  Tb6  =  5 (3)                                                      =   15

7)  Tb7  =  20 (13 + 4) = 20 (17)           = 340

8)  Tb8  =  13 (4)                                    =   52

  Tb =  = 190 + 88 + 115 + 112 + 144 + 15 + 340 + 52 = 1056

 

Applicando la formula di Kendall, si ottiene

 

 

 un valore di tC = –0,497.

 

L'elevato numero di calcoli richiesti, anche se semplici, possono determinare errori.

E’ quindi utile avvalersi della proposta per la verifica della correttezza di tutti i parametri considerati,

 attraverso la relazione

N2 = 2×(S + D + Ta + Tb) +

 dove

-   N2  è il quadrato della somma di tutti i dati della tabella,

-   S, D, Ta e Tb sono i 4 valori utilizzati per la stima dell’indice,

-    è la somma dei quadrati di tutti i singoli valori della tabella.

 

Con i dati della tabella utilizzata,   è

 

 

B1

B2

B3

B4

Totale

A1

100

25

324

400

---

A2

64

256

25

169

---

A3

121

49

9

16

---

Totale

---

---

---

---

1558

 

 

 uguale a 1558; di conseguenza, con

N = 120;   S = 1155;   D = 2390;   Ta = 1820;   Tb = 1056

 si dimostra

1202 = 2 (1155 + 2390 + 1820 + 1056) + 1558 = 14400

 

 l’uguaglianza delle due quantità (entrambe danno lo stesso risultato di 14400): è testimoniata la correttezza di tutti i parametri calcolati in precedenza.

 

Nel 1962 R. H. Somers (con lo stesso articolo citato per il D asimmetrico, A new asymmetric measure of association for ordinal variables, pubblicato su American Sociological Review Vol. 27, n. 6, pp. 700-811) ha proposto anche indici (dba e dab) di cograduazione asimmetrici o unidirezionali per tabelle r x c, da applicare nel caso di variabili ordinali.

Come nel titolo dell’articolo, questo indice e i precedenti (gamma, tau-b e tau-c) sono chiamate anche misure di associazione ordinale (ordinal association).


 

Quando B è la variabile dipendente (e ovviamente A la variabile indipendente), si può stimare dba con

 

Questa statistica è distribuita in modo approssimativamente normale. La sua varianza è stata stimata da L. A. Goodman e E. H. Kruskal nel 1972 (con l’articolo Measures of association for cross-classification, pubblicata dalla rivista Journal of the American Statistical Association, Vol. 67, pp. 415-421).

 

Quando A è la variabile dipendente, si stima dab con

con formula simmetrica.

 

Utilizzando sempre la stessa tabella, con S = 1155;   D = 2390;   Ta = 1820;   Tb = 1056

-  dba

 risulta uguale a –0,268 e

 

- dab

 risulta uguale a –0,230.

 

In un confronto tra questi diversi indici, Graham J. G. Upton nel suo volume del 1978 (The analysis of cross-tabuled data, pubblicato da John Wiley & Sons, Chichester, a pag. 38) consiglia, giustificandola come pura scelta personale, di preferire:

-  per dati nominali, il l di Goodman e Kruskal,

-  per dati ordinali, il g se le due variabili sono di importanza uguale,

-  rispettivamente il lb di Goodman e Kruskal  o il dba di Somers, se la variabile B dipende dalla variabile A.


  

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007