COEFFICIENTI DI ASSOCIAZIONE, DI COGRADUAZIONE E DELL’ACCORDO

RISCHIO RELATIVO E ODDS RATIO

 

 

20.5.   ALTRI INDICI DI ASSOCIAZIONE PER VARIABILI DICOTOMICHE O TABELLE 2 x 2: Q E Y DI YULE, Dsim.  E  Dxy DI SOMERS; CENNI SUL tb.DI KENDALL.

 

 

Come già illustrato nel capitolo dedicato al chi quadrato, un metodo generalmente valido in tabelle di qualsiasi dimensione, per valutare il tipo di associazione in ogni casella, è il confronto tra la frequenza osservata e quella attesa, sulla base della nota relazione:

 

Se la frequenza osservata è

1)       maggiore di quella attesa, l’associazione è positiva

2)       minore di quella attesa, l’associazione è negativa.

La scuola francese definisce la prima  attrazione e la seconda repulsione.

Con la formula generale del c2 (applicata a una singola casella, quindi senza la sommatoria)

 

 

 si stima poi il contributo di ogni casella al  c2 totale della tabella.

 

Per valutare l’associazione in tabelle 2 x 2, quindi fra due dicotomie, sono stati proposti molti coefficienti. Una classificazione, riportata in vari testi e limitata a  quelli di uso più comune e più diffusi nei programmi informatici, li distingue in

-   coefficienti bidirezionali,

-   coefficienti unidirezionali

 anche se vari coefficienti, presentati come uni-direzionali e ritenuti tali da molti autori di testi di statistica, per altri non lo sono affatto.

 

I coefficienti bidirezionali sono fondati sul cosiddetto prodotto incrociato (cross-product)

prodotto incrociato = ad - bc

-  che può avere valore positivo, negativo o nullo,

-  in corrispondenza di una associazione positiva, negativa od inesistente.

I vari indici proposti differiscono nel modo di normalizzare il prodotto incrociato, attraverso il denominatore della frazione, come sarà possibile verificare con un confronto complessivo, dopo la presentazione di ognuno di essi.

 

Udny Yule nel 1900 (con l’articolo On the association of the attributes in statistics: with illustrations from the material of the childhood society, pubblicato sulla rivista Philosophical Transactions of the Royal Society, Series A, 194, pp. 257-319) per tabelle 2 x 2  ha proposto il coefficiente di associazione Q (Yule’s Q)

Q =

 

 (chiamandolo Q, in onore dello statistico belga Quetelet)

In passato, probabilmente è stata la misura di associazione più utilizzata. Ma, come evidenzia il confronto con la formula del f, il coefficiente di associazione Q ha il limite di avvalersi di meno informazioni dell’indice phi, che pertanto risulta più completo e lo ha sostituito. Il Q può essere visto come un caso speciale del gamma di Goodman e Kruskal, benché possa essere utilizzato per tabelle con variabili sia qualitative sia ordinali, mentre il gamma solamente con tabelle di contingenza ordinali.

 

Quando N è sufficientemente grande, la distribuzione di Q è normale,

 con varianza  data da

 =

 

Il valore di Q può variare tra

-    –1,  che indica un’associazione completa negativa e

-    +1  che indica un’associazione completa positiva;

-    con  0  che indica assenza di associazione o presenza di indipendenza totale.

 

La misura della varianza () permette l’inferenza sul valore di Q, ricorrendo all’intervallo di confidenza con la distribuzione Z, alla probabilità a prescelta.

 Nel caso di grandi campioni:

Intervallo fiduciale di Q = Q ± Za

 

In un test bilaterale (H0: Q = 0  contro  H1: Q ¹ 0) si può rifiutare l’ipotesi nulla, se il valore di confronto (di norma 0 quando si intende valutare se il valore di Q è significativo) è escluso dall’intervallo stimato.

Come nei casi precedenti, l’ipotesi di indipendenza o associazione tra due variabili può essere testata attraverso il o il test G2.

Utilizzando anche questo ultimo metodo, può avvenire che

-  il test con l’intervallo fiduciale di Q e il test  diano risposte differenti,

-  poiché la misura dell’associazione è calcolata in modi differenti.

 

Come riportano vari testi, in caso di risposte contrastanti la teoria statistica suggerisce di dare maggiore credito al test  .

E’ una scelta generale, da applicare in tutti i casi di test sulla significatività per indici fondati sul c2.

 

Sempre in grandi campioni, la verifica della significatività del Q di Yule cioè la verifica dell’ipotesi nulla H0: Q = 0, ma in questo caso sia in test bilaterali che unilaterali può essere ottenuta con la distribuzione normale Z

 

 

Come risulta dalle tabelle,

 se il test è bilaterale, il valore critico

- alla probabilità a = 0.05 è Z = 1,96

- alla probabilità a = 0.01 è Z = 2,58;

se il test è unilaterale, il valore critico

- alla probabilità a = 0.05 è Z = 1,645

- alla probabilità a = 0.01 è Z = 2,33.

 

 

ESEMPIO 1. I coefficienti bidirezionali servono quando si vuole analizzare la reciproca influenza tra le due variabili categoriali, in modo analogo a quanto avviene nella correlazione per due variabili ordinali o misurate su una scala almeno ad intervalli.

Coefficienti bidirezionali possono servire per valutare l’associazione della presenza o assenza di una specie animale rispetto ad un'altra, quando tra esse non esiste predazione o simbiosi,

 come nella tabella:


 

 

 

Specie A

 

Presenza

Assenza

Totale

Specie

B

Presenza

32

48

80

Assenza

13

57

70

 

Totale

45

105

150

 

 

Calcolare l’indice Q e verificare se esiste una associazione significativa mediante l’intervallo di confidenza.

 

Risposta.  Per verificare se esiste una differenza significativa nella frequenza della presenza della specie A e della specie B si ottiene un valore del chi quadrato, con 1 gdl, uguale a 8,163.

Poiché la tavola sinottica riporta

-   alla probabilità a = 0.05 il valore critico c2(1) = 3,84

-   alla probabilità a = 0.01 il valore critico c2(1) = 6,64

 si rifiuta l’ipotesi nulla ed implicitamente si è accetta l’ipotesi alternativa.

 

Il valore dell’indice Q, stima dell’associazione tra presenza della specie A e della specie B, è

 

Q =

 uguale a 0,49.

La sua varianza  è

 =

 

 =

 uguale a 0,021

Poiché il campione può essere considerato di grandi dimensioni (anche se vari autori pongono questo limite per N ³ 200), è ritenuto corretto utilizzare anche la distribuzione normale, nel quale per un test bilaterale

-   alla probabilità a = 0.05 il valore critico è 1,96

-   alla probabilità a = 0.01 il valore critico è 2,58.

 

Calcolando l’intervallo di confidenza

- alla probabilità  a = 0.05

Intervallo di confidenza di Q = 0,49 ± 1,96

 l’intervallo di confidenza di Q è compreso tra 0,206 e 0,774

 

- alla probabilità a = 0.01

Intervallo di confidenza di Q = 0,49 ± 2,58

 l’intervallo di confidenza di Q è compreso tra 0,116 e 0,864.

 

 

ESEMPIO 2. Dalla tabella di contingenza; già ripetutamente utilizzata in questo capitolo,

 

 

 

Inquinamento

 

Alto

Basso

Totale

Zona

A

30

70

100

B

60

40

100

 

Totale

90

110

200

 

 

 calcolare il valore di Q e testare la sua significatività.

Risposta. Il valore di Q risulta

 

 uguale a –0,556.  Nel paragrafo precedente il f di Pearson risultava 0,3015, quasi la metà.

La sua significatività, cioè la verifica dell’ipotesi H0: Q = 0,


 

 determina un valore Z = -5,42

Poiché il valore ottenuto è molto maggiore di quello per la probabilità a = 0.01 sia per un test bilaterale che per un test unilaterale si rifiuta comunque l’ipotesi nulla: esiste una associazione molto significativa.

 

 

Sempre Udny Yule nel 1912 (con l’articolo On the methods of measuring association for ordinal variables, pubblicato da Journal of the Royal Statistical Society, Vol. 75, pp. 579-642) ha proposto un secondo indice di associazione Y, attualmente di uso meno comune,

 ottenuto da

Con i dati dell’esempio 1 precedente,

 

 risulta Y = 0,262.

 

Un altro indice è il Dsim di Robert Somers indicato spesso anche con il simbolo greco D (delta maiuscolo). Somers ha proposto anche un D asimmetrico, nettamente differente da questo. Inoltre ha proposto un D uni-direzionale e un D bidirezionale, questo ultimo utilizzabile per variabili ordinali (vedi di R. H. Somers del 1962 A new asymmetric measure of association for ordinal variables, su American Sociological Review, Vol. 27, pp. 799-811), ma non per variabili qualitative o dicotomiche.

Il D simmetrico (Dsim

Dsim =

 

Sempre con i dati dello stesso esempio,


 

Dsim.=

 

Dsim.=

 

 risulta Dsim = 0,232.

 

Un altro indice di associazione, ancora fondato sul prodotto incrociato, applicato spesso a tabelle 2 x 2, ma non limitato a esse, è il coefficiente tb di Kendall (Kendall’s tau-b)

In tabelle 2 x 2 è ricavato da

Con i dati dell’esempio ripetutamente utilizzato,

 

 risulta  tb = 0,213.

Anche tb ha una distribuzione campionaria nota, la cui varianza è stata fornita da Albert M. Liebetrau nel 1983, insieme con quella di diverse altre misure di associazione, nel volume Measures of association (Newbury Park, CA: Sage Publications. Quantitative Applications in the Social Sciences Series No. 32). Dalla varianza del tb con la radice quadrata è possibile ricavare il suo errore standard (non la deviazione standard, ricordando che tutti gli indici di associazione sono calcolati su un campione di dati tabellari e sono delle medie) e quindi derivare il test di significatività.

Il tb richiede dati binari o ordinali e è un coefficiente non direzionale o bidirezionale, analogo al D asimmetrico di Somers.

 

Per un confronto empirico, senza entrare nella discussione sulle caratteristiche di ogni indice, è semplice osservare che con

-   Q = 0,490

-   Y = 0,262

-   Dsim. = 0,232

-   tb = 0,213

 i valori di associazione stimati sulla stessa tabella 2 x 2 sono tra loro simili, eccetto il Q di Yule.

 

I coefficienti unidirezionali servono per rilevare l’influenza di una variabile sull’altra. In questo caso, è importante anche la collocazione delle variabili nelle righe e nelle colonne, per non invertire la direzione. La tabella, per analogia alla regressione lineare, viene costruita mettendo

-   la variabile indipendente sulle righe e quindi

-   la variabile dipendente sulle colonne.

 

Nella ricerca ambientale e epidemiologica, è il caso in cui si vuole analizzare l’associazione tra livello d’inquinamento e frequenze di malattie polmonari: l’alto inquinamento della zona può essere visto come la causa delle malattie polmonari (per un successivo confronto tra i risultati, sono stati utilizzati gli stessi dati della tabella precedente):

 

 

 

Persone  con malattie

Persone senza malattie

 

Totale

Zona ad alto inq.

32    a

48    b

80    n1

Zona a basso inq.

13    c

57    d

70    n2

Totale

45    n3

105    n4

150    N

 

 

 Tra i coefficienti uni-direzionali, è utile ricordare il D asimmetrico, indicato con Dxy anch’esso attribuito a R. H. Somers (con l’articolo del 1962, A new asymmetric measure of association for ordinal variables, pubblicato su American Sociological Review Vol. 27, n.6, pp.700-811), benché alcuni autori ritengano che la prima proposta sia da attribuire all’americano Pierce nel 1884.

Esso normalizza per i due totali di riga n1 (a + b) e n2 (c + d) mediante

 la formula

Dxy =

 

Si può osservare che il D asimmetrico (Dxy) non assomiglia al D simmetrico (Dsim).

Con i dati dell’esempio,

Dxy =

 risulta Dxy = 0,214.

 

Per scegliere tra Q, Dsim, tb il coefficiente bidirezionale che meglio si adatta a descrivere l’associazione tra due variabili e valutare le distorsioni Dxy nelle varie situazioni, è conveniente ricordare che:

-   quando entrambe le coppie di totali marginali (n1 = n2, n3 = n4) sono equilibrate, tutti e cinque gli indici forniscono stime corrette;

-   quando una variabile è equilibrata e l’altra meno, come nel caso dell’esempio (con 80 e 70 quasi simili, mentre 105 e 45 differiscono sensibilmente) Q fornisce una sovrastima;

-   la Q di Yule è preferibile a tutte le altre misure, se una diagonale è semivuota;

-   la tb fornisce le risposte più accettabili, quando tre celle sono semivuote; in termini più tecnici, in caso di associazione d’angolo;

-   la Dxy è sicuramente inaffidabile, se le celle vuote o semivuote sono una oppure tre.

Emerge con chiarezza, come già evidenziato anche nei paragrafi precedenti, che non esiste un solo coefficiente dicotomico affidabile in tutti i casi.

 

 

  

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007