CORRELAZIONE  E  COVARIANZA

 

 

18.8.   TEST PER LA DIFFERENZA TRA PIU’ COEFFICIENTI DI CORRELAZIONE  COEFFICIENTE DI CORRELAZIONE COMUNE  rw E SUA SIGNIFICATIVITA’

 

 

Per il confronto simultaneo tra più coefficienti di correlazione indipendenti r1, r2, …, rk, cioè per verificare l’ipotesi nulla

H0: r1 = r2 =     = rk

(seguendo le indicazioni di Jerrold H. Zar nel suo test del 1999 Biostatistical Analysis, fourth ed. Prentice Hall, New Jersey, pp. 390-394)

 si stima un valore  con gdl k-1

dove

-   k è il numero di coefficienti di correlazione campionari r a confronto simultaneo

-   ni è il numero di dati campionari di ogni ri

-   zi è il valore di ogni ri trasformato nel corrispondente valore zi con la formula

 

 

 

Se il test non risulta significativo, si può concludere che i diversi valori ri sono stime campionarie dello stesso valore reale r; di conseguenza, come sua stima migliore, è utile calcolare il coefficiente di correlazione comune o medio ponderato rw (common r or weighted mean of r)

con

 

Successivamente, per un confronto con gli r1, r2, …, rk originali, zw può essere ritrasformato nella scala r (ricordando ancora che, in valore assoluto, r varia da 0 a 1, mentre z varia da 0 a ¥)

attraverso

 dove

-  e è la costante neperiana (approssimata con 2,718).

 

A questo valore comune rw , con un test molto più potente rispetto a quelli di ogni singolo ri , poiché ha il vantaggio di essere calcolato su tutte le N coppie di dati,

 in quanto

 

 può essere applicato

-   sia il test per la verifica dell’ipotesi nulla

H0: r = 0

 che rw non sia significativamente differente da zero

 mediante la formula proposta da J. Neyman nel 1959 (vedi capitolo: Optimal asymptotic test of composite hypothesis, pp. 213-234. Nel libro di U. Grenander (ed.) Probability and Statistics: The Harald Cramér Volume, John Wiley, New York) e ripresa da S. R. Paul nel 1988

 

 

-   sia il test per la verifica dell’ipotesi nulla

H0: r = r0

 che rw non sia significativamente differente da un valore prefissato r0

 mediante la formula proposta da S. R. Paul nel 1988 (vedi, anche per la citazione precedente, l’articolo: Estimation of and testing significance for a common correlation coefficient. sulla rivista  Communic. Statist. - Theor. Meth. 17: 39-53, nel quale fa una presentazione e una disamina generale di questi metodi)

 

 dove

-    è il valore rw dopo trasformazione di Fisher,

-    è il valore atteso o di confronto r0 dopo trasformazione di Fisher.


 

In questi due test sul coefficiente comune rw , le ipotesi alternative H1 possono essere bilaterali oppure unilaterali. L’unica differenza consiste nella stima della probabilità a: se in una distribuzione normale bilaterale oppure unilaterale.

 

Se i k campioni a confronto sono dipendenti, quali ad esempio i valori ri di correlazione della variabile XA con le variabili XB, XC, XD calcolati sugli stessi prelievi, questa tecnica non è corretta. Si dovrà ricorrere alla statistica multivariata, con la correlazione multipla.

 

 

ESEMPIO 1.   In una ricerca sulla correlazione lineare semplice tra le quantità di due conservanti XA e XB contenuti in campioni di alimenti, con tre verifiche indipendenti sono stati ottenuti i seguenti risultati:

1 - r1 = 0,48    con    n1 = 120

2 - r2 = 0,31    con    n2 = 100

3 - r3 = 0,48    con    n3 = 150

Con questi dati,

a)   verificare se tra questi ri esiste una differenza significativa;

b)   in caso di non rifiuto della ipotesi nulla, calcolare il coefficiente comune rw;

c)   verificare se il coefficiente di correlazione comune rw è significativamente maggiore di  zero;

d)   verificare se rw si discosta significativamente dal valore r0 = 0,32 indicato come valore reale in una pubblicazione presa a riferimento.

 

Risposte.

A)   Dopo aver trasformato i valori di ri nei corrispondenti valori zi

 

 

 

 

 ottenendo: z1 = 0,523;    z2 = 0,320;    z3 = 0,389

 si calcola un valore del c2 con  gdl= 2

 applicando

Scindendo per comodità di calcolo

 dove

 e

 

 con i dati dell’esempio

 

 risultano A = 64,149

 e

 B = 61,843

 determinando

 un valore di c22 = 2,306.


Poiché il valore critico alla probabilità  a = 0.05 con df = 2 è uguale a 5,991 non si può rifiutare l’ipotesi nulla. Una lettura più attenta della tabella dei valori critici evidenzia che il valore calcolato (2,306) è inferiore anche a quello riportato per la probabilità  a = 0.25 che risulta uguale a 2,773.

Si può quindi concludere che i tre coefficienti di correlazione r1, r2 e r3 sono statisticamente uguali.

 

B)   Con questi risultati dell’analisi sulla significatività della differenza tra i k valori campionari, è utile calcolare il coefficiente di correlazione comune rw, come stima migliore del valore r della popolazione.

Con z1 = 0,523;    z2 = 0,320;    z3 = 0,389   e   n1 = 120,    n2 = 100,    n3 = 150

 il valore di zw comune

 risulta uguale a 0,414.

Ritrasformato in rw

 risulta uguale a 0,392.

 

C)   Per la verifica dell’ipotesi nulla H0: r = 0

 con ipotesi alternativa unilaterale H1: r > 0

  si utilizzano le varie osservazioni campionarie, per cui

 da r1 = 0,48;    r2 = 0,31;    r3 = 0,37   e   n1 = 120,    n2 = 100,    n3 = 150

 si ottiene

 

 un valore di Z uguale a 7,49.

Poiché nella distribuzione normale unilaterale il valore ottenuto è così grande da non essere nemmeno riportato nella tabella, ad esso è associata una probabilità a estremamente piccola. Di conseguenza, si può concludere che il valore medio rw è significativamente maggiore di zero.

 

D)   Per la verifica dell’ipotesi nulla H0: r = r0

 con ipotesi alternativa bilaterale H1: r ¹ r0

 cioè che rw = 0,392 sia significativamente differente da r0 = 0,32

 attraverso

 

 dopo aver calcolato il coefficiente di correlazione comune in scala z, cioè zw = 0,414

 si trasforma nella stessa scala il valore  r0 = 0,32

 ottenendo

Infine si calcola Z

 ottenendo un valore uguale a 1,58.

In una distribuzione normale bilaterale, a Z = 1,58 corrisponde una probabilità a = 0,114. Non è possibile rifiutare l’ipotesi nulla: rw = 0,392 non è significativamente differente da  r0 = 0,32.

 

Correzioni per il bias della trasformazione di Fisher

La trasformazione di r in z con la formula di Fisher determina un errore piccolo, ma sistematico e in eccesso, nel valore di z. E’ un risultato noto da tempo,

-   già evidenziato da H. Hotelling nel 1953 (vedi articolo: New light on the correlation coefficient and its trasformation. Journal Royal Statistical Society B 15, pp. 193-232)

-   e discusso dallo stesso R. A. Fisher nel 1958 (vedi testo: Statistical Methods for Research Workers, 13th ed., Hafner , New York, 146 pp.).

Ne deriva, in particolare quando si ricorre a test per la significatività della differenza tra k campioni, utilizzando ad esempio la formula già presentata

 

 

  che gli errori si sommano e la differenza tra valore calcolato e valore reale non è più trascurabile. L’errore è tanto maggiore quanto più alto è k.

Per la correzione del bias nel valore di z, ottenuto con la trasformazione di r, le proposte sono numerose. Tra le più frequenti per aggiustare z possono esserne citate due:

 

A)   La formula di Hotelling che, nell’articolo già citato del 1953,

 propone di sottrarre c

al valore z stimato.

Ad esempio, con r = 0,48 calcolato su n = 120

 

 

 si ottiene un valore di z = 0,523

Il valore corretto, ottenuto con la sottrazione della correzione

 

 

  c = 0,004 diventa z’ = z – c = 0,523 – 0,004 = 0,519.

 

B)   La formula di Fisher, proposta nel testo del 1955 per la correzione,

 è

Con lo stesso esempio, la correzione è

 

 c = 0,002  e il valore corretto diventa  z’ = z – c = 0,523 – 0,002 = 0,521.

 

Per il calcolo della significatività della differenza tra più coefficienti, invece di correggere ogni valore zi e usare la formula generale già presentata, è possibile utilizzare direttamente

 la formula corretta di Paul,

 

 che, come la precedente, utilizza la distribuzione c2 con df = k-1.

Ad esempio, applicata agli stessi dati della formula generale che ha stimato un valore di c22 = 2,306, con

   r1 = 0,48;    r2 = 0,31;    r3 = 0,37   e   n1 = 120,    n2 = 100,    n3 = 150   e   rw = 0,392

 si ottiene

 

 

un valore pari a 2,374.

Sempre S. R. Paul nella sua ampia presentazione del 1988 (Estimation of and testing significance for a common correlation coefficient, pubblicato su Communic. Statist. - Theor. Meth. Vol. 17, pp. 39-53) suggerisce che quando r è minore di 0,5 (indicazione approssimata)

-   per il calcolo del coefficiente medio zw

 al posto di

 sia usato

 

-  e nell’inferenza con ipotesi nulla H0: r = r0 per calcolare Z

 al posto di

 sia usata


 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007