CORRELAZIONE E COVARIANZA
18.8. TEST PER LA DIFFERENZA TRA PIU’ COEFFICIENTI DI CORRELAZIONE COEFFICIENTE DI CORRELAZIONE COMUNE rw E SUA SIGNIFICATIVITA’
Per il confronto simultaneo tra più coefficienti di correlazione indipendenti r1, r2, …, rk, cioè per verificare l’ipotesi nulla H0: r1 = r2 = = rk (seguendo le indicazioni di Jerrold H. Zar nel suo test del 1999 Biostatistical Analysis, fourth ed. Prentice Hall, New Jersey, pp. 390-394) si stima un valore con gdl k-1
dove - k è il numero di coefficienti di correlazione campionari r a confronto simultaneo - ni è il numero di dati campionari di ogni ri - zi è il valore di ogni ri trasformato nel corrispondente valore zi con la formula
Se il test non risulta significativo, si può concludere che i diversi valori ri sono stime campionarie dello stesso valore reale r; di conseguenza, come sua stima migliore, è utile calcolare il coefficiente di correlazione comune o medio ponderato rw (common r or weighted mean of r) con
Successivamente, per un confronto con gli r1, r2, …, rk originali, zw può essere ritrasformato nella scala r (ricordando ancora che, in valore assoluto, r varia da 0 a 1, mentre z varia da 0 a ¥) attraverso
dove - e è la costante neperiana (approssimata con 2,718).
A questo valore comune rw , con un test molto più potente rispetto a quelli di ogni singolo ri , poiché ha il vantaggio di essere calcolato su tutte le N coppie di dati, in quanto
può essere applicato - sia il test per la verifica dell’ipotesi nulla H0: r = 0 che rw non sia significativamente differente da zero mediante la formula proposta da J. Neyman nel 1959 (vedi capitolo: Optimal asymptotic test of composite hypothesis, pp. 213-234. Nel libro di U. Grenander (ed.) Probability and Statistics: The Harald Cramér Volume, John Wiley, New York) e ripresa da S. R. Paul nel 1988
- sia il test per la verifica dell’ipotesi nulla H0: r = r0 che rw non sia significativamente differente da un valore prefissato r0 mediante la formula proposta da S. R. Paul nel 1988 (vedi, anche per la citazione precedente, l’articolo: Estimation of and testing significance for a common correlation coefficient. sulla rivista Communic. Statist. - Theor. Meth. 17: 39-53, nel quale fa una presentazione e una disamina generale di questi metodi)
dove - è il valore rw dopo trasformazione di Fisher, - è il valore atteso o di confronto r0 dopo trasformazione di Fisher.
In questi due test sul coefficiente comune rw , le ipotesi alternative H1 possono essere bilaterali oppure unilaterali. L’unica differenza consiste nella stima della probabilità a: se in una distribuzione normale bilaterale oppure unilaterale.
Se i k campioni a confronto sono dipendenti, quali ad esempio i valori ri di correlazione della variabile XA con le variabili XB, XC, XD calcolati sugli stessi prelievi, questa tecnica non è corretta. Si dovrà ricorrere alla statistica multivariata, con la correlazione multipla.
ESEMPIO 1. In una ricerca sulla correlazione lineare semplice tra le quantità di due conservanti XA e XB contenuti in campioni di alimenti, con tre verifiche indipendenti sono stati ottenuti i seguenti risultati: 1 - r1 = 0,48 con n1 = 120 2 - r2 = 0,31 con n2 = 100 3 - r3 = 0,48 con n3 = 150 Con questi dati, a) verificare se tra questi ri esiste una differenza significativa; b) in caso di non rifiuto della ipotesi nulla, calcolare il coefficiente comune rw; c) verificare se il coefficiente di correlazione comune rw è significativamente maggiore di zero; d) verificare se rw si discosta significativamente dal valore r0 = 0,32 indicato come valore reale in una pubblicazione presa a riferimento.
Risposte. A) Dopo aver trasformato i valori di ri nei corrispondenti valori zi
ottenendo: z1 = 0,523; z2 = 0,320; z3 = 0,389 si calcola un valore del c2 con gdl= 2 applicando
Scindendo per comodità di calcolo
dove
e
con i dati dell’esempio
risultano A = 64,149 e
B = 61,843 determinando
un valore di c22 = 2,306. Poiché il valore critico alla probabilità a = 0.05 con df = 2 è uguale a 5,991 non si può rifiutare l’ipotesi nulla. Una lettura più attenta della tabella dei valori critici evidenzia che il valore calcolato (2,306) è inferiore anche a quello riportato per la probabilità a = 0.25 che risulta uguale a 2,773. Si può quindi concludere che i tre coefficienti di correlazione r1, r2 e r3 sono statisticamente uguali.
B) Con questi risultati dell’analisi sulla significatività della differenza tra i k valori campionari, è utile calcolare il coefficiente di correlazione comune rw, come stima migliore del valore r della popolazione. Con z1 = 0,523; z2 = 0,320; z3 = 0,389 e n1 = 120, n2 = 100, n3 = 150 il valore di zw comune
risulta uguale a 0,414. Ritrasformato in rw
risulta uguale a 0,392.
C) Per la verifica dell’ipotesi nulla H0: r = 0 con ipotesi alternativa unilaterale H1: r > 0 si utilizzano le varie osservazioni campionarie, per cui da r1 = 0,48; r2 = 0,31; r3 = 0,37 e n1 = 120, n2 = 100, n3 = 150 si ottiene
un valore di Z uguale a 7,49. Poiché nella distribuzione normale unilaterale il valore ottenuto è così grande da non essere nemmeno riportato nella tabella, ad esso è associata una probabilità a estremamente piccola. Di conseguenza, si può concludere che il valore medio rw è significativamente maggiore di zero.
D) Per la verifica dell’ipotesi nulla H0: r = r0 con ipotesi alternativa bilaterale H1: r ¹ r0 cioè che rw = 0,392 sia significativamente differente da r0 = 0,32 attraverso
dopo aver calcolato il coefficiente di correlazione comune in scala z, cioè zw = 0,414 si trasforma nella stessa scala il valore r0 = 0,32 ottenendo
Infine si calcola Z
ottenendo un valore uguale a 1,58. In una distribuzione normale bilaterale, a Z = 1,58 corrisponde una probabilità a = 0,114. Non è possibile rifiutare l’ipotesi nulla: rw = 0,392 non è significativamente differente da r0 = 0,32.
Correzioni per il bias della trasformazione di FisherLa trasformazione di r in z con la formula di Fisher determina un errore piccolo, ma sistematico e in eccesso, nel valore di z. E’ un risultato noto da tempo, - già evidenziato da H. Hotelling nel 1953 (vedi articolo: New light on the correlation coefficient and its trasformation. Journal Royal Statistical Society B 15, pp. 193-232) - e discusso dallo stesso R. A. Fisher nel 1958 (vedi testo: Statistical Methods for Research Workers, 13th ed., Hafner , New York, 146 pp.). Ne deriva, in particolare quando si ricorre a test per la significatività della differenza tra k campioni, utilizzando ad esempio la formula già presentata
che gli errori si sommano e la differenza tra valore calcolato e valore reale non è più trascurabile. L’errore è tanto maggiore quanto più alto è k. Per la correzione del bias nel valore di z, ottenuto con la trasformazione di r, le proposte sono numerose. Tra le più frequenti per aggiustare z possono esserne citate due:
A) La formula di Hotelling che, nell’articolo già citato del 1953, propone di sottrarre c
al valore z stimato. Ad esempio, con r = 0,48 calcolato su n = 120
si ottiene un valore di z = 0,523 Il valore corretto, ottenuto con la sottrazione della correzione
c = 0,004 diventa z’ = z – c = 0,523 – 0,004 = 0,519.
B) La formula di Fisher, proposta nel testo del 1955 per la correzione, è
Con lo stesso esempio, la correzione è
c = 0,002 e il valore corretto diventa z’ = z – c = 0,523 – 0,002 = 0,521.
Per il calcolo della significatività della differenza tra più coefficienti, invece di correggere ogni valore zi e usare la formula generale già presentata, è possibile utilizzare direttamente la formula corretta di Paul,
che, come la precedente, utilizza la distribuzione c2 con df = k-1. Ad esempio, applicata agli stessi dati della formula generale che ha stimato un valore di c22 = 2,306, con r1 = 0,48; r2 = 0,31; r3 = 0,37 e n1 = 120, n2 = 100, n3 = 150 e rw = 0,392 si ottiene
un valore pari a 2,374. Sempre S. R. Paul nella sua ampia presentazione del 1988 (Estimation of and testing significance for a common correlation coefficient, pubblicato su Communic. Statist. - Theor. Meth. Vol. 17, pp. 39-53) suggerisce che quando r è minore di 0,5 (indicazione approssimata) - per il calcolo del coefficiente medio zw al posto di
sia usato
- e nell’inferenza con ipotesi nulla H0: r = r0 per calcolare Z al posto di
sia usata
| |
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |