Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

COEFFICIENTI DI ASSOCIAZIONE, DI COGRADUAZIONE E DELL’ACCORDO

RISCHIO RELATIVO E ODDS RATIO

20.2. IL T² DI FREEMAN-TUKEY E CONFRONTO CON IL c² E IL G² NEI TEST PER LA BONTA’ DELL’ADATTAMENTO; CENNI DI ALTRI TEST ANALOGHI.

Il test più diffuso per valutare la bontà dell’adattamento di una distribuzione campionaria a una qualsiasi distribuzione teorica,

è il chi-square test

Come illustrato nel paragrafo precedente e con la stessa simbologia,

può anche essere scritto

Nel caso di un solo campione, secondo la definizione fornita da H. T. David nel 1968 (alla voce Goodness of fit del volume Int. Encyclopedia of the Social Sciences Vol. 6, pp. 199-206),

- il livello di significatività ottenuto con il test statistico per la bontà dell’adattamento (the goodness-of-fit test statistic) è la probabilità che il valore del test ecceda quello calcolato, se il campione osservato fosse stato estratto casualmente da una popolazione che soddisfi le condizioni ipotizzate nel modello.

Con formula differente dalle precedenti, il risultato del chi-square test

è ottenuto anche con

dove

- N è la somma di tutte le osservazioni del campione.

Benché offra il vantaggio di abbreviare il calcolo del c² totale, questa formula ha

- il grave svantaggio di non calcolare il contributo di ogni cella al valore complessivo.

Quindi ha il grave limite di non fornire una informazione, che nella interpretazione del risultato è sempre importante.

Un metodo alternativo per affrontare la stessa serie di problemi e che utilizza la medesima distribuzione c²,

è il likelihood ratio

Con una simbologia differente, la formula può essere

come

dove

- X = è un vettore random di frequenze, con

- e E(X) =

- e dove p = è un vettore di probabilità con .

Il test è descritto in modo dettagliato e confrontato con altri metodi già da S. S. Wilks nel 1938 nell’articolo The large-sample distributionof the likelihood ratio for testing composite hypotheses (su Annals of Mathematical Statistics Vol. 9, pp.: 60-62)

Le proprietà sono state descritte da vari autori.

Tra le pubblicazioni importanti possono essere citati

- l’articolo di W. G. Cochran del 1952 The test of goodness of fit (pubblicato su Annals of Mathematical Statistics Vol. 23, pp. 315 - 345) in cui descrive lo sviluppo storico del di Pearson e discute una varietà di test analoghi,

- l’articolo di Vassily Hoeffding del 1965 Asymptotically optimal tests for the multinomial distribution (pubblicato su Annals of Mathematical Statistics Vol. 36, pp. 369 - 401),

- quello di R. R. Bahadur del 1967 An optimal property of the likelihood ratio statistic (pubblicato nel volume Proceedings of Fifth Berkeley Symposium on Mathematical Statistics and Probability Vol. 1, pp. 13 – 26).

Un altro metodo che ricorre sempre alla stessa distribuzione c²

è il test c² di Tukey-Freeman (indicato spesso in letteratura con T², anche se tale simbolo è usato anche per altri indici)

scritto anche come

Tra gli autori che successivamente ripropongono il T², sono da ricordare

- M. M. Yvonne Bishop (con l’articolo del 1969 Calculating smoothed contingency tables, pubblicato nel volume The National Halothane Study, ed. John P. Bunker, William H. Forrest Jr., Frederick Mosteller and Leroy D. Vandam, National Institutes of Health, Washington D. C., U. S. Government Printing Office, pp. 273 – 286)

- M. M. Yvonne Bishop insieme con Stephen Fienberg e Paul W. Holland per il loro volume del 1975 (Discrete Multivariate Analysis, Cambridge, Mass., M.I.T. Press).

Nel 1978 Kinley Larntz ha fornito un confronto tra i tre metodi, per tabelle a più dimensioni (vedi l’articolo Small-sample comparisons of exact levels for chi-squared goodness-of-fit statistics, su Journal of the American Statistical Association Vol. 73, pp. 253-263).

In letteratura è possibile trovare anche una formula leggermente differente.

Ad esempio,

- nell’articolo di H. B. Lawal e G. J. G. Upton del 1980 An approximation to the distribution of the X² goodness-of-fit statistic for use with small expectations (pubblicato su Biometrika Vol. 67, pp.: 447 – 453) si parla di

- modified Freeman-Tukey statistic

- mentre nell’articolo di S. E. Fienberg del 1979 The use of chi-squared statistic for categorial data problems (su Journal of the Royal Statistical Society, B Vol. 41, pp.: 54 – 64) si trova un’altra definizione della

- Freeman-Tukey statistic

La seconda T² e la F² differiscono per un termine .

Altre proposte sono fondate sul cambiamento del denominatore, al quale viene posta la frequenza osservata in sostituzione di quella attesa. Tra esse, per l’autorevolezza scientifica del proponente la

- Neyman-modified statistic

introdotta da J. Neyman nel 1949 con l’articolo Contribution to the theory of the test (su Proc. Ist. Berkely Symp., pp.: 239-273)

- la modified loglikelihood ratio statistic o minimum discriminant information statistic for the external constraints problem

citata da S. Kullback nel 1959 nel volume Information Theory and Statistics (New York, Wiley) e nel 1985 nell’articolo Minimum discriminant information (MDI) estimation (in Encyclopedia of Statistical Sciences, Vol. 5, eds. S: Kotz e N. L. Johnson, New York, Wiley, pp.: 527 – 529)

Per quanto riguarda la loro diffusione nella ricerca applicata, tra questi metodi il test c² di Pearson è stato quello generalmente utilizzato fino agli anni ’90. Più recentemente, per le sue proprietà additive che saranno illustrate in questo paragrafo e in quelli successivi, ha avuto una grande diffusione il G² o log likelihodd ratio.

Il test T² di Tukey-Freeman invece, il più noto tra i numerosi metodi alternativi che sono stati proposti in questi decenni, non compare ancora in nessun programma informatico a grande diffusione ed è riportato solo in pochissimi testi per specialisti. Facilmente a motivo del maggior lavoro di calcolo manuale che richiede al ricercatore, della maggiore complessità logica della formula che ne complica la presentazione didattica, dalla mancanza di vantaggi nella interpretazione del risultato. Riveste quindi un interesse pratico molto limitato.

E’ stato utilizzato in qualche lavoro scientifico nelle discipline biologiche e ambientali. Pertanto viene presentato in queste dispense.

Benché servano per risolvere lo stesso problema e si applichino agli stessi dati, i tre metodi non forniscono gli stessi risultati.

A causa di queste differenti capacità di valutare l’accordo tra la distribuzione osservata e una distribuzione teorica, nella pratica dell’analisi dei dati statistici vari esperti, tra i quali Leo A. Goodman nel 1973 (nell’articolo Guided and Unguided Methods for Selecting Models for a Set of T Multidimensional Contingency Tables, pubblicato su Journal of the American Statistical Association Vol. 68, pp. 165-175), raccomandano di utilizzare più test.

Se le probabilità coincidono, le conclusioni risultano rafforzate. Tuttavia non è ancora stata fornita una direttiva condivisa, su come interpretare i risultati, quando le probabilità ottenute con i vari metodi sono molto differenti.

Questo problema di sintetizzare risposte divergenti si presenta ora con frequenza maggiore, poiché molti programmi informatici per la stessa analisi riportano non un test solo, ma una intera batteria o serie, lasciando all’utente la scelta tra uno (ma quale?) e la sintesi logica dei vari risultati.

L’illustrazione del metodo T² e il confronto tra i vari metodi sono ottenuti con la loro applicazione a un esempio.

ESEMPIO. Stimare il valore del “chi-square test” per verificare se le quattro classi fenotipiche, ottenute dalla segregazione di un diibrido, seguono la legge di Mendel (distribuzione attesa 9:3:3:1):

Gruppi					Totale
Frequenze Osservate	134	39	48	19	240
Proporzioni Attese	9	3	3	1	16
Frequenze Attese	135,0	45,0	45,0	15,0	240,0

Risposta.

1 - Con la formula

si ottiene

= 2,0741.

2 - Con la formula

si ottiene

= 2,0741.

3 - Con la formula

si ottiene

G² = 2,024 distribuito come un chi-square con 3 gdl.

4 - Con la formula

calcolando separatamente il contributo delle 4 classi

T² = 2,0529 distribuito come un chi-square con 3 gdl.

Il confronto fra i tre risultati

Indice	Gruppi
Indice					Totale
	0,0074	0,8000	0,2000	1,0667	2,0741
	---	---	---	---	2,0240
	0,0042	0,7815	0,2252	1,0420	2,0529

(considerando che le due formule per il c² ovviamente forniscono lo stesso valore) riportati in tabella per una comparazione più agevole

mostra differenze ridotte, sia in totale che per ogni classe (dove ha significato).

Vari articoli scientifiche, tra le quali quello di Larntz appena citato, provano che le differenze sono di dimensioni maggiori

- quando il campione è piccolo e/o

- i vari gruppi hanno frequenze attese tra loro molto differenti.

In altre termini, le differenze tendono a essere minime quando la distribuzione teorica è rettangolare e il campione è grande.

Per interpretare i risultati, è vantaggioso anche distinguere il contributo fornito da ogni classe o gruppo, come riportati nella tabella precedente.

In essa si osserva che

- il contributo maggiore è fornito dallo scarto tra frequenza osservata e frequenza attesa per la classe , che però è anche quella con la frequenza attesa nettamente minore;

- il contributo minore è quella della classe , che è la maggiore per numero di osservazioni attese.

Se il problema (come quello dell’esempio) è di genetica, per la esatta comprensione del risultato è sempre importante fornirne una interpretazione da genetista. Ad esempio, se una classe è meno frequente dell’atteso, spiegare perché questi individui, caratterizzati da un fenotipo specifico, sono “selezionati contro” oppure chiarire il vantaggio in “fitness” della classe con un numero di individui osservati maggiore dell’atteso, ecc. …

Nell’applicazione della statistica, è sempre fondamentale la spiegazione disciplinare. L’ipotesi nulla da verificare deve nascere entro una teoria o la riprova di un assunto. Per arricchire il dibattito scientifico e fare crescere la conoscenza, il risultato del test deve essere interpretato sulla base dei fattori che hanno fatto nascere l’ipotesi.

Spesso è utile valutare il contributo di ogni gruppo al risultato complessivo. Per questo scopo, il test G² o log-likelihood ratio si dimostra inadeguato.

Tuttavia, anche nei test per la bontà dell’adattamento, quando si dispone di più gruppi è spesso utile scomporre i gradi di libertà in altrettanti confronti ortogonali.

E’ l’applicazione in cui il test G² dimostra vantaggi importanti.

Questa logica della scomposizione dei gradi di libertà nei test per la bontà dell’adattamento è del tutto simile a quella già presentata per i confronti a priori nell’analisi della varianza.

Per richiamarne i concetti fondamentali, è utile una loro applicazione all’esempio precedente.

Gruppi					Totale
Frequenze Osservate	134	39	48	19	240
Proporzioni Attese	9	3	3	1	16
Frequenze Attese	135,0	45,0	45,0	15,0	240,0

Con 4 gruppi e 3 gdl, è possibile effettuare 3 confronti ortogonali.

Tale numero è più ridotto di quello dei confronti possibili; di conseguenza, si pone il problema della loro scelta. Il concetto fondamentale è che tutti i confronti effettuati devono essere impostati in modo tale che il risultato di un confronto qualsiasi non dia informazioni su quello di un altro.

A questo scopo, è sempre richiesta la conoscenza disciplinare delle caratteristiche dei gruppi. Ad esempio, come schematizzato nella tabella,

Coefficienti ortogonali					Totale
Confronto 1°	+1/2	+1/2	-1/2	-1/2	0
Confronto 2°	+1	-1	0	0	0
Confronto 3°	0	0	+1	-1	0

sono possibili 3 confronti, che tra loro devono essere ortogonali: la somma del prodotto di due coefficienti ortogonali deve dare 0. Ad esempio, il confronto 1° e 3° sono tra loro ortogonali perché

(+1/2 x 0) + (1/2 x 0) + (-1/2 x +1) + (-1/2 x –1) = 0

Lo stesso risultato è fornito dalle altre due coppie di confronti, cioè il 1° rispetto al 3°, il 2° rispetto al 3°.

I tre confronti individuati nell’ultima tabella forniscono i seguenti valori del c² e del G².

I) Con il primo test, che ha 1 gdl, è possibile chiedersi se il rapporto tra le classi contenenti l’allele e quelle contenenti l’allele segue la legge mendeliana di 3:1

Gruppi			Totale
Frequenze Osservate	173	67	240
Proporzioni Attese	3	1	4
Frequenze Attese	180,0	60,0	240,0

Con il c² si ottiene

Con il G² si ottiene

II) Con un secondo test, che ha 1 gdl, è possibile chiedersi se entro il fenotipo il rapporto tra e è 3:1 come atteso

Gruppi			Totale
Frequenze Osservate	134	39	173
Proporzioni Attese	3	1	4
Frequenze Attese	129,75	43,25	173,0

Con il c² si ottiene

Con il G² si ottiene

III) Con il terzo test, che ha sempre 1 gdl, è possibile chiedersi se entro il fenotipo il rapporto tra e è ancora 3:1

Gruppi			Totale
Frequenze Osservate	48	19	67
Proporzioni Attese	3	1	4
Frequenze Attese	50,25	16,75	67,0

Con il c² si ottiene

Con il G² si ottiene

I risultati dei due metodi, nei tre test di scomposizione dei 3 gdl complessivi, sono tra loro molto vicini:

Metodo	Confronti			Totale
Metodo	I	II	III	Totale
c²	1,0889	0,5568	0,4029	2,0486
G²	1,0624	0,5698	0,3918	2,0240

Ma mentre

- la somma dei tre test con 1 gdl del test G² (2,0240) coincide esattamente con quello ottenuto in precedenza mediante l’analisi simultanea delle 4 quattro classi (2,0240),

- la somma dei tre test (2,0486 ) è solo approssimato a quello precedente (2,0741) e non coincide esattamente.

La scomposizione dei confronti ortogonali con il test G² è additiva, come i gdl.; con il test c² è solo approssimata.

La scomposizione dei 3 gdl avrebbe potuto seguire un percorso differente. Ad esempio, sarebbe stato possibile iniziare da B.

In questa condizione, i tre confronti sarebbero stati

Coefficienti ortogonali					Totale
Confronto 1	+1/2	-1/2	+1/2	-1/2	0
Confronto 2	+1	0	-1	0	0
Confronto 3	0	+1	0	-1	0

Non è corretto effettuarli entrambi, scegliendo a posteriori la serie più significativa. Come illustrato nei paragrafi dedicati ai confronti multipli a posteriori, si altera la probabilità a experiment-wise o family-wise.

Compete al biologo scegliere, sulla base del problema che intende verificare. Ovviamente i confronti effettuati e i risultati ottenuti sono differenti.

Non è necessario arrivare sempre alla scomposizione di tutti i gdl. Alcuni confronti, possono avere più di un solo gdl.

A ulteriore dimostrazione delle svariate possibilità di scelta dei confronti che è possibile effettuare sulla stessa serie di gruppi campionari, ne è presentata una ancora differente.

Ad esempio, fondato su un problema di genetica quantitativa, con un approccio totalmente diverso si può partire dalla semplice verifica se il gruppo con i due geni recessivi () rispetta il rapporto di 1:15 contro l’insieme degli altri 3 (.

Gruppi			Totale
Frequenze Osservate	221	19	240
Proporzioni Attese	15	1	16
Frequenze Attese	225,0	15,0	240,0

Questo primo confronto ha 1 gdl.

Con il c² si ottiene

Con il G² si ottiene

Successivamente, è possibile utilizzare i 2 gdl rimanenti per verificare se i tre gruppi , , rispettano tra essi i rapporti teorici di 9: 3: 3.

Gruppi				Totale
Frequenze Osservate	134	39	48	221
Proporzioni Attese	9	3	3	16
Frequenze Attese	132,6	44,2	44,2	221,0

Con il c² si ottiene

Con il G² si ottiene

La somma dei due confronti

Metodo	Confronti		Totale
Metodo	I	II	Totale
c²	1,1378	0,9536	2,0914
G²	1,0544	0,9696	2,0240

dimostra ancora una volta che

- i risultati ottenuti con i due metodi sono sempre simili anche se non coincidenti: la differenza maggiore è nel primo confronto, dove le classi sono tra loro fortemente sbilanciate,

- la somma dei due G² (2,0240) coincide esattamente sia con quello ottenuto in precedenza mediante l’analisi simultanea delle 4 quattro classi (2,0240), sia con la scomposizione precedente,

- il risultato della somma dei due test (2,0914) è solo approssimato a quello precedente, ottenuto con l’analisi simultanea dei 4 gruppi (2,0741) e a quello ricavato con la scomposizione in tre confronti (2,0486).

In sostituzione di questo ultimo calcolo con 3 gruppi e quindi 2 gdl, è possibile effettuare 2 confronti ortogonali con 2 classi ognuno; non entrambi.