Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

METODI NON PARAMETRICI PER UN CAMPIONE

7.16. IL T² DI FREEMAN-TUKEY E CONFRONTO CON IL c² E IL G² NEI TEST PER LA BONTA’ DELL’ADATTAMENTO.

Il test più diffuso per la bontà dell’adattamento di una distribuzione campionaria a una qualsiasi distribuzione teorica, di tipo matematico (come la legge dell’uniformità), biologico (come la legge di Mendel o quella di Hardy-Weinberg) oppure di altra natura,

è il “chi-square test”

dove la sommatoria è estesa a tutte le caselle.

Introdotto da Karl Pearson nel 1900 con l’articolo On the criterion that a given system of deviations from the probable in the case of a correlated system of variables in such that it can be reasonably supposed to have arisen from random sampling (pubblicato su Philosophical Magazine, 5^th Series, Vol. 50, pp. 157-175) per il caso di un solo campione, è stato successivamente esteso a tabelle di contingenza a due dimensioni; più tardi, all’analisi di quelle di più dimensioni.

Nel caso di un solo campione, secondo la definizione fornita da H. T. David nel 1968 (alla voce Goodness of fit del volume Int. Encyclopedia of the Social Sciences Vol. 6, pp. 199-206), il livello di significatività ottenuto con il test statistico per la bontà dell’adattamento (the goodness-of-fit test statistic) è la probabilità che il valore del test ecceda quello calcolato, se il campione osservato fosse stato estratto casualmente da una popolazione che soddisfi le condizioni ipotizzate nel modello.

Con formula differente dalla precedente, il risultato del

“chi-square test” è ottenuto con

dove N è la somma di tutte le osservazioni del campione.

Benché offra il vantaggio di abbreviare il calcolo del c² totale, questo metodo ha il grave svantaggio di non calcolare il contributo di ogni cella al valore complessivo. Quindi di non fornire una informazione che nella interpretazione del risultato è sempre importante.

Un metodo alternativo per affrontare la stessa serie di problemi e che utilizza la medesima distribuzione c²,

è il likelihood ratio

le cui proprietà sono state descritte da vari autori.

Tra le innumerevoli pubblicazioni, sono importanti i lavori di Vassily Hoeffding del 1965 (vedi l’articolo Asymptotically optimal tests for the multinomial distribution, pubblicato su Annals of Mathematical Statistics Vol. 36, pp. 369-401) e quello di R. R. Bahadur del 1967 (l’articolo An optimal property of the likelihood ratio statistic, pubblicato nel volume Proceedings of Fifth Berkeley Symposium on Mathematical Statistics and Probability Vol. 1, pp. 13 – 26).

Un altro metodo che ricorre sempre alla stessa distribuzione c²

è il test c² di Tukey-Freeman (indicato spesso in letteratura con T², anche se tale simbolo è usato anche per altri indici)

proposto da M. F. Freeman e John W. Tukey nel 1950 (nell’articolo Transformations related to the angular and the square root, pubblicato su Annals of Mathematical Statistics Vol. 27, pp. 607-611). Successivamente, è stato rilanciato alla fine degli anni ’60, il periodo in cui il dibattito scientifico su come estendere queste analisi a tabelle di più dimensioni è stato maggiormente vivo.

Tra gli autori che successivamente ripropongono il T², sono da ricordare

- M. M. Yvonne Bishop (con l’articolo del 1969 Calculating smoothed contingency tables, pubblicato nel volume The National Halothane Study, ed. John P. Bunker, William H. Forrest Jr., Frederick Mosteller and Leroy D. Vandam, National Institutes of Health, Washington D. C., U. S. Government Printing Office, pp. 273 – 286)

- M. M. Yvonne Bishop insieme con Stephen Fienberg e Paul W. Holland per il loro volume del 1975 (Discrete Multivariate Analysis, Cambridge, Mass., M.I.T. Press).

Nel 1978 Kinley Larntz ha fornito un confronto tra i tre metodi, per tabelle a più dimensioni (vedi l’articolo Small-sample comparisons of exact levels for chi-squared goodness-of-fit statistics, su Journal of the American Statistical Association Vol. 73, pp. 253-263).

Per quanto riguarda la loro diffusione nella ricerca applicata, tra questi metodi il test c² di Pearson è stato quello generalmente utilizzato fino agli anni ’90. Più recentemente, per le sue proprietà additive che saranno illustrate in questo paragrafo e in quelli successivi, il ha avuto una grande diffusione il G² o log likelihodd ratio. Il test T² di Tukey-Freeman invece, il più noto tra i numerosi metodi alternativi che sono stati proposti, non compare ancora in nessun programma informatico a grande diffusione e è riportato solo in pochissimi testi per specialisti. Facilmente a motivo del maggior lavoro di calcolo manuale che richiede al ricercatore, della maggiore complessità logica della formula che ne complica la presentazione didattica, senza in compenso offrire vantaggi nella interpretazione del risultato. Riveste quindi un interesse pratico molto limitato. E’ stato utilizzato in qualche lavoro scientifico nelle discipline biologiche e ambientali e pertanto viene presentato in queste dispense.

Benché servano per risolvere lo stesso problema e si applichino agli stessi dati, i tre metodi non forniscono gli stessi risultati.

A causa di queste differenti capacità di valutare l’accordo tra la distribuzione osservata e una distribuzione teorica, nella pratica dell’analisi dei dati statistici vari esperti, tra i quali Leo A. Goodman nel 1973 (nell’articolo Guided and Unguided Methods for Selecting Models for a Set of T Multidimensional Contingency Tables, pubblicato su Journal of the American Statistical Association Vol. 68, pp. 165-175), raccomandano di utilizzare più test. Se le probabilità coincidono, le conclusioni risultano rafforzate. Tuttavia non è ancora stata fornita una direttiva condivisa, su come interpretare i risultati, quando le probabilità ottenute con i vari metodi sono molto differenti.

Questo problema di sintetizzare risposte divergenti si presenta ora con frequenza maggiore, poiché molti programmi informatici per la stessa analisi riportano non un test solo, ma una intera batteria o serie, lasciando all’utente la scelta tra uno (ma quale?) e la sintesi logica dei vari risultati.

L’illustrazione del metodo T² e il confronto tra i vari metodi sono ottenuti con la loro applicazione a un esempio.

ESEMPIO. Stimare il valore del “chi-square test” per verificare se le quattro classi fenotipiche, ottenute dalla segregazione di un diibrido, seguono la legge di Mendel (distribuzione attesa 9:3:3:1):

Gruppi					Totale
Frequenze Osservate	134	39	48	19	240
Proporzioni Attese	9	3	3	1	16
Frequenze Attese	135,0	45,0	45,0	15,0	240,0

Risposta.

1 - Con la formula

si ottiene

un chi-square uguale a 2,0741 con 3 gdl.

2 - Con la formula

si ottiene

un chi-square uguale a 2,0741 con 3 gdl.

3 - Con la formula

si ottiene

il risultato G² = 2,024 distribuito come un chi-square con 3 gdl.

4 - Con la formula

calcolando separatamente il contributo delle 4 classi

si ottiene il risultato T² = 2,0529 distribuito come un chi-square con 3 gdl.

Il confronto fra i tre risultati (considerando che le due formule per il c² ovviamente forniscono lo stesso valore)

Indice	Gruppi
Indice					Totale
	0,0074	0,8000	0,2000	1,0667	2,0741
	---	---	---	---	2,0240
	0,0042	0,7815	0,2252	1,0420	2,0529

mostra differenze ridotte, sia in totale che per ogni classe (dove ha significato). Vari articoli scientifiche, tra le quali quello di Larntz appena citato, provano che esse sono di dimensioni maggiori

- quando il campione è piccolo e/o

- i vari gruppi hanno frequenze attese tra loro molto differenti.

In altre termini, le differenze tendono a essere minime quando la distribuzione teorica è rettangolare e il campione è grande.

Per interpretare i risultati, è vantaggioso anche distinguere il contributo fornito da ogni classe o gruppo, come riportati nella tabella precedente.

In essa si osserva che

- il contributo maggiore è fornito dallo scarto tra frequenza osservata e frequenza attesa per la classe , che però è anche quella con la frequenza attesa nettamente minore;

- il contributo minore è quella della classe , che è la maggiore per numero di osservazioni attese.

Se il problema (come quello dell’esempio) è di genetica, per la esatta comprensione del risultato è sempre importante fornirne una interpretazione da genetista. Ad esempio, se una classe è meno frequente dell’atteso, spiegare perché questi individui, caratterizzati da un fenotipo specifico, sono “selezionati contro” oppure chiarire il vantaggio in “fitness” della classe con un numero di individui osservati maggiore dell’atteso, ecc. …

Nell’applicazione della statistica, è sempre fondamentale la spiegazione disciplinare. L’ipotesi nulla da verificare deve nascere entro una teoria o la riprova di un assunto. Per arricchire il dibattito scientifico e fare crescere la conoscenza, il risultato del test deve essere interpretato sulla base dei fattori che hanno fatto nascere l’ipotesi.

Spesso è utile valutare il contributo di ogni gruppo al risultato complessivo. Per questo scopo, il test G² o log-likelihood ratio si dimostra inadeguato.

Tuttavia, anche nei test per la bontà dell’adattamento, quando si dispone di più gruppi è spesso utile scomporre i gradi di libertà in altrettanti confronti ortogonali.

E’ l’applicazione in cui il test G² dimostra vantaggi importanti.

Questa logica della scomposizione dei gradi di libertà nei test per la bontà dell’adattamento è del tutto simile a quella già presentata per i confronti a priori nell’analisi della varianza.

Per richiamarne i concetti fondamentali, è utile una loro applicazione all’esempio precedente.

Gruppi					Totale
Frequenze Osservate	134	39	48	19	240
Proporzioni Attese	9	3	3	1	16
Frequenze Attese	135,0	45,0	45,0	15,0	240,0

Con 4 gruppi e 3 gdl, è possibile effettuare 3 confronti ortogonali.

Tale numero è più ridotto di quello dei confronti possibili; di conseguenza, si pone il problema della loro scelta. Il concetto fondamentale è che tutti i confronti effettuati devono essere impostati in modo tale che il risultato di un confronto qualsiasi non dia informazioni su quello di un altro.

A questo scopo, è sempre richiesta la conoscenza disciplinare delle caratteristiche dei gruppi. Ad esempio, come schematizzato nella tabella,

Coefficienti ortogonali					Totale
Confronto 1°	+1/2	+1/2	-1/2	-1/2	0
Confronto 2°	+1	-1	0	0	0
Confronto 3°	0	0	+1	-1	0

sono possibili 3 confronti, che tra loro devono essere ortogonali: la somma del prodotto di due coefficienti ortogonali deve dare 0. Ad esempio, il confronto 1° e 3° sono tra loro ortogonali perché

(+1/2 x 0) + (1/2 x 0) + (-1/2 x +1) + (-1/2 x –1) = 0

Lo stesso risultato è fornito dalle altre due coppie di confronti, cioè il 1° rispetto al 3°, il 2° rispetto al 3°.

I tre confronti individuati nell’ultima tabella forniscono i seguenti valori del c² e del G².

I) Con il primo test, che ha 1 gdl, è possibile chiedersi se il rapporto tra le classi contenenti l’allele e quelle contenenti l’allele segue la legge mendeliana di 3:1

Gruppi			Totale
Frequenze Osservate	173	67	240
Proporzioni Attese	3	1	4
Frequenze Attese	180,0	60,0	240,0

Con il c² si ottiene

Con il G² si ottiene

II) Con un secondo test, che ha 1 gdl, è possibile chiedersi se entro il fenotipo il rapporto tra e è 3:1 come atteso

Gruppi			Totale
Frequenze Osservate	134	39	173
Proporzioni Attese	3	1	4
Frequenze Attese	129,75	43,25	173,0

Con il c² si ottiene

Con il G² si ottiene

III) Con il terzo test, che ha sempre 1 gdl, è possibile chiedersi se entro il fenotipo il rapporto tra e è ancora 3:1

Gruppi			Totale
Frequenze Osservate	48	19	67
Proporzioni Attese	3	1	4
Frequenze Attese	50,25	16,75	67,0

Con il c² si ottiene

Con il G² si ottiene

I risultati dei due metodi, nei tre test di scomposizione dei 3 gdl complessivi, sono tra loro molto vicini:

Metodo	Confronti			Totale
Metodo	I	II	III	Totale
c²	1,0889	0,5568	0,4029	2,0486
G²	1,0624	0,5698	0,3918	2,0240

Ma mentre

- la somma dei tre test con 1 gdl del test G² (2,0240) coincide esattamente con quello ottenuto in precedenza mediante l’analisi simultanea delle 4 quattro classi (2,0240),

- la somma dei tre test (2,0486 ) è solo approssimato a quello precedente (2,0741) e non coincide esattamente.

La scomposizione dei confronti ortogonali con il test G² è additiva, come i gdl.; con il test c² è solo approssimata.

La scomposizione dei 3 gdl avrebbe potuto seguire un percorso differente. Ad esempio, iniziare da B.

I tre confronti sarebbero stati

Coefficienti ortogonali					Totale
Confronto 1	+1/2	-1/2	+1/2	-1/2	0
Confronto 2	+1	0	-1	0	0
Confronto 3	0	+1	0	-1	0

Non è corretto effettuarli entrambi, scegliendo a posteriori la serie più significativa. Come illustrato nei paragrafi dedicati ai confronti multipli a posteriori, si altera la probabilità a experiment-wise o family-wise.

Compete al biologo scegliere, sulla base del problema che intende verificare. Ovviamente i confronti effettuati e i risultati ottenuti sono differenti.

Non è necessario arrivare sempre alla scomposizione di tutti i gdl. Alcuni confronti, possono avere più di un solo gdl.

A ulteriore dimostrazione delle svariate possibilità di scelta dei confronti che è possibile effettuare sulla stessa serie di gruppi campionari, ne è presentata una ancora differente.

Ad esempio, fondato su un problema di genetica quantitativa, con un approccio totalmente diverso si può partire dalla semplice verifica se il gruppo con i due geni recessivi () rispetta il rapporto di 1:15 contro l’insieme degli altri 3 (.

Gruppi			Totale
Frequenze Osservate	221	19	240
Proporzioni Attese	15	1	16
Frequenze Attese	225,0	15,0	240,0

Questo primo confronto ha 1 gdl.

Con il c² si ottiene

Con il G² si ottiene

Successivamente è possibile utilizzare i 2 gdl rimanenti per verificare se i tre gruppi , , rispettano tra essi i rapporti teorici di 9: 3: 3.

Gruppi				Totale
Frequenze Osservate	134	39	48	221
Proporzioni Attese	9	3	3	16
Frequenze Attese	132,6	44,2	44,2	221,0

Con il c² si ottiene

Con il G² si ottiene

La somma dei due confronti

Metodo	Confronti		Totale
Metodo	I	II	Totale
c²	1,1378	0,9536	2,0914
G²	1,0544	0,9696	2,0240

dimostra ancora una volta che

- i risultati ottenuti con i due metodi sono sempre simili anche se non coincidenti: la differenza maggiore è nel primo confronto, dove le classi sono tra loro fortemente sbilanciate,

- la somma dei due G² (2,0240) coincide esattamente sia con quello ottenuto in precedenza mediante l’analisi simultanea delle 4 quattro classi (2,0240), sia con la scomposizione precedente,

- il risultato della somma dei due test (2,0914) è solo approssimato a quello precedente, ottenuto con l’analisi simultanea dei 4 gruppi (2,0741) e a quello ricavato con la scomposizione in tre confronti (2,0486).

In sostituzione di questo ultimo calcolo con 3 gruppi e quindi 2 gdl, è possibile effettuare 2 confronti ortogonali con 2 classi ognuno; non entrambi.