Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

CAP III - ANALISI DELLE FREQUENZE

3.1. CONFRONTI TRA DISTRIBUZIONI OSSERVATE E DISTRIBUZIONI ATTESE

Nella pratica sperimentale, è frequente la necessità di verificare se esiste accordo tra una distribuzione osservata e la corrispondente distribuzione attesa o teorica. Il test viene definito test per la bontà dell’adattamento (in inglese, goodness of fit test). Sia per dati qualitativi che possono essere classificati in categorie nominali, sia per dati quantitativi distribuiti in classi di frequenza, nella ricerca ambientale è spesso necessario saggiare la concordanza tra fatto ed ipotesi.

E’ lo scopo per il quale storicamente è stato proposto il test c² (chi-quadro o chi-quadrato).

E’ un metodo di inferenza statistica che non richiede ipotesi “a priori” sul tipo e sulle caratteristiche della distribuzione, come invece avviene per la statistica parametrica che fa riferimento alla distribuzione normale. E’ uno dei metodi non parametrici (detti anche distribution free), con i quali è possibile stabilire se una serie di dati, raccolti in natura od in laboratorio, è in accordo con una specifica ipotesi sulla loro distribuzione o sulla loro frequenza relativa per classi.

Tabella 1/A. Distribuzioni fenotipiche (osservate ed attese) di Pisum sativum in alcuni esperimenti

Segregazione di un ibrido:	Fenotipo
Carattere	Dominante	Recessivo	Totale
a) Colore del fiore	Rossi 705	Bianchi 224	929
Distribuzione attesa (3:1)	696,75	232,25	929
b) Lunghezza del fusto	Alte 787	Basse 277	1064
Distribuzione attesa (3:1)	798	266	1064
c) Colore del seme	Gialli 6022	Verdi 2001	8023
Distribuzione attesa (3:1)	6017,25	2005,75	8023
d) Forma del seme	Lisci 5474	Rugosi 1850	7324
Distribuzione attesa (3:1)	5493	1831	7324

Il test c² serve anche per il confronto tra 2 o più distribuzioni osservate. In tali situazioni sperimentali, il suo uso più frequente è per la verifica dell’associazione tra le varie modalità di due o più caratteri qualitativi. Risulta particolarmente utile nella fase iniziale dell’analisi statistica, quando si ricercano le variabili più significative e le relazioni di associazione tra esse.

Per l’applicazione di questo tipo di inferenza, le distribuzioni di frequenze osservate delle classi fenotipiche e quelle attese secondo le leggi di Mendel forniscono un esempio classico. Si pone il problema di verificare se la distribuzione della progenie degli ibridi rispetta la distribuzione teorica attesa di 3 a 1 per un solo carattere (Tabella 1/A) oppure quella di 9:3:3:1 quando si seguono due caratteri (Tabella 1/B).

Tabella 1/B. Distribuzioni fenotipiche (osservate ed attese) di Pisum sativum in un esperimento di Mendel per due caratteri.

Segregazione di un diibrido	Frequenze
Fenotipi	Osservate	Attese
Gialli – Lisci	315	9/16 = 312,75
Gialli – Rugosi	101	3/16 = 104,25
Verdi – Lisci	108	3/16 = 104,25
Verdi – Rugosi	32	1/16 = 34,75
Totale	556	556,00

Dopo aver calcolato il totale della distribuzione osservata si calcola quella attesa. Se l’ipotesi è quella espressa nella tabella precedente, il totale deve essere diviso per 16, attribuendo poi 9 sedicesimi alla prima classe (Gialli – Lisci), 3 sedicesimi alle classi seconda (Gialli – Rugosi) e terza (Verdi – Lisci) e 1 sedicesimo alla quarta classe (Verdi - Rugosi).

E’ evidente (come mostra con chiarezza la tabella 1/B) che tra distribuzione osservata e distribuzione attesa non si ha mai una perfetta coincidenza, anche quando si possono constatare valori molto simili. Inoltre, in tutti i casi in cui si fanno prove ripetute per verificare una legge di distribuzione, è quasi impossibile ottenere esattamente i medesimi risultati sperimentali. Tra l’altro, mentre ogni classe di una distribuzione osservata è un conteggio e quindi è sempre formata da numeri interi, una distribuzione attesa segue una legge teorica di distribuzione dell’ammontare totale e pertanto spesso è formata da classi con numeri frazionali.

E’ ovvio, con il semplice buon senso, che

- differenze piccole possono essere ritenute accidentali e quindi non sono tali da negare un sostanziale accordo tra osservato ed atteso,

- mentre differenze grandi lasciano supporre che non siano state ottenute per caso, ma che siano presenti fattori differenti da quelli ipotizzati.

Il problema statistico è di poter dedurre scientificamente ed in modo universalmente accettato

- se le differenze sono trascurabili e quindi probabilmente dovute solo al caso,

- se sono di dimensioni tali da fare più ragionevolmente supporre una distribuzione realmente diversa da quella attesa.

La prima asserzione, quella della casualità dell’evento, è chiamata ipotesi nulla e viene indicata con H₀.

La seconda, quella dell’esistenza di una differenza reale anche se le cause sono ignote, è chiamata ipotesi alternativa e viene indicata con H₁ oppure con H_A.

La scelta tra le due ipotesi avviene sulla base della probabilità stimata con il test. Essa è la probabilità di trovare per caso la distribuzione osservata o una distribuzione che si allontani ancor più da quella attesa, nella condizione che l’ipotesi nulla sia vera. Se la probabilità calcolata è piccola, la logica dell’inferenza statistica rifiuta l’ipotesi nulla, accettando implicitamente l’ipotesi alternativa. Tuttavia si riconosce che è possibile errare in questa scelta; ma con una probabilità definita, non superiore a quella calcolata con il test.

L’importanza dell’inferenza consiste nella possibilità di trarre conclusioni generali dal singolo esperimento; in altri termini, nel conoscere la probabilità con cui le differenze tra una distribuzione osservata e quella attesa possono riprodursi per caso, in una serie di esperimenti analoghi.

Per affrontare questo problema di inferenza statistica, è possibile ricorrere al test c²_{(
g. d. l. )} (chi-quadrato), proposto da Pearson nel 1900 (Karl Pearson inglese, nato nel 1857 e morto nel 1936, docente a Cambridge, fondatore della rivista Biometrika). Con questo test, le ipotesi sono sulla distribuzione di tassi e proporzioni, ma per la stima della probabilità utilizza le frequenze assolute,

secondo la formula

dove:

- f_i^oss = frequenza osservata i-esima,

- f_i^att = frequenza attesa i-esima,

- g.d.l. = numero di gruppi (n) meno uno (gdl = n-1),

- e la sommatoria S è estesa a tutti gli n gruppi.

La distribuzione della densità di probabilità del c²_{( g. d. l. )}dipende dai suoi gradi di libertà, abbreviati in g.d.l. (in inglese, degrees of freedom, abbreviato in d.f.). Conteggiati nel calcolo delle frequenze attese, per definizione i gradi di libertà sono il numero di classi che restano indipendenti, conoscendo il numero totale dei dati. Nell’esempio delle classi fenotipiche, i gdl del chi quadrato sono n-1, dove n è il numero di gruppi o classi (non del totale degli individui contati).

Il numero di g.d.l. (o gdl, più rapidamente) viene riportato tra parentesi, ai piedi del simbolo: corrisponde al numero di osservazioni indipendenti. Infatti i valori attesi di ogni gruppo, che sono calcolati a partire dal totale ed attribuiti ad ogni gruppo secondo la legge di distribuzione che si vuole verificare, sono liberi di assumere qualsiasi valore. Fa eccezione il valore atteso nell’ultimo gruppo, poiché la sua frequenza è totalmente determinata dalla differenza tra la somma di tutti i gruppi precedenti, già definiti, ed il totale.

Negli esempi fino ad ora presentati, il numero di gradi di libertà corrisponde al numero di gruppi meno uno.

Ma quando tra n variabili casuali sussistono k vincoli lineari, cioè relazioni che riducono il numero di osservazioni indipendenti, i gradi di libertà del corrispondente diminuiscono di un numero pari a k.

Il numero dei gradi di libertà è determinato dai vincoli, di qualsiasi natura, che esistono fra le frequenze dei vari gruppi.

Per esempio, in genetica delle popolazioni le frequenze attese fenotipiche dei gruppi sanguigni A, B, AB e O sono calcolate dalle frequenze relative p, q, ed r (il cui totale è sempre uguale a 1) dei geni I^A, I^B ed i, mediante lo sviluppo di

;

pertanto, i 4 gruppi fenotipici attesi, calcolati da 3 frequenze geniche, hanno 2 gradi di libertà.

Per la stessa legge, anche i 6 gruppi genotipici (I^AI^A, I^Ai, I^BI^B, I^Bi, I^AI^B, ii) hanno 2 gdl.

Secondo uno schema valido per tutti i test statistici, il procedimento logico che deve essere seguito nell’applicazione del comprende diverse fasi, che possono essere riassunte in 7 passaggi:

1 - stabilire l’ipotesi nulla (H₀) e l’eventuale ipotesi alternativa (H₁);

2 - scegliere il test più appropriato per saggiare l’ipotesi nulla H₀, secondo le finalità della ricerca e le caratteristiche statistiche dei dati (in questo caso, ovviamente, è il test chi quadrato);

3 - specificare il livello di significatività (indicato con a, i cui criteri di scelta saranno discussi nel capitolo 4), l’ampiezza del campione e i gradi di libertà;

4 - trovare la distribuzione di campionamento del test statistico nell’ipotesi nulla , di norma fornita da tabelle;

5 - stabilire la zona di rifiuto (che negli esercizi di norma sarà prefissata al 5% indicato con la simbologia a = 0.05 );

6 - calcolare il valore del test statistico sulla base dei dati sperimentali, stimando la probabilità P ad esso associata;

7 - sulla base della probabilità, trarre le conclusioni:

- se la probabilità P calcolata risulta superiore a quella a prefissata, concludere che non è possibile rifiutare l’ipotesi nulla H₀;

- se la probabilità P calcolata risulta inferiore a quella a prefissata, rifiutare l’ipotesi nulla e quindi implicitamente accettare l’ipotesi alternativa H₁.

ESEMPIO 1. Utilizzando i dati sulla segregazione mendeliana della precedente tabella 1/B, il calcolo del è semplice

ottenendo = 0,47.

Con l’aiuto delle tavole (riportate alla fine del capitolo), è possibile stimare con precisione la probabilità di trovare differenze uguali o superiori a quelle riscontrate tra distribuzione osservata e distribuzione attesa, nell’ipotesi nulla (H₀) che le differenze siano dovute esclusivamente a fattori casuali.

Nella tavola a 2 entrate della distribuzione dei valori critici del

- per 3 gradi di libertà (indicato sulla riga) e

- per probabilità a = 0.05 (indicato sulla colonna),

il valore del (approssimato alla seconda cifra decimale) risulta uguale a 7,81.

Il valore calcolato nell’esercizio (0,47) è sensibilmente minore di quello riportato nella tabella (7,81). Si deve concludere che la probabilità di trovare per caso le differenze osservate o differenze ancora maggiori che possano essere attribuite al caso è alta (il 47%), superiore al valore prefissato del 5%. Di conseguenza, non si può rifiutare l’ipotesi nulla. Si afferma che le differenze tra distribuzione osservata e distribuzione attesa non sono significative; con alta probabilità dipendono solo dal caso.

Per la comprensione dell’inferenza statistica con il test chi quadrato, è utile ricordare che quanto più le differenze tra osservato ed atteso sono grandi, tanto più il valore del c² sarà elevato. Quindi, la probabilità che tali differenze siano dovute solo al caso sarà bassa e si rifiuterà l’ipotesi nulla, accettando implicitamente l’ipotesi alternativa H₁.

Al contrario, quando le differenze tra osservato ed atteso sono ridotte, ugualmente basso sarà il valore del c²; pertanto, sarà elevata la probabilità che esse siano imputabili esclusivamente al caso e si accetterà l’ipotesi nulla H₀.

ESEMPIO 2 . In una popolazione di Mixodiaptomus kupelwieseri (Copepode, Calanoide) campionate in una pozza temporanea (Lagastro - Val d’Aveto) sono state osservate le seguenti frequenze di 4 alleli del locus MPI (Mannoso fosfato isomerasi):

Tipo di Allele	Freq. Osservata
Allele 1	26
Allele 2	38
Allele 3	62
Allele 4	118
Totale	244

E’ ragionevole affermare che nella popolazione i quattro alleli abbiano le stesse frequenze e che quelle le differenze riscontrate tra essi possano essere imputate al caso (H₀), alle variazioni dovute al campionamento? Oppure è più logico pensare che esse sono effettivamente differenti (H₁) anche nella popolazione?

Risposta. Se fosse vera l’ipotesi nulla espressa (i quattro gruppi hanno la stessa frequenza), la frequenza attesa per ogni allele sarebbe 244/4 = 61.

Il valore del chi quadrato con 3 gradi di libertà per saggiare tale ipotesi

risulta = 82,03.

Consultando la tabella del chi-quadrato per 3 gradi di libertà,

- alla probabilità a = 0.05 corrisponde un valore critico c² = 7,82

- alla probabilità a = 0.01 corrisponde un valore critico c² = 11,34

- alla probabilità a = 0.001 un valore critico c² = 16,27.

Il valore del chi quadrato calcolato sui dati sperimentali (c² = 82,03) è molto più grande. La probabilità che le differenze tra le frequenze riscontrate e quelle attese secondo l’ipotesi nulla siano imputabili esclusivamente al caso è molto piccola, inferiore non solo al 5% ma addirittura a 0,1%.

Si rifiuta l’ipotesi nulla e implicitamente si accetta l’ipotesi alternativa.

Il test permettere di arrivare alla conclusione che, con probabilità inferiore a 0,1% di commettere un errore, si può sostenere che i 4 alleli hanno frequenze tra loro molto differenti.

Segregazione di un diibrido