analisi della varianza (ANOVA  I)

a un CRITERIO di classificazione

E CONFRONTI TRA PIU’ MEDIE

 

 

 

10.5.   CONFRONTI MULTIPLI A POSTERIORI O POST HOC (UMCP)

 

 

Se, nel confronto tra le medie di k gruppi, con il test F è stata rifiutata l’ipotesi nulla

H0: m1  =  m2  = m3  = … = mk

si pone il problema di verificare tra quali esista una differenza  significativa.

A questo scopo, i confronti a priori propongono i metodi migliori, poiché hanno una probabilità a maggiore di risultare significativi e permettono un confronto tra tutte le medie in modo logico ed ordinato.

Ma con la diffusione dei computer,

- in questi decenni i confronti multipli o a posteriori hanno acquisito un rilevante vantaggio pratico,

dal momento che sono riportati in molti programmi informatici insieme con l’ANOVA e possono essere applicati con facilità.

Sono quindi usati con frequenza maggiore di quelli a priori, anche se i calcoli sono più complessi e la preferenza ad essi accordata nelle pubblicazioni spesso appare illogica, ai fini di una corretta analisi statistica, che deve sempre preferire i test più potenti nel rispetto della protezione.

 

Recentemente, anche i confronti a priori sono stati inseriti negli stessi programmi informatici. Di conseguenza, ora è possibile ritornare ad una scelta fondata solamente su criteri statistici corretti, non su convenienze pratiche.

Scegliere i confronti da effettuare sulla base dei risultati dell’esperimento, eventualmente dopo il calcolo delle medie e quindi dell’identificazione di quelle che tra loro sono più simili o differenti, è sbagliato secondo la logica statistica: altera la stima della probabilità a. Tuttavia, in vari casi, i test a posteriori sono necessari.

 

I confronti multipli o a posteriori (nei testi in italiano confronti non prestabiliti o non pianificati, nei testi in inglese post-hoc comparisons, incidental comparisons o multiple comparisons oppure l’acronimo UMCP da Unplanned Multiple Comparison Procedures ) sono utili quando non è possibile programmare i confronti a priori, al momento del disegno sperimentale, per carenza d’informazione. Quando i trattamenti non possono essere classificati in gruppi, tra loro ortogonali, che spieghino più utilmente di altri la differenza complessiva, rimane solo la possibilità di effettuare tutti i confronti tra le medie o loro combinazioni, alla ricerca di quelle differenze che hanno determinato la significatività totale.

 

E’ detta “procedura di dragaggio” e serve per individuare le differenze da studiare successivamente in modo più approfondito, con analisi biologiche, ecologiche, chimiche o ambientali, alla ricerca delle cause possibili. Le ipotesi di lavoro non sono dedotte da una precedente conoscenza delle leggi della natura, ma partono dalle differenze sperimentali osservate, nella convinzione che, se esistono, devono pure avere una causa. Il rischio di tale approccio è di “inventarsi” comunque una spiegazione scientifica all’interno della disciplina, apparentemente giustificata dalla significatività statistica; spesso, si presentano argomentazioni esterne, che non dimostrano né la consistenza né la correttezza della procedura statistica utilizzata.

 

In alcuni testi, i confronti a posteriori sono presentati come alternativi all’analisi della varianza a un criterio di classificazione. La maggioranza degli autori, per un principio di cautela che verrà spesso ricordato, suggerisce di applicarli solo dopo che l’analisi della varianza ha permesso di rifiutare l’ipotesi nulla sull’uguaglianza delle medie. Da qui il termine post-hoc.

In generale, essi hanno le stesse condizioni di validità del test F di Fisher e del test t di Student: normalità della popolazione (o degli errori) e omogeneità della varianza. I vari test di confronto multiplo non sono tutti ugualmente robusti rispetto all’allontanamento da queste assunzioni; in tutti, la non omoschedasticità è più grave e determina variazioni anche sensibili nelle probabilità d’errore di Tipo I e di Tipo II.

 

Per questi confronti sono stati proposti diversi metodi, che come impostazione logica derivano dal test t di Student per ipotesi bilaterali e dagli intervalli fiduciali. La scelta del test più adeguato dipende da tre serie di problemi tra loro collegati, che hanno avuto soluzioni differenti e hanno determinato tante proposte di test differenti:

-  la stima esatta della probabilità a di ogni confronto, la cui somma non deve superare la probabilità a totale prefissata;

-  il numero totale p di confronti che si effettuano e i diversi modi per calcolarlo;

-  le procedure di inferenza simultanea, cioè il calcolo di un intervallo fiduciale valido per tutti i confronti; in essi l’uguaglianza della dimensione (n) dei campioni è desiderabile, in quanto permette di avere la potenza e la robustezza massime, ma non è indispensabile e pone alcuni problemi sulla stima di a e b.

 

La probabilità di commettere un errore di I tipo, cioè la probabilità a di trovare una differenza significativa quando in realtà essa non esiste, è corretta per il singolo confronto tra due medie. Questo tasso d’errore, chiamato con termine tecnico comparison-wise, all’aumentare del numero di confronti determina un tasso d’errore per tutto l’esperimento, chiamato experiment-wise, notevolmente maggiore. E’ la terminologia

-  introdotta nel 1959 da T. A. Ryan (con l’articolo Multiple comparisons in psychological research, pubblicato su Psychological Bulletin, vol. 56, pp. 26-47),

-  sviluppando concetti già presentati da J. W: Tukey nel 1949 (nell’articolo Comparing individual means in the analysis of variance, pubblicato su Biometrics, vol. 5, pp. 99-114)

-  e da H. O. Hartley nel 1955 (con l’articolo Some recent developments in analysis of variance, pubblicato in Communications in Pure and Applied Mathematics, vol. 8, pp. 47-72).

Nel 1980, B. E. Huitema (nel volume The analysis of covariance and alternatives, pubblicato da Wiley Interscience, New York) ha introdotto il termine family-wise.

 

La differenza tra comparison-wise, experiment-wise e family-wise può essere spiegata con un esempio semplice.

Se si effettua un test t di Student tra due medie con a = 0.05, tale confronto (comparisonwise) ha una probabilità di 0,95 di affermare il vero e una probabilità (p) 0,05 di commettere un errore di Tipo I. Con n prove, indicando con r il numero di eventi (errori),

 la probabilità di avere r = 0 errori è

 

Prob (r = 0) =

 

Se i confronti sono n = 10, la probabilità che l’insieme di tutti i confronti, cioè tutto l’esperimento (experimentwise), non commetta un errore di Tipo I (r = 0)

 è

Prob (r = 0) =

 

In una analisi della varianza a più fattori, ad esempio con Trattamenti e Blocchi oppure a quadrati latini, family-wise è la probabilità di errore per gruppi di confronti in ogni fattore sperimentale. Tuttavia, spesso experimentwise e familywise sono usati come sinonimi.

 

Approfondendo due concetti già espressi all’inizio del paragrafo, da questa presentazione dei problemi emerge che, anche nella scelta del test più adatto ai confronti multipli, si deve dare la preferenza a quello più potente; come spesso desiderato dal ricercatore, cioè a quello che ha la probabilità maggiore di rifiutare l’ipotesi nulla in un singolo confronto.

Tuttavia, occorre anche non superare la probabilità prescelta per tutto l’esperimento (aT), cioè la protezione complessiva contro l’errore di I tipo.

Nella scelta del test a posteriori, quindi è necessario un compromesso tra

-  comparisonwise (a), collegata alla potenza del singolo test e

-  experimentwise (aT), collegata al principio di cautela o protezione di tutta la serie di test.

 

La ricerca del difficile equilibrio tra le esigenze contrastanti della potenza e della protezione, per il quale non è ancora stato trovato una soluzione universalmente condivisa, ha determinato una molteplicità di proposte. Esse variano in funzione delle differenti situazioni sperimentali (gruppi bilanciati; confronti singoli tra tutte le medie o solo tra alcune) e dei diversi rischi che il ricercatore intende correre rispetto alle probabilità a e b. Di conseguenza, i confronti multipli sono tra gli argomenti ancora più dibattuti ed in maggiore evoluzione della statistica univariata. Su molti argomenti, i pareri degli esperti sono differenti, quando non contrastanti.

 

Il primo metodo di protezione, quindi per non innalzare troppo la probabilità d’errore di Tipo I dell’experimentwise, suggerito da tutti i testi moderni, è la prassi già citata di

-  fare precedere ai confronti multipli un’ANOVA e di

-  effettuare i confronti a posteriori solo quando con essa si è rifiutata l’ipotesi nulla.

 

Un test non pianificato è detto protetto (protected), quando esso è applicato solamente dopo che il test F dell’ANOVA sia risultato significativo. Con questo accorgimento, si evita che anche un solo confronto tra due medie risulti significativo, quando l’analisi della varianza su tutti i dati non ha rifiutato l’ipotesi nulla. Questo contrasto tra conclusioni è possibile, poiché i due test (l’ANOVA e un test non pianificato tra due medie) utilizzano probabilità a non identiche. Inoltre, mentre l’analisi della varianza trova tutti concordi nella procedura e, a partire dagli stessi dati, porta tutti alle medesime conclusioni, i confronti multipli a posteriori, fondati su logiche differenti, possono portare a risultati divergenti.

In altri testi, questi confronti vengono chiamati contrasti non-ortogonali,  in quanto le probabilità dei vari confronti sono correlate tra loro. Ad esempio, se prima si confronta un placebo con due farmaci e poi lo stesso placebo con uno solo dei due farmaci, questo secondo confronto risulterà più o meno significativo se lo è stato anche il precedente. Occorre quindi utilizzare una probabilità a inferiore per ogni singolo test di confronto, cioè applicare un test più conservativo.


 

Negli ultimi anni, i programmi informatici hanno ampliato il numero di test da applicare, senza che i manuali relativi ne illustrino la logica e la procedura statistica. Tra i confronti multipli più citati in letteratura e più frequentemente proposti nei pacchetti informatici, sono da ricordare:

1 – il principio di Bonferroni o diseguaglianza di Boole e il metodo di Dunn-Sidak;

2 – la procedura LSD di Fisher e la modifica di Winer;

3 - il test di Tukey o precedura HSD con l’estensione di Kramer;

4 - il test di Student-Newman-Keuls, spesso citato come test SNK o test Q;

5 - il test di Scheffé con l’estensione di Gabriel;

6 - il test di Dunnett per confronti a coppie tra un controllo e vari trattamenti;

7 – il campo di variazione multiplo di Duncan;

8 – la procedura per i confronti sequenziali di Holm e il metodo di Shaffer.

 

 

10.5.1   il principio di Bonferroni E IL METODO DI DUNN-SIDAK

Al matematico italiano Bonferroni è attribuita la relazione sulla diseguaglianza della probabilità, non la sua prima applicazione statistica. Secondo essa, la stima di a è molto semplice:

-  per effettuare p volte il test t di Student mantenendo costante la probabilità totale aT (experiment-wise),

-  la probabilità a di ogni confronto (comparison-wise) deve essere minore di aT/p.

 

La disuguaglianza di Bonferroni

 può essere scritta come

a  <  aT / p

 

Per esempio, quando con 3 confronti la probabilità totale aT di commettere un errore di Tipo I non deve essere superiore a 0.05, la probabilità a di ogni singolo confronto deve essere minore di 0.0166 (0.05/3); se i confronti fossero 4, la probabilità a di ogni confronto non deve superare 0.0125 (0.05/4).

 

In altri testi è chiamata disuguaglianza di Boole. Essa afferma che, se A1, A2, ..., An sono eventi compatibili, la probabilità che almeno uno si verifichi è minore o al più uguale alla somma delle probabilità che ciascuno di essi ha di verificarsi, indipendentemente dagli altri. Essa può essere scritta come

 

In realtà, come sarà più avanti approfondito, la relazione tra a  e  aT  non è lineare ma esponenziale. Per una stima più accurata della probabilità comparisonwise sulla base di quella dell’experimentwise, è utile ricordare che

1         la probabilità d’errore complessivo (aT) è legata

2          alla probabilità di errore di ogni confronto (a) e

1         al numero di confronti da effettuare (p)

 secondo la relazione esponenziale

aT =  1 – (1 - a)p

Per esempio, con aT = 0.05   e   p = 5,

 la probabilità a di ogni confronto non è uguale a 0.01 (0.05/5)

a  = 1 – 0.951/5   =   1 – 0.98979  =  0.01021

 ma a 0.01021, con una differenza relativa, rispetto alla stima del Bonferroni del 2,1 per cento;

 

Sempre con  aT  = 0.05  ma con  p = 10,  non è più uguale a 0.005 (0.05/10)

a  =  1 – 0.951/10  =  1 – 0.99488  =  0.00512

 ma a 0.00512, con un aumento relativo del 2,4 per cento rispetto alla stima prudenziale o cautelativa del Bonferroni.

 

E’ il metodo di stima dell’a comparisonwise detta di Dunn-Sidak (dalla proposte indipendenti di di O. J. Dunn e di Sidak), come descritto da H. K. Ury nel suo articolo del 1976 (A comparison of four procedures for multiple comparisons among means – pairwise contrasts for arbitrary sample sizes, pubblicato su Tecnometrics Vol. 18, pp. 89-97) e  da R. R. Sokal e F. J. Rohlf già nella seconda edizione del loro testo nel 1981 (Biometry 2nd  ed. W. H. Freeman, San Francisco, California, USA).

Per la stima della probabilità a comparisonwise in entrambi i metodi, è implicito che si debba predeterminare p, il numero di confronti non ortogonali che si vogliono effettuare.

 

A causa di questa approssimazione nella stima della probabilità, la proposta di Bonferroni è ritenuta sostanzialmente accettabile quando si effettuano pochi confronti, perché le differenze tra le due stime sono minime. Ma quando i confronti superano 6-7, il valore di a stimato per ognuno di essi diventa troppo piccolo; di conseguenza, il metodo è ancora accettato da alcuni, ma molti altri autori lo ritengono troppo cautelativo.

Con il metodo di Bonferroni, utilizzabile anche con la probabilità stimata secondo Dunn-Sidak, per il confronto tra le medie di due gruppi non bilanciati si ricorre al t di Student per 2 campioni indipendenti:

 

t(Bonferroni) ( aT, p, n)  = 

 dove

aT  =  la probabilità prefissata globale per tutti i confronti (di solito, 0.05 o 0.01),

-  p  =  il numero di confronti che si intendono eseguire

n  =  sono i gdl della varianza d’errore s2e utilizzata.

 

Se si vuole valutare se la differenza tra due medie è maggiore di una quantità prefissata (, in modo analogo al test t di Student per 2 campioni indipendenti,

 la formula precedente diventa

 

t(Bonferroni) ( aT, p, n)  = 

 

Rispetto al test t di Student per due campioni indipendenti, questo metodo offre due vantaggi, tra loro collegati:

- utilizza la varianza d’errore  s2e  calcolata con l’ANOVA tra tutti i gruppi, al posto della varianza associata s2p  dei due soli gruppi a confronto;

- usa i gradi di libertà della varianza d’errore s2e (n) per la scelta del valore di t, al posto di quelli derivati solo dal numero dei dati presenti nei due gruppi a confronto (nA-1 + nB – 1).

 

Nel caso di 2 campioni con lo stesso numero (n) d’osservazioni o repliche (detti campioni bilanciati), il valore del t(Bonferroni)  è più rapidamente calcolato

 con la formula equivalente

t(Bonferroni) ( aT, p, n) = 

 

Essa evidenzia una differenza significativa tra ogni coppia di medie alla probabilità totale aT prefissata, quando il valore calcolato supera il valore critico riportato nella tabella successiva.


 

Valori critici del test t di Bonferroni

 

-   p =  numero di confronti simultanei

-   gdl  o  n = gradi di libertà della varianza d’errore

 

aT = 0.05

 

NUMERO p DI CONFRONTI SIMULTANEI

n

2

3

4

5

6

7

8

9

10

5

3,17

3,54

3,81

4,04

4,22

4,38

4,53

4,66

4,78

7

2,84

3,13

3,34

3,50

3,64

3,76

3,86

3,95

4,03

10

2,64

2,87

3,04

3,17

3,28

3,37

3,45

3,52

3,58

12

2,56

2,78

2,94

3,06

3,15

3,24

3,31

3,37

3,43

15

2,49

2,69

2,84

2,95

3,04

3,11

3,18

3,24

3,29

20

2,42

2,61

2,75

2,85

2,93

3,00

3,06

3,11

3,16

24

2,39

2,58

2,70

2,80

2,88

2,94

3,00

3,05

3,09

30

2,36

2,54

2,66

2,75

2,83

2,89

2,94

2,99

3,03

40

2,33

2,50

2,62

2,71

2,78

2,84

2,89

2,93

2,97

60

2,30

2,47

2,58

2,66

2,73

2,79

2,84

2,88

2,92

120

2,27

2,43

2,54

2,62

2,68

2,74

2,79

2,83

2,86

¥

2,24

2,39

2,50

2,58

2,64

2,69

2,74

2,77

2,81

 

aT = 0.01

 

NUMERO p DI CONFRONTI SIMULTANEI

n

2

3

4

5

6

7

8

9

10

5

4,78

5,25

5,60

5,89

6,15

6,36

6,56

6,70

6,86

7

4,03

4,36

4,59

4,78

4,95

5,09

5,21

5,31

5,40

10

3,58

3,83

4,01

4,15

4,27

4,37

4,45

4,53

4,59

12

3,43

3,65

3,80

3,93

4,04

4,13

4,20

4,26

4,32

15

3,29

3,48

3,62

3,74

3,82

3,90

3,97

4,02

4,07

20

3,16

3,33

3,46

3,55

3,63

3,70

3,76

3,80

3,85

24

3,09

3,26

3,38

3,47

3,54

3,61

3,66

3,70

3,74

30

3,03

3,19

3,30

3,39

3,46

3,52

3,57

3,61

3,65

40

2,97

3,12

3,23

3,31

3,38

3,43

3,48

3,51

3,55

60

2,92

3,06

3,16

3,24

3,30

3,34

3,39

3,42

3,46

120

2,86

2,99

3,09

3,16

3,22

3,27

3,31

3,34

3,37

¥

2,81

2,93

3,02

3,09

3,16

3,19

3,24

3,26

3,29

 


 

E’ possibile ricavare il valore critico del t anche da una tabella dettagliata dei valori F di Fisher (usando la colonna con 1 gdl per la varianza al numeratore),

 per la nota relazione

 

Tuttavia per t ed F esiste un problema pratico: non sempre questi valori sono disponibili alla probabilità a richiesta.

Per esempio, con 3 confronti alla probabilità complessiva aT = 0.05 occorrerebbe disporre di una tabella che fornisce il valore di t o di F alla probabilità a = 0.0167.

 

Quando non si dispone di tabelle come la precedente, ma solo di quella per il test t di Student, è semplice ottenere i valori del t di Bonferroni solamente quando il numero di confronti è 5 oppure 10 o 20, poiché con aT uguale a 0.05 (experimentwise) la probabilità a di ogni confronto (comparisonwise) diventa rispettivamente 0.01 oppure 0.005 o 0.001, valori riportati in quasi tutte le tavole sinottiche.

 

Quando i campioni non sono delle stesse dimensioni n, più recentemente vari autori hanno aggiunto una ulteriore cautela.

Al posto della formula generale precedente,

 

t(Bonferroni) ( aT, p, n)  = 

 

 propongono di utilizzare la formula per due campioni bilanciati

 

t(Bonferroni) ( a, p, n) = 

 con n uguale al valore minore tra n1 e n2

E’ ovvio che non si supera la probabilità experimentwise (aT) prefissata. Ma, come in tutte le modalità di protezione, il test perde in potenza nella comparisonwise (a); di conseguenza, altri ricercatori la ritengono troppo cautelativa. In una visione metodologica più generale, quando si effettuano queste scelte il dibattito verte sul contrastante conflitto d’interesse tra il ricercatore, che cerca la potenza maggiore, e il referee, che deve garantire la protezione maggiore, al fine di non rifiutare l’ipotesi nulla con troppa facilità.

 

ESEMPIO. Con le stesse misure d’inquinamento (utilizzate nell’esempio del paragrafo precedente per i confronti a priori) rilevate in 5 zone, delle quali sono stati riportati le medie e il numero di osservazioni:

 

 

ZONE

A

B

C

D

E

Medie

208,2

199,8

141,0

123,3

119,1

6

5

6

6

7

 

 

 verificare con il test t di Bonferroni tra quali medie esiste una differenza significativa.

 

Risposta.   Secondo alcuni autori di testi di statistica, i campioni dovrebbero essere bilanciati. Altri sostengono che, con leggere differenze nel numero di osservazioni, è lecito l’uso di questo test, ricorrendo alla formula generale che considera il diverso numero di osservazioni per gruppo.

Con 5 medie, si hanno 10 differenze, che possono essere presentate in modo chiaro ed utile in una tabella con tutti i confronti:

 

 

Confronti

Medie

Differenze

1)     A vs B

208,2 - 199,8

8,4

2)     A vs C

208,2 - 141,4

66,8

3)     A vs D

208,2 - 123,3

84,9

4)     A vs E

208,8 - 119,1

89,7

5)     B vs C

199,8 - 141,4

58,4

6)     B vs D

199,8 - 123,3

76,5

7)     B vs E

199,8 - 119,1

80,7

8)     C vs D

141,4 - 123,3

18,1

9)     C vs E

141,4 - 119,1

22,3

10)   D vs E

123,3 - 119,1

4,2

 

 

Le differenze sono da considerare in valore assoluto, in quanto i confronti multipli comportano solo test bilaterali.

(Ricordare: nell’analisi della varianza con i 5 gruppi è stata rifiutata l’ipotesi nulla e che la varianza d’errore s2e  è risultata uguale a 146,5 con 25 gdl.

 

Per ogni confronto si calcola il valore del t(Bonferroni) e si confronta il risultato con i valori critici riportati nella tabella.

 

Per esempio, A vs B diventa

 

t(Bonferroni) =    =  =  =  = 1,14

 

 e fornisce un valore di t = 1,14 per un numero di confronti p = 10 e gdl = 25.

Quando il numero esatto di gdl non è riportato nella tabella dei valori critici, per trovare il valore critico nella tabella si utilizzano i gdl immediatamente inferiori (24 nella tabella), in quanto rappresenta la scelta più cautelativa.

Per p = 10 e alla probabilità complessiva a = 0.05 il valore critico riportato è 3,09.

Il valore calcolato (1,14) è inferiore: non si può rifiutare l’ipotesi nulla e quindi la media di A e quella di B non differiscono in modo significativo.

 

Il confronto A vs D diventa

 

t(Bonferroni) =    =  =  =  = 12,13

 

 e stima un valore del t = 12,13 da confrontare sempre con il valore critico di 3,09. Infatti sono invariati sia la probabilità a totale, sia il numero p di confronti, sia i gdl della varianza d’errore.

Alla probabilità a = 0.01 il valore critico, sempre per p = 10 e gdl = 24, risulta uguale a 3,74.

Di conseguenza, la differenza di questo confronto (208,2 e 123,3) risulta significativa: le due medie (A vs D) differiscono tra loro con probabilità a< 0.01.

 

Poiché le ultime due medie a confronto (A vs D) hanno lo stesso numero d’osservazioni (6), si può ottenere lo stesso risultato più rapidamente con

 

t(Bonferroni) =    =  =  = 12,13

 

Se questi confronti sono eseguiti con programmi informatici e quindi il ricercatore per ognuno di essi dispone anche della probabilità a calcolata in modo preciso, la decisione sulla significatività per aT = 0.05 è semplice: con 10 confronti, sono significativi tutti i confronti con a £ 0.005

 

 

10.5.2   la procedura LSD di Fisher E LA MODIFICA DI WINER

Per non effettuare tutti i singoli confronti tra più medie e riuscire ugualmente ad avere la visione generale delle differenze significative, un modo rapido è il calcolo di una differenza minima.

Il metodo è analogo all’intervallo fiduciale di una differenza tra due medie, con il test t di Student. In vari testi di lingua inglese, l’idea di condurre tutti i possibili confronti tra coppie di medie è attribuita a Fisher, per la presentazione dettagliata del metodo nel volume del 1935 The design of experiments (edito da Oliver and Boyd di Edinburgh).

Chiamata in inglese Least Significant Difference e tradotta in italiano come Differenza Minima Significativa (meno spesso, in modo letterale, come Differenza Meno Significativa), è abbreviata in LSD.

 

Disponendo di k medie, ognuna calcolata su n dati, con il t di Student si ottiene l’intervallo di confidenza per una generica coppia di medie ( e ).

 Sono significative tutte le p differenze (con D  = -) che in valore assoluto superano la quantità LSD, stimata

 con

LSD = ×

 

 dove

-  ta/2 = percentile con probabilità a/2 della distribuzione t con gdl 2(n-1),

n = gdl della varianza d’errore stimata con l’ANOVA, come stima più corretta della varianza campionaria (s2) di ogni gruppo.

 

Disponendo di k = 4 medie,

-  le p = 6 differenze sono riportate in una tabella come la seguente


 

 

MEDIE

 

(1)

(2)

(3)

(4)

 

MEDIE

MEDIE

DIFFERENZE (Dij)

(2)     

D12 = -

---

---

---

(3)    

D13 = -

D23 = -

---

---

(4)    

D14 = -

D24 = -

D34 = -

---

 

 

Sono significative tutte le differenze (Dij) maggiori di LSD.

 

Pensando che il t di Student, che considera i gdl e fornisce un intervallo maggiore della distribuzione Z, inglobasse anche i rischi della relazione tra comparisonwise ed esperimentwise, Fisher non entrò nel dibattito su queste probabilità né su quella della relazione tra a e b. Questo metodo è ritenuto corretto per una singola differenza, ma non per più differenze. Per utilizzarlo, già Fisher nel 1935 proponeva il test LSD protetto (protected LSD test), richiedendo l’applicazione del principio di cautela già ricordato, cioè di effettuare i confronti a coppie solo quando il test F dell’ANOVA è significativo.

Nel 1971 B. J. Winer (vedi il volume Statistical principles in experimental design. 2nd ed. McGraw-Hill, New York, USA) ha modificato l’approccio LSD di Fisher, proponendo di utilizzare il metodo di Bonferroni per calcolare la probabilità a del comparisonwise.

Con la generazione di numeri casuali, S. G. Carmer e M. R. Swanson nel 1973 (con l’articolo An evaluation of ten pairwaise multiple comparison procedures by Monte Carlo methods, pubblicato su JASA, n. 68, pp. 66-74) hanno dimostrato che questa precauzione è una cautela efficiente contro gli errori di Tipo I.

 

Ritornando al discorso generale sull’evoluzione delle metodologie, nei confronti multipli simultanei si pone un problema non trascurabile quando i gruppi a confronto non hanno lo stesso numero n di osservazioni. Da vari autori di testi di statistica applicata, viene quindi suggerito di utilizzare come n il numero minimo tra tutti i gruppi a confronto.

Con gli stessi dati dell’esempio precedente


 

ZONE

A

B

C

D

E

Medie

208,2

199,8

141,0

123,3

119,1

6

5

6

6

7

 

 

 in cui la varianza d’errore s2e  è risultata uguale a 146,5 con 25 gdl,

-  assumendo n = 5 come dimensione comune a tutti i gruppi (scelta cautelativa) e che

-  alla probabilità a = 0.05 il valore di t per 25 gdl è uguale a 2,06

 la Differenza Minima Significativa (LSD)

 

LSD = 2,06 ×= 11,15

 risulta uguale a 11,15.

E’ significativa qualsiasi differenza tra le 5 medie che superi questa quantità.

 

Per evitare una scelta così prudenziale altri testi suggeriscono il metodo della interpolazione armonica.

Quando i k gruppi sono di dimensioni (ni) non troppo differenti, è possibile stimare un valore  corretto, dato dal rapporto

 

 

Con i dati dell’esempio,

  risulta uguale a 5,93.

Si osservi che il valore ottenuto è inferiore alla media aritmetica di 6, ma superiore al numero minimo di 5.

 

Con una distribuzione non bilanciata, la quantità d’informazione media è inferiore a quella di una distribuzione bilanciata, che ovviamente abbia lo stesso numero totale di osservazioni. Con 5,93 al posto del 5 precedente (ritenuti da molti troppo cautelativo), si ottiene un errore standard minore e quindi un valore di LSD minore. Il test diventa più potente.

Con gli stessi dati dell’esempio precedente,

 si ottiene

LSD = 2,06 ×= 10,24

 una Differenza Minima Significativa pari a 10,24.

 

Con LSD = 10,24 sono significative le differenze indicate con l’asterisco

 

 

 

MEDIE

 

A

B

C

D

E

 

208,2

199,8

141,0

123,3

119,1

MEDIE

DIFFERENZE

B      199,8

8,4

---

---

---

---

C      141,0

67,2*

58,8*

---

---

---

D      123,3

85,5*

76,5*

17,7*

---

---

E     119,1

89,1*

80,7*

21,9*

4,2

---

 

 

I risultati di questi confronti a coppie sono spesso rappresentati con un modo grafico differente. Per convenzione, con una linea continua o tratteggiata si congiungono le medie che non sono significativamente diverse tra loro.

Con i dati dell’esempio, riportato anche nella tabella in cui

-  sia A e B

-  sia D e E

 non sono significativamente differenti, si ottiene

A       B       C       D       E

 

Un’altra convenzione grafica, ugualmente diffusa e di altrettanto facile comprensione, consiste nel riportare le medie

208,2     199,8     141,0     123,3     119,1

A            A            B           C           C

e nell’indicare con la stessa lettera quelle che tra loro non sono significativamente differenti.

 

Spesso viene usata una terza convenzione grafica, data dalla combinazione di queste due tecniche, quale

208,2     199,8     141,0     123,3     119,1

A  A  A  A          B           C  C  C  C

 in cui la linea tratteggiata è ottenuta con la ripetizione della stessa lettera.

 

In situazione più complesse quando si hanno molte medie che differiscono tra loro per quantità ridotte, si determinano linee o serie di lettere a livelli diversi,

quali

A       B       C       D       E

                                                                              -----------

                                                                    -----------

 

Alla informazione precedente

-  la media di A non è significativamente diversa da quella di B

-  la media di D non è significativamente diversa da quella di E

 in questo caso è aggiunta l’informazione di una differenza non significativa tra le medie C-D  e tra le medie B-C.

 

Gli output dei programmi informatici utilizzano le varie modalità:

-  questi metodi grafici,

-  il semplice elenco tabellare dei confronti,

-  la matrice triangolare delle differenze.

 

 

10.5.3   Il test HSD di Tukey E la prOcedura DI TUKEY-KRAMER

Il metodo di confronti multipli più diffuso è il test proposto da J. W. Tukey nel 1949 (vedi Comparing individual means in the analysis of variance, pubblicato su Biometrics vol. 5, pp. 99). Questa metodologia è stata sviluppata dall’autore in un lavoro non pubblicato del Dipartimento di Statistica dell’Università di Princeton del 1953 (The problem of multiple comparisons), ripresa in rapporti scientifici e presentata nel suo volume del 1977 (Exploratory data analysis. Reading, MA, Addison – Wesley).

Il test è chiamato anche wholly significant difference test, perché pone attenzione all’experimentwise. Come proposto dallo stesso autore, frequentemente è denominato pure honestly significant difference test, da cui l’acronimo HSD, perché vuole essere un compromesso onesto tra experimentwise e comparisonwise. In letteratura è citato anche con vari nomi differenti: T methodTukey’s A methodTukey’s w methodsimultaneous test.

Serve per confrontare tra loro k medie, escludendo loro somme, per cui il numero p di confronti da effettuare è

p =  = k(k-1)/2

Per evitare gli errori insiti nel metodo di Fisher, la nuova proposta di Tukey è il campo (o intervallo) di variazione studentizzato (studentized range distribution) o Q studentizzato. Con un campione di k medie, ognuna con n osservazioni (campioni bilanciati), se è rispettata la condizione di omoschedaticità, si ottiene una stima del campo di variazione, da cui si derivano i valori critici alle varie probabilità, mediante

Q =

 dove

 è la varianza d’errore ottenuta con l’ANOVA sui k gruppi.

 

Per un confronto simultaneo tra le p coppie di medie, il livello di significatività è costruito sul caso peggiore (appunto sulla differenza massima, data da ); di conseguenza, molti autori di testi di statistica ritengono che fornisca una probabilità experimentwise appropriata per il complesso dei confronti.

 

Con p differenze, si rifiuta l’ipotesi nulla

H0: mi = mj      contro       H1: mi ¹ mj

 e risultano statisticamente significative quelle differenze che, in valore assoluto, sono maggiori dell'intervallo di confidenza o campo di variazione critico W

W =

 dove

a   è la probabilità complessiva prescelta,

k    il numero di medie a confronto,

n    sono i gradi di libertà della varianza d'errore s2e ,

-  n  è il numero d’osservazioni di ogni gruppo (in campioni bilanciati),

-  Q   è il valore fornito dalla tabella alla probabilità aT per k gruppi e gdl n (della varianza d’errore).

 


Valori critici del Q per il test  W di Tukey e per il test SNK

-  k = numero di medie a confronto (totale o parziale)

n = gradi di libertà della varianza d’errore

aT = 0.05

INDICE k DEL CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

3,261

4,041

4,529

4,886

5,167

5,399

5,597

5,767

5,918

9

3,199

3,949

4,415

4,756

5,024

5,244

5,432

5,595

5,739

10

3,151

3,877

4,327

4,654

4,912

5,124

5,305

5,461

5,599

11

3,113

3,820

4,256

4,574

4,823

5,028

5,202

5,353

5,487

12

3,082

3,773

4,199

4,508

4,751

4,950

5,119

5,265

5,395

13

3,055

3,735

4,151

4,453

4,690

4,885

5,049

5,192

5,318

14

3,033

3,702

4,111

4,407

4,639

4,829

4,990

5,131

5,254

15

3,014

3,674

4,076

4,367

4,595

4,782

4,940

5,077

5,198

16

2,998

3,649

4,046

4,333

4,557

4,741

4,897

5,031

5,150

17

2,984

3,628

4,020

4,303

4,524

4,705

4,858

4,991

5,108

18

2,971

3,609

3,997

4,277

4,495

4,673

4,824

4,956

5,071

19

2,960

3,593

3,977

4,253

4,469

4,645

4,794

4,924

5,038

20

2,950

3,578

3,958

4,232

4,445

4,620

4,768

4,896

5,008

24

2,919

3,532

3,901

4,166

4,373

4,541

4,684

4,807

4,915

30

2,888

3,486

3,845

4,102

4,302

4,464

4,602

4,720

4,824

40

2,858

3,442

3,791

4,039

4,232

4,389

4,521

4,635

4,735

60

2,829

3,399

3,737

3,977

4,163

4,314

4,441

4,550

4,646

 120

2,800

3,356

3,685

3,917

4,096

4,241

4,363

4,468

4,560

¥

2,772

3,314

3,633

3,858

4,030

4,170

4,286

4,387

4,474

 

aT = 0.025

INDICE k DEL CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

3,892

4,714

5,233

5,616

5,919

6,169

6,382

6,568

6,732

9

3,797

4,578

5,069

5,430

5,715

5,950

6,151

6,325

6,479

10

3,725

4,474

4,943

5,287

5,558

5,782

5,972

6,138

6,285

11

3,367

4,391

4,843

5,173

5,433

5,648

5,831

5,989

6,130

12

3,620

4,325

4,762

5,081

5,332

5,540

5,716

5,869

6,004

13

3,582

4,269

4,694

5,004

5,248

5,449

5,620

5,769

5,900

14

3,550

4,222

4,638

4,940

5,178

5,374

5,540

5,684

5,811

15

3,522

4,182

4,589

4,885

5,118

5,309

5,471

5,612

5,737

16

3,498

4,148

4,548

4,838

5,066

5,253

5,412

5,550

5,672

17

3,477

4,118

4,512

4,797

5,020

5,204

5,361

5,496

5,615

18

3,458

4,092

4,480

4,761

4,981

5,162

5,315

5,448

5,565

19

3,442

4,068

4,451

4,728

4,945

5,123

5,275

5,405

5,521

20

3,427

4,047

4,426

4,700

4,914

5,089

5,238

5,368

5,481

24

3,381

3,983

4,347

4,610

4,816

4,984

5,126

5,250

5,358

30

3,337

3,919

4,271

4,523

4,720

4,881

5,017

5,134

5,238

40

3,294

3,858

4,197

4,439

4,627

4,780

4,910

5,022

5,120

60

3,251

3,798

4,124

4,356

4,536

4,682

4,806

4,912

5,006

120

3,210

3,739

4,053

4,276

4,447

4,587

4,704

4,805

4,894

¥

3,170

3,682

3,984

4,197

4,361

4,494

4,605

4,700

4,784

Valori critici del Q per il test  W di Tukey e per il test SNK

-  k = numero di medie a confronto (totale o parziale)

n = gradi di libertà della varianza d’errore

aT = 0.01

INDICE k DEL CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

4,746

5,635

6,204

6,625

6,960

7,237

7,474

7,681

7,863

9

4,596

5,428

5,957

6,348

6,658

6,915

7,134

7,325

7,495

10

4,482

5,270

5,769

6,136

6,428

6,669

6,875

7,055

7,213

11

4,392

5,146

5,621

5,970

6,247

6,476

6,672

6,842

6,992

12

4,320

5,046

5,502

5,836

6,101

6,321

6,507

6,670

6,814

13

4,260

4,964

5,404

5,727

5,981

6,192

6,372

6,528

6,667

14

4,210

4,895

5,322

5,634

5,881

6,085

6,258

6,409

6,543

15

4,168

4,836

5,252

5,556

5,796

5,994

6,162

6,309

6,439

16

4,131

4,786

5,192

5,489

5,722

5,915

6,079

6,222

6,349

17

4,099

4,742

5,140

5,430

5,659

5,847

6,007

6,147

6,270

18

4,071

4,703

5,094

5,379

5,603

5,788

5,944

6,081

6,201

19

4,046

4,670

5,054

5,334

5,554

5,735

5,889

6,022

6,141

20

4,024

4,639

5,018

5,294

5,510

5,688

5,839

5,970

6,087

24

3,956

4,546

4,907

5,168

5,374

5,542

5,685

5,809

5,919

30

3,889

4,455

4,799

5,048

5,242

5,401

5,536

5,653

5,756

40

3,825

4,367

4,696

4,931

5,114

5,265

5,392

5,502

5,559

60

3,762

4,282

4,595

4,818

4,991

5,133

5,253

5,356

5,447

120

3,702

4,200

4,497

4,709

4,872

5,005

5,118

5,214

5,299

¥

3,643

4,120

4,403

4,603

4,757

4,882

4,987

5,078

5,157

 

aT = 0.001

INDICE k DEL CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

7,130

8,250

8,978

9,522

9,958

10,32

10,64

10,91

11,15

9

6,762

7,768

8,419

8,906

9,295

9,619

9,897

10,14

10,36

10

6,487

7,411

8,006

8,450

8,804

9,099

9,352

9,573

9,769

11

6,275

7,136

7,687

8,098

8,426

8,699

8,933

9,138

9,319

12

6,106

6,917

7,436

7,821

8,127

8,383

8,601

8,793

8,962

13

5,970

6,740

7,231

7,595

7,885

8,126

8,333

8,513

8,673

14

5,856

6,594

7,062

7,409

7,685

7,915

8,110

8,282

8,434

15

5,760

6,470

6,920

7,252

7,517

7,736

7,925

8,088

8,234

16

5,678

6,365

6,799

7,119

7,374

7,585

7,766

7,923

8,063

17

5,608

6,275

6,695

7,005

7,250

7,454

7,629

7,781

7,916

18

5,546

6,196

6,604

6,905

7,143

7,341

7,510

7,657

7,788

19

5,492

6,127

6,525

6,817

7,049

7,242

7,405

7,549

7,676

20

5,444

6,065

6,454

6,740

6,966

7,154

7,313

7,453

7,577

24

5,297

5,877

6,238

6,503

6,712

6,884

7,031

7,159

7,272

30

5,156

5,698

6,033

6,278

6,470

6,628

6,763

6,880

6,984

40

5,022

5,528

5,838

6,063

6,240

6,386

6,509

6,616

6,711

60

4,894

5,365

5,653

5,860

6,022

6,155

6,268

6,366

6,451

120

4,771

5,221

5,476

5,667

5,815

5,937

6,039

6,128

6,206

¥

4,654

5,063

5,309

5,484

5,619

5,730

5,823

5,903

5,973


ESEMPIO.   Stimare le differenze significative tra le 5 medie utilizzate negli esempi precedenti, alle probabilità a = 0.05  e  a = 0.01.

 

Risposta. Dalla tabella di distribuzione dei valori critici del Q studentizzato, scegliere il valore di Q per:

-  la probabilità a = 0.05  e   a = 0.01;

-  il numero di trattamenti o medie k, che con i dati dell’esempio è uguale a 5;

-  i gradi di libertà della varianza d’errore (n), che nell’esempio sono uguali a 25; nella tabella dei valori critici scegliere il numero inferiore più vicino (24), in quanto più cautelativo di quello superiore (30); un altro metodo, più preciso ma leggermente più difficile, suggerisce di stimare il valore di Q mediante l’interpolazione armonica tra i gdl riportati in tabella (24 e 30).

Nella tabella dei valori critici (riportata in precedenza), il valore di Q

-  alla probabilità a = 0.05 è uguale a 4,166

-  alla probabilità a = 0.01 è uguale a 5,168.

 

Ricordando che la varianza d’errore   = 146,5

 calcolare il campo di variazione critico o intervallo di confidenza per un generico contrasto semplice tra tutte le p = 10 differenze tra le k = 5 medie, mediante il valore di HSD.

 

Alla probabilità  a = 0.05

 

 HSD =  = 4,166 x 4,962 = 20,67

 

 HSD risulta uguale a 20,67

 

 mentre alla probabilità a = 0.01

 

 HSD =  = 5,168 x 4,962 = 25,64

 

 HSD è uguale a 25,64.

Successivamente, è utile costruire la matrice triangolare delle differenze tra le 5 medie ed effettuare i confronti con le due HSD calcolate per le due probabilità. Dall’analisi risulta che

-  con probabilità a £ 0.01 sono significative le differenze superiori a 25,64,

-  con probabilità a £ 0.05 sono significative quelle comprese tra 25,64 e 20,67

-  le differenze minori di 20,67 non sono significative, avendo probabilità a > 0.05.

(Le prime possono essere contrassegnate da un doppio asterisco; le seconde da un solo asterisco).

 

 

 

MEDIE

 

A

B

C

D

E

 

208,2

199,8

141,0

123,3

119,1

MEDIE

DIFFERENZE

B      199,8

8,4

---

---

---

---

C      141,0

67,2**

58,8**

---

---

---

D      123,3

85,5**

76,5**

17,7

---

---

E     119,1

89,1**

80,7**

21,9*

4,2

---

 

 

L’interpretazione della tabella porta alle conclusione che

-  sono molto significative (a £ 0.01) le differenze (in grassetto con due asterischi ) tra la media C, la media D e la media E rispetto sia alla media A che alla B

-  è significativa (0.01 < a< 0.05) la differenza tra la media C e la E.

Esse sono le cause della differenza complessiva tra le 5 medie, valutata in precedenza con il test F.

(Questa tecnica era usata alcuni anni fa; ora i computer permettono di riportare il valore esatto di a per ogni confronto e quindi di avere una visione più dettagliata di ogni probabilità, forse a discapito della sintesi).

E’ importante osservare come il valore di HSD sia molto maggiore di quello LSD di Fisher: la potenza di ogni singolo confronto è minore, in quanto per esso il valore di probabilità a del comparisonwise è minore, ma il test risulta molto più cautelativo, per non superare la probabilità aT dell’experimentwise prefissata.

 

Per l’importanza che questo test ha assunto tra i confronti multipli, a ulteriore chiarimento della metodologia è qui riproposta la presentazione di George E. P. Box, William G. Hunter e J. Stuart Hunter (nel testo Statistics for Experimenters. An introdution to Design, Data Analysis and Model Building, pubblicato nel 1978 da John Wiley & Sons, New York, p. 653).

La procedura di Tukey per il confronto simultaneo tra k medie richiede il calcolo dell’intervallo di confidenza tra tutte le differenze tra coppie di singole medie (  e  ) con

 

( - ) ±

 

 dove

- Qp,n   è il valore di q studentizzato per il confronto tra p medie, con gdl n della varianza d’errore.

 

ESEMPIO. Individua quali differenze sono significative tra le 7 medie  

 

Trattamenti

A

B

C

D

E

F

G

53

52

57

55

55

60

50

9,2

8,7

8,8

9,8

10,2

8,3

8,0

 

 

ognuna con 4  dati (n = 4) e la varianza entro gruppo , riportate nella tabella.

 

1 – Dapprima si calcola una varianza comune a tutti i gruppi (o varianza d’errore) s2 = 9,0 che in questo caso, con campioni bilanciati, è uguale alla media delle varianze

 =  3 (9,2 + 8,7 + 8,8 + 9,8 + 10,2 + 8,3 + 8,0) / 21 = 9,0

 e ha gdl n = 21, pari a k(n-1) = 7 (4-1).

 

2 – Successivamente, per a = 0.05 e con

 = 3,26

 (tratto dalle tabelle relative)

 alla probabilità del 95% si stima un intervallo fiduciale o differenza minima significativa delle differenze tra le medie

 

±  =

 

 pari a 6,91 senza considerare il segno.

 

3- Con le sette medie precedenti, si può costruire la matrice

 

Trattamenti

A = 53

B = 52

C = 57

D = 55

E = 55

F = 60

G = 50

A = 53

---

---

---

---

---

---

---

B = 52

1

---

---

---

---

---

---

C = 57

-4

-5

---

---

---

---

---

D = 55

-2

-3

2

---

---

---

---

E = 55

-2

-3

2

0

---

---

---

F = 60

-7*

-8*

-3

-5

-5

---

---

G = 50

3

2

7*

5

5

-10*

---

 

 

 delle 21 differenze: tra esse sono significative alla probabilità aT = 0.05 le quattro in grassetto e con l’asterisco.

 

 

Il risultato dei confronti simultanei è approssimato, non calibrato sui dati di ogni differenza, se il calcolo è esteso a tutti i p confronti e n è variabile. Per calcolare un solo valore nonostante l’uso di gruppi con un numero diverso di osservazioni, come illustrato nel paragrafo precedente è possibile:

-  la scelta più cautelativa, quella del numero n di osservazioni minore tra tutti i gruppi a confronto, che può sollevare obiezioni sulla potenza (valore a comparisonwise troppo basso);

-  la stima della media armonica, che per certi confronti può sollevare obiezioni sulla protezione (valore aT o dell’experimentwise troppo alto, superiore al valore prefissato).

 

Il metodo dei confronti simultanei appena presentato è corretto, solo con campioni bilanciati.

A C. Y. Kramer, per un articolo del 1956, (vedi Extension of multiple range tests to group means with unequal numbers of replications pubblicato su Biometrics  vol. 12, pp. 307-310) è attribuita l’estensione della procedura originaria di Tukey a campioni non bilanciati. Il test di Tukey in alcuni testi è quindi chiamato anche test di Tukey-Kramer

Se i trattamenti hanno un numero (n) di repliche diverso, per ogni confronto tra due generici gruppi A e B, quindi con  nA ¹ nB

 si può stimare W mediante

W =   

 

La procedura di Tukey-Kramer può applicata in modo ripetuto confrontando tutte le singole differenze tra coppie di medie. In questo caso, le conclusioni dipendono dalla procedura, che è innovativa:

-  dopo aver ordinato le medie dalla maggiore alla minore (con k = 5 dalla 1a a 5a),

-  si confrontano le due che stanno agli estremi;

-  se il test F dell’ANOVA è risultato significativo anche la loro differenza risulta significativa;

-  si procede verso l’interno, valutando la significatività della differenza maggiore tra la 1a media e la 4a oppure la 2a media e la 5a;  essa risulterà appena minore dell’ultima valutata;

-  se anche essa risulta significativa, si continua a procedere verso l’interno, con differenze sempre minori, fino alla prima che risulta non-significativa;

-  a questo punto si cessa il confronto, poiché si assume che tutte le differenze tra le medie comprese entro  queste ultime due non possano più essere ritenute significative.

 

Da questa metodologia (chiamata step-up procedure o stepwise approach), sempre per evitare errori di Tipo I, è stata derivata la cautela che caratterizza questo test:

-  non considerare come significativamente differenti due medie, quando sono comprese entro due già ritenute non significative.

 

 

10.5.4   il test di Student-Newman-Keuls o test SNK

Il test di Student-Newman-Keuls o test SNK, citato anche come test q studentizzato come il test di Tukey, è stato proposto da D. Newman nel 1939 (vedi The distribution of the range in samples from a normal population, expressed in terms of an independent estimate of the standard deviation pubblicato su Biometrika vol. 31, pp. 20-30) e completato da M. Keuls nel 1952 (vedi The use of the “studentized range” in connection with an analysis of variance pubblicato su una rivista del tutto sconosciuta al mondo degli statistici, Euphytica vol. 1, pp. 112-122).

Per valutare la significatività di ognuna delle p differenze tra le k medie a confronto,

-  utilizza la stessa metodologia di Tukey, appena descritta,

-  le stesse tabelle di distribuzione dei valori critici,

-  ma con una differenza fondamentale nel calcolo dei gruppi a confronto.

 

Con la procedura stepwise di Tukey, il valore di Q(a,k,n) studentizzato dipende dal numero totale p di confronti che è costante ed esso dal numero k di medie.

Con la metodologia SNK, il numero di medie a confronto varia in funzione del rango occupato dalle due medie a confronto. Si introduce il concetto di passi avanti, che corrisponde al numero di medie implicate effettivamente in un confronto specifico.

 

 

ZONE

E

D

C

B

A

Medie

119,1

123,3

141,0

199,8

208,2

Rango

1

2

3

4

5

 

 

Se, come nell’esempio precedente, le medie sono 5 e il confronto è effettuato tra la minore (119,1) e la maggiore (208,2), questa ultima è 5 passi avanti alla precedente e il valore di k è uguale a 5.

Il secondo confronto valuta la significatività della differenza tra la 1a media e la 4a oppure tra la 2a e la 5a: in entrambi i casi, k = 4. Proseguendo nella stessa logica, k scende progressivamente a 3 e infine a 2, quando si confrontano due medie che occupano ranghi vicini.

Con 5 medie, il metodo SNK permette di effettuare 10 confronti. Nella tabella sottostante, sono riportati tutti i possibili confronti semplici, con l’ordine ed il relativo valore dell’indice k:

 

 

Ordine

Confronto

K

1

5a  vs  1a

5

2

5a  vs  2a

4

3

5a  vs  3a

3

4

5a  vs  4a

2

5

4a  vs  1a

4

6

4a  vs  2a

3

7

4a  vs  3a

2

8

3a  vs  1a

3

9

3a  vs  2a

2

10

2a  vs  1a

2

 

 

Per illustrare la metodologia del test di Student-Neuman-Keuls, è utile seguire due esempi riportati nel testo di Robert Sokal e James Rolhf del 1969 (BIOMETRY. The principles and practice of statistics in biological research. Edito da W. H. Freman and Company, San Francisco):

A)       il primo per campioni bilanciati;

B)       il secondo per campioni con un numero differente di osservazioni.

 

A)  Come applicazione ad un’analisi con campioni bilanciati, si assuma di disporre di 5 campioni, ognuno con 9 osservazioni, per verificare tra quali medie esista una differenza significativa, avendo fissato il valore dell’experimentwise a a = 0.05   e   a = 0.01.

 

Dopo aver effettuato il test F per l’ANOVA, risultato significativo con

-  varianza d’errore  = 5,68 e  gdl n = 40,

 si ordinano le medie in ordine crescente

 

 

Campione

A

B

C

D

E

Media

58,1

58,4

59,5

64,3

68,9

Osservazioni

9

9

9

9

9

 

 

Per ogni confronto si deve calcolare la differenza minima significativa, cioè il valore LSR (least significant range) mediante

LSR =

 dove

a è la probabilità desiderata: nell’esempio è uguale prima a 0.05 poi a 0.01

-  k è il numero di medie a confronto: con il metodo SNK in questo esempio varia da 5 a 2

n è il numero di gdl della varianza d’errore: nell’esempio è 40

è la varianza d’errore: nell’esempio è 5,68

 è il numero di osservazioni di ogni campione: nell’esempio è 9.

 

A questo scopo, dalla tabella dei valori critici del q per il test W di Tukey e il test SNK, si rilevano

 

Q

K

2

3

4

5

a = 0.05

2,858

3,442

3,791

4,039

a = 0.01

3,825

4,367

4,696

4,931

 

 i valori  di q per a, k e n richiesti.

 

Confrontando la media minore con la maggiore, quindi per k = 5,

-  alla probabilità a = 0.05

 si ottiene LSR = 3,207

-  alla probabilità a = 0.01

 si ottiene LSR = 3,915

 

Confrontando la 2a media con la 5a e la 1a media con la 4a, quindi per k = 4,

-  alla probabilità a = 0.05

 si ottiene LSR = 3,010

-  alla probabilità a = 0.01

 si ottiene LSR = 3,729

 

Per i tre confronti con k = 3,

-  alla probabilità a = 0.05

 si ottiene LSR = 2,733

-  alla probabilità a = 0.01

 si ottiene LSR = 3,467

 

Per i quattro confronti con k = 2,

-  alla probabilità a = 0.05

 si ottiene LSR = 2,269

-  alla probabilità a = 0.01

 si ottiene LSR = 3,037

Le differenze tra medie e i corrispondenti valori di LSR alle probabilità a = 0.05 e a = 0.01 possono essere vantaggiosamente riportate in una tabella per confronti più agevoli

 

 

Confronto

K

Differenza

LSR  a = 0.05

LSR  a = 0.01

1)   5a  vs  1a

5

68,9-58,1=10,8

3,207

3,915

2)   5a  vs  2a

4

68,9-58,4=10,5

3,010

3,729

3)   5a  vs  3a

3

68,9-59,5=  9,4

2,733

3,467

4)   5a  vs  4a

2

68,9-64,3=  4,6

2,269

3,037

5)   4a  vs  1a

4

64,3-58,1=  6,2

3,010

3,729

6)   4a  vs  2a

3

64,3-58,4=  5,9

2,733

3,467

7)   4a  vs  3a

2

64,3-59,5=  4,8

2,269

3,037

8)   3a  vs  1a

3

59,5-58,1=  1,4

2,733

3,467

9)   3a  vs  2a

2

59,5-58,4=  1,1

2,269

3,037

10)  2a  vs  1a

2

58,4-58,1=  0,3

2,269

3,037

 

 

Dalla sua lettura emerge che

-  sono significativi alla probabilità a < 0.01 i primi sette confronti (perché le loro differenze sono maggiori dei corrispondenti valori LSR calcolati, anche con a = 0.01),

-  non sono significativi gli ultimi tre (perché le loro differenze sono minori dei corrispondenti valori LSR calcolati, con a = 0.05).

Questa sintesi può essere espressa con modalità diverse.

Ricorrendo solo a due, limitatamente ai confronti per a = 0.05 l’informazione contenuta nella tabella può essere espressa

-  con simboli

mA = mB = mC <mD < mE

-  in forma grafica

Media         58,1       58,4        59,5        64,3         68,9

Gruppo     A           B            C             D             E


 

B)  Come seconda applicazione, si prenda un’analisi con campioni non bilanciati. Si supponga di voler confrontare le medie di 4 gruppi (già ordinate per rango), con il numero di osservazioni e la varianza entro gruppo riportate nella tabella successiva,

 

Campione

A

B

C

D

Media  

3,51

3,84

5,14

6,38

Osservazioni

15

12

9

18

Varianza  

0,036

0,044

0,021

0,033

 

per verificare tra quali medie esista una differenza significativa, sia con a = 0.05  sia con a = 0.01.

Assumendo che le 4 varianze entro siano uguali, si può calcolare la varianza comune, che nell’ANOVA è varianza d’errore. Essa risulta

 

 

 = 0,3434 con gdl n = 50.

 

I confronti da effettuare tra le 4 medie sono 6

 

Ordine

Confronto

K

1

4a  vs  1a

4

2

4a  vs  2a

3

3

4a  vs  3a

2

4

3a  vs  1a

3

5

3a  vs  2a

2

6

2a  vs  1a

2

 

 applicando per ognuno la formula

 

LSD =   

 

 dove i valori di Q sono presi dalla tabella dei valori critici del q per il test W (o LSD) di Tukey e il test SNK, mediante interpolazione tra n = 40 e n = 60 poiché n = 50 non è riportato.

Essi sono

 

Q

K

2

3

4

a = 0.05

2,865

3,421

3,764

a = 0.01

3,793

4,324

4,645

 

 per a = 0.05 e a = 0.01, con k che varia da 2 a 4 e con n = 50.

 

La significatività delle 6 differenze è valutata con altrettante serie di calcoli.

 

1--  quindi k = 4,

-  alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,545

-  alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,673

 

2 - Confrontando la 4a media (6,38) con la 2a (3,84) e quindi k = 3,

- alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,528

- alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,667

 

3 - media (6,38) con la 3a (5,14) e quindi k = 2,

- alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,485

- alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,642

 

4 - media (5,14) con la 1a (3,51) e quindi k = 3,

- alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,598

- alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,755

 

5 - media (5,14) con la 2a (3,84) e quindi k = 2,

- alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,523

- alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,693

 

6- media (3,84) con la 1a (3,51) e quindi k = 2,

- alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,460

- alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,609

 

La differenza di ogni confronto e il corrispondente valore LSR per a = 0.05 e a = 0.01 possono essere riportati in una tabella per comparazioni sintetiche più agevoli

 

 

Confronto

K

Differenza

LSR  a = 0.05

LSR  a = 0.01

1)   4a  vs  1a

4

6,38-3,51=2,87

0,545

0,673

2)   4a  vs  2a

3

6,38-3,84=2,54

0,528

0,667

3)   4a  vs  3a

2

6,38-5,14=1,24

0,485

0,642

4)   3a  vs  1a

3

5,14-3,51=1,63

0,598

0,755

5)   3a  vs  2a

2

5,14-3,84=1,30

0,523

0,693

6)   2a  vs  1a

2

3,84-3,51=0,33

0,460

0,609

 

 

Dalla sua lettura emerge che

- sono significative le prime 5 differenze ad una probabilità a < 0.01 perché sono tutte maggiori del loro valore LSR corrispondente,

-  mentre la sesta non è significativa, perché minore del valore LSD alla probabilità a = 0.05.

Questi risultati possono essere rappresentati sia con le due modalità precedenti, sia con altre modalità. Tra queste ultime

-  la matrice triangolare delle differenze

 

 

MEDIE

A = 3,51

B = 3,84

C = 5,14

D = 6,38

B = 3,84

0,33

---

---

---

C = 5,14

1,63**

1,30**

---

---

D = 6,38

2,87**

2,54**

1,24**

 

 

 nella quale

- le differenze in grassetto e con 2 asterischi sono significative con probabilità a < 0.01

- la differenza non asteriscata e in carattere normale non è significativa;


Tra le precedenti,

- la forma grafica

Gruppo     A           B            C             D

 

 leggibile nello stesso modo, in riferimento ad una probabilità a prestabilita (che in questo caso è uguale sia per a = 0.05 che per  a = 0.01.

 

 

10.5.5   il test di Scheffé con l’estensione di Gabriel

La procedura di Henry. A. Scheffé  (statistico americano nato nel 1907 e morto nel 1977) è stata presentata con un articolo nel 1953 (vedi A method for judging all possible contrasts in the analysis of variance pubblicato su Biometrika vol. 40, pp. 87-104) e riproposta nel suo testo del 1959 (vedi The analysis of variance John Wiley & Sons, New York, USA). Con le modifiche suggerite da K. R. Gabriel  nel 1978 (nell’articolo A simple method of multiple comparisons of means, pubblicato da Journal of the American Statistical Association vol. 73, pp. 724-729), il metodo è stato esteso a tutti i possibili confronti tra medie semplici e complesse, cioè tra medie singole e tra medie date dalla somma di due o più gruppi.

E’ tra i test più versatili tra quelli presenti in letteratura e nei programmi informatici: offre il vantaggio di eseguire anche confronti complessi, ma è anche il meno potente e aumenta la probabilità d’errore di Tipo II accrescendo l numero di confronti; inoltre non utilizza le proposte più recenti sul calcolo di a.

 

La procedura generale del confronto tra due medie generiche, può essere spiegata illustrando nei dettagli l’esempio riportato da Jerrold H. Zar nel suo testo del 1999 (Biostatistical Analysis, 4th ed. Prentice Hall, Upper Saddler River, New Jersey, pp. 663 + pp. 212).

A un esperimento con 5 campioni bilanciati, ognuno di 6 osservazioni, le cui medie sono riportate nella tabella seguente

 

Campione

A

B

C

D

E

Media  

32,1

40,2

44,1

41,1

58,3

Osservazioni

6

6

6

6

6

 

 

 è stata applicata l’ANOVA


 

Devianza

DF

 

Totale

2.437

29

----

Tra

2.193

4

548,25

Errore

244

25

9,76

 

 

 ottenendo un test F significativo

 poiché il risultato è maggiore del valore critico, che per gdl 4 e 25 alla probabilità a = 0.001 è 7,27 come risulta dai valori critici riportati nella tabella relativa.

Applicando la formula generale del test t per due campioni indipendenti già proposta da Bonferroni, il cui risultato nel test di Scheffé è indicato con S,

S =

 

 sono significative alla probabilità a tutte le differenze tra due generiche medie (  e  ), quando S in valore assoluto supera il valore critico Sa , ottenuto con

 

Sa  = 

 dove

-  k è il numero di gruppi a confronto,

-  F è il valore critico preso dalla distribuzione di Fisher-Snedecor per la probabilità a, e con i gdl corrispondenti a quelli della varianza d’errore nell’ANOVA (k-1 e n-k)

 

Con i dati dell’esempio, per verificare

 

H0:      contro     H1:

 

- dapprima si stima il valore critico Sa. Dopo aver prefissato il livello di significatività a = 0.05 e aver rilevato che il valore di F (per gdl 4 e 25) è 2,76 con  k = 5 si ottiene

 

Sa  = 

 un valore critico Sa = 3,323

- Successivamente, si calcola S

 

S =

 che risulta uguale a 6,589.

Poiché S (6,589) > Sa (3,323) si rifiuta l’ipotesi nulla alla stessa probabilità a.

 

Un altro metodo per calcolare S è la tecnica dei contrasti multipli

 mediante

S =

Con gli stessi dati dell’esempio precedente,

 

S =

 

 si ottiene il medesimo risultato  S = 6,589.

 

Nel caso del confronto tra due medie semplici,

H0: mD - mC = 0     contro     H1: mD - mC ¹ 0

 

-  la stima di Sa resta invariata poiché essa è valida per tutti i confronti possibili

 

Sa  = 

 dipendendo solo dal numero (k) di medie, dalla probabilità a e dai gdl della varianza d’errore ()

-  mentre S con la formula generale

 

S =

 

- e con la formula dei contrasti multipli

 

S =

 

 risulta uguale a 1,664.

In questo caso non è possibile rifiutare l’ipotesi nulla, poiché il valore S (1,664) < Sa (3,323), il valore critico.

 

L’intervallo di confidenza di una differenza tra due generiche medie (  e  ) può essere ottenuto

-  sia con il metodo di Tukey

 

-  sia con la tecnica dei contrasti

 

Ad esempio, alla probabilità a = 0.05 l’intervallo fiduciale della differenza D

 

D =

-  con la formula generale è


 

 

 

-  con i contrasti è

 

 

 fornendo lo stesso risultato di –9,7 ± 4,795 .

Con i dati dell’esempio utilizzato in precedenza per gli altri metodi

 

ZONE

A

B

C

D

E

Medie

208,2

199,8

141,0

123,3

119,1

6

6

6

6

6

 

 dove

-  k = 5   e   n = 6

-  s2e = 146,5

-  F  per a = 0.05, e gdl 4, 25 = 2,76

 si ottiene la differenza minima significativa,

il valore MSD o LSD

MSD = × =  = 23,21

 uguale a 23,21

Con

-  F  per a = 0.01, e gdl 4, 25 = 4,18

MSD = × =  = 28,51

 si ottiene un MSD uguale a 28,51.

 

Nella tabella triangolare delle differenze tra singole medie

 

 

MEDIE

 

A

B

C

D

E

 

208,2

199,8

141,0

123,3

119,1

MEDIE

DIFFERENZE

B      199,8

8,4

---

---

---

---

C      141,0

67,2**

58,8**

---

---

---

D      123,3

85,5**

76,5**

17,7

---

---

E     119,1

89,1**

80,7**

21,9

4,2

---

 

 

 con la stessa tecnica già illustrata in precedenza, nella tabella delle k(k-1)/2 differenze semplici si evidenziano con

-  un asterisco tutte le differenze che sono significative ad una probabilità a compresa tra 0.05 e 0.01

-  due asterischi tutte le differenze significative ad una probabilità a minore di 0.01

 

E’ importante osservare che il valore la differenza (21,9) tra la media C (141,0) e la media E (119,1) non è significativa alla probabilità a = 0.05, mentre la era con il test di Tukey.

Più in generale, in questo esempio, con Scheffé la differenza minima significativa sulle 5 medie è

-  23,21 alla probabilità a = 0.05

-  28,51 alla probabilità a = 0.01

 mentre con il test di Tukey era

-  20,67 alla probabilità a = 0.05

-  25,64 alla probabilità a = 0.01

Questo confronto tra Tukey e Scheffé evidenzia visivamente la relazione inversa tra versatilità, (che caratterizza il test di Scheffé) e potenza di un test (maggiore in quello di Tukey, che permette solo i confronti singoli).


 

10.5.6   Il test di C. W. Dunnett è stato proposto nel 1955 (vedi: A multiple comparison procedure for comparing several treatments with a control pubblicato su Journal of the American Statistical Association vol. 50, pp. 1096-1121); le tavole dei suoi valori critici sono state presentate nel 1964 (in New tables for multiple comparisons with a control pubblicate da  Biometrics vol 20, 482- 491); il metodo ha avuto illustrazioni successive, quali le due del 1980 (la prima, con l’articolo Pairwise multiple comparisons in the homogeneous variance, unequal sample size case pubblicato su Journal of the American Statistical Association vol. 75, pp. 789-795 e la seconda con Pairwise multiple comparisons in the unequal varince case nelle pagine successive dello stesso volume,  Journal of the American Statistical Association vol. 75, pp. 796-800).

Il test è utile in un caso particolare: il confronto di due o più trattamenti con un controllo.

In numero di confronti da effettuare diminuisce rispetto quelli possibili tra tutte le singole medie, come con Tukey: è uguale al numero di trattamenti, escludendo il controllo.

Con 5 gruppi, fra cui un controllo e 4 trattamenti, non è più uguale a 10 () ma a 4.

 

Sulla base per principio del Bonferroni, aumenta quindi la potenza di ogni confronto, poiché

-  con una probabilità experimentwise aT = 0.05

-  la probabilità a comparisonwise diventa uguale 0.0125 (0.05 /4).

Ovviamente questa scelta riduce la versatilità del test: si verifica la significatività della differenza tra ogni trattamento ed il controllo, senza poter dire nulla sulle eventuali differenze tra i trattamenti, cioè se uno è migliore o peggiore degli altri in modo significativo.

 

Il test Q di Dunnett utilizza la stessa formula del test di Tukey

(con la medesima simbologia)

 =  

 dove

-  c  =  gruppo di controllo o placebo

-  i  =  trattamento in oggetto, per il quale si effettua il confronto con il controllo

-  p = numero di confronti (uguale al numero di gruppi (k) meno 1).

 


Valori critici del Q per il test di Dunnett bilaterale

-  k = numero di medie a confronto (compreso il controllo)

n = gradi di libertà della varianza d’errore

aT = 0.05 bilaterale

NUMERO k DI MEDIE A CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

2,31

2,67

2,88

3,02

3,13

3,22

3,29

3,35

3,41

9

2,26

2,61

2,81

2,95

3,05

3,14

3,20

3,26

3,32

10

2,23

2,57

2,76

2,89

2,99

3,07

3,14

3,19

3,24

11

2,20

2,53

2,72

2,84

2,94

3,02

3,08

3,14

3,19

12

2,18

2,50

2,68

2,81

2,90

2,98

3,04

3,09

3,14

13

2,16

2,48

2,65

2,78

2,87

2,94

3,00

3,06

3,10

14

2,14

2,46

2,63

2,75

2,84

2,91

2,97

3,02

3,07

15

2,13

2,44

2,61

2,73

2,82

2,89

2,95

3,00

3,04

16

2,12

2,42

2,59

2,71

2,80

2,87

2,92

2,97

3,02

17

2,11

2,41

2,58

2,69

2,78

2,85

2,90

2,95

3,00

18

2,10

2,40

2,56

2,68

2,76

2,83

2,89

2,94

2,98

19

2,09

2,39

2,55

2,66

2,75

2,81

2,87

2,92

2,96

20

2,09

2,38

2,54

2,65

2,73

2,80

2,86

2,90

2,95

24

2,06

2,35

2,51

2,61

2,70

2,76

2,81

2,86

2,90

30

2,04

2,32

2,47

2,58

2,66

2,72

2,77

2,82

2,86

40

2,02

2,29

2,44

2,54

2,62

2,68

2,73

2,77

2,81

60

2,00

2,27

2,41

2,51

2,58

2,64

2,69

2,73

2,77

120

1,98

2,24

2,38

2,47

2,55

2,60

2,65

2,69

2,73

¥

1,96

2,21

2,35

2,44

2,51

2,57

2,61

2,65

2,69

 

aT = 0.01 bilaterale

NUMERO k DI MEDIE A CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

3,36

3,77

4,00

4,17

4,29

4,40

4,48

4,56

4,62

9

3,25

3,63

3,85

4,01

4,12

4,22

4,30

4,37

4,43

10

3,17

3,53

3,74

3,88

3,99

4,08

4,16

4,22

4,28

11

3,11

3,45

3,65

3,79

3,89

3,98

4,05

4,11

4,16

12

3,05

3,39

3,58

3,71

3,81

3,89

3,96

4,02

4,07

13

3,01

3,33

3,52

3,65

3,74

3,82

3,89

3,94

3,99

14

2,98

3,29

3,47

3,59

3,69

3,76

3,83

3,88

3,93

15

2,95

3,25

3,43

3,55

3,64

3,71

3,78

3,83

3,88

16

2,92

3,22

3,39

3,51

3,60

3,67

3,73

3,78

3,83

17

2,90

3,19

3,36

3,47

3,56

3,63

3,69

3,74

3,79

18

2,88

3,17

3,33

3,44

3,53

3,60

3,66

3,71

3,75

19

2,86

3,15

3,31

3,42

3,50

3,57

3,63

3,68

3,72

20

2,85

3,13

3,29

3,40

3,48

3,55

3,60

3,65

3,69

24

2,80

3,07

3,22

3,32

3,40

3,47

3,52

3,57

3,61

30

2,75

3,01

3,15

3,25

3,33

3,39

3,44

3,49

3,52

40

2,70

2,95

3,09

3,19

3,26

3,32

3,37

3,41

3,44

60

2,66

2,90

3,03

3,12

3,19

3,25

3,29

3,33

3,37

120

2,62

2,85

2,97

3,06

3,12

3,18

3,22

3,26

3,29

¥

2,58

2,79

2,92

3,00

3,06

3,11

3,15

3,19

3,22


Valori critici del Q per il test di Dunnett unilaterale

-  k = numero di medie a confronto (compreso il controllo)

n = gradi di libertà della varianza d’errore

aT = 0.05 unilaterale

NUMERO k DI MEDIE A CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

1,86

2,22

2,42

2,55

2,66

2,74

2,81

2,87

2,92

9

1,83

2,18

2,37

2,50

2,60

2,68

2,75

2,81

2,86

10

1,81

2,15

2,34

2,47

2,56

2,64

2,70

2,76

2,81

11

1,80

2,13

2,31

2,44

2,53

2,60

2,67

2,72

2,77

12

1,78

2,11

2,29

2,41

2,50

2,58

2,64

2,69

2,74

13

1,77

2,09

2,27

2,39

2,48

2,55

2,61

2,66

2,71

14

1,76

2,08

2,25

2,37

2,46

2,53

2,59

2,64

2,69

15

1,75

2,07

2,24

2,36

2,44

2,51

2,57

2,62

2,67

16

1,75

2,06

2,23

2,34

2,43

2,50

2,56

2,61

2,65

17

1,74

2,05

2,22

2,33

2,42

2,49

2,54

2,59

2,64

18

1,73

2,04

2,21

2,32

2,41

2,48

2,53

2,58

2,62

19

1,73

2,03

2,20

2,31

2,40

2,47

2,52

2,57

2,61

20

1,72

2,03

2,19

2,30

2,39

2,46

2,51

2,56

2,60

24

1,71

2,01

2,17

2,28

2,36

2,43

2,48

2,53

2,57

30

1,70

1,99

2,15

2,25

2,33

2,40

2,45

2,50

2,54

40

1,68

1,97

2,13

2,23

2,31

2,37

2,42

2,47

2,51

60

1,67

1,95

2,10

2,21

2,28

2,35

2,39

2,44

2,48

120

1,66

1,93

2,08

2,18

2,26

2,32

2,37

2,41

2,45

¥

1,64

1,92

2,06

2,16

2,23

2,29

2,34

2,38

2,42

 

aT = 0.01 unilaterale

NUMERO k DI MEDIE A CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

2,90

3,29

3,51

3,67

3,79

3,88

3,96

4,03

4,09

9

2,82

3,19

3,40

3,55

3,66

3,75

3,82

3,89

3,94

10

2,76

3,11

3,31

3,45

3,56

3,64

3,71

3,78

3,83

11

2,72

3,06

3,25

3,38

3,48

3,56

3,63

3,69

3,74

12

2,68

3,01

3,19

3,32

3,42

3,50

3,56

3,62

3,67

13

2,65

2,97

3,15

3,27

3,37

3,44

3,51

3,56

3,61

14

2,62

2,94

3,11

3,23

3,32

3,40

3,46

3,51

3,56

15

2,60

2,91

3,08

3,20

3,29

3,36

3,42

3,47

3,52

16

2,58

2,88

3,05

3,17

3,26

3,33

3,39

3,44

3,48

17

2,57

2,86

3,03

3,14

3,23

3,30

3,36

3,41

3,45

18

2,55

2,84

3,01

3,12

3,21

3,27

3,33

3,38

3,42

19

2,54

2,83

2,99

3,10

3,18

3,25

3,31

3,36

3,40

20

2,53

2,81

2,97

3,08

3,17

3,23

3,29

3,34

3,38

24

2,49

2,77

2,92

3,03

3,11

3,17

3,22

3,27

3,31

30

2,46

2,72

2,87

2,97

3,05

3,11

3,16

3,21

3,24

40

2,42

2,68

2,82

2,92

2,99

3,05

3,10

3,14

3,18

60

2,39

2,64

2,78

2,87

2,94

3,00

3,04

3,08

3,12

120

2,36

2,60

2,73

2,82

2,89

2,94

2,99

3,03

3,06

¥

2,33

2,56

2,68

2,77

2,84

2,89

2,93

2,97

3,00


 

A differenza degli altri test per confronti multipli, che a parità del numero totale di osservazioni raggiungono la potenza maggiore quando tutti i gruppi sono bilanciati, nel confronto tra vari trattamenti con un controllo si ottiene una utilizzazione migliore dei dati quando il controllo è di dimensioni ragionevolmente maggiori di quella dei trattamenti.

Infatti, il controllo entra in tutti i confronti ed un numero più alto di osservazioni in esso aumenta la potenza di ogni confronto, anche se determina una parziale penalizzazione per il mancato bilanciamento.

Quando si programma un esperimento sul quale deve essere applicato il test di Dunnett, è conveniente che

-  nc, il numero di dati del controllo, sia più numeroso di

ni, il numero dei dati di ogni trattamento,

-  in funzione del numero di trattamenti p

 secondo la relazione

 

Ad esempio, in un esperimento con 7 dati in ognuno dei k =  5 gruppi (il controllo più 4 trattamenti e quindi 35 osservazioni in tutto), si ottiene la migliore utilizzazione complessiva

 

nc = 7×  = 14

 quando

-  14 cavie sono dedicate al controllo e

-  le rimanenti 22 sono suddivise tra i 4 trattamenti.

E’ una indicazione approssimata, in quanto è semplice verificare che

 nella formula

 =

 

 si ottiene il valore massimo di Q (quindi il risultato più significativo)

 quando (a parità di tutti gli altri parametri)

 = Xmin

 la somma dei due rapporti ha il valore minimo,

 ovviamente mantenendo costante il numero totale n di dati.

 

Una stima più precisa ed una verifica degli effetti di questa concentrazione delle osservazioni sul campione di controllo può essere ottenuta con un confronto dettagliato delle varie possibili distribuzioni del numero complessivo di cavie disponibili nei vari gruppi.

Con 35 osservazioni in totale,

- nel caso di campioni bilanciati  e quindi nc = 7  e  ni = 7 si avrebbe  = 0,2857

- nel caso di nc = 11  e  ni = 6 si avrebbe   =  0,0909 + 0,1667 = 0,2576

- nel caso di nc = 15  e  ni = 5 si avrebbe   = 0,0667 + 0,2000 = 0,2667

- nel caso di nc = 19  e  ni = 4 si avrebbe   = 0,0526 +  0,2500 = 0,3026

Per ottenere la maggiore potenza del test, con 35 cavie e 5 gruppi, la scelta più vantaggiosa è collocare 11 cavie nel gruppo di controllo e 6 in ognuno degli altri 4 trattamenti.

 

 

ESEMPIO 1.  Si è voluto esaminare l'effetto di 6 diverse sostanze tossiche sull'accrescimento somatico di una specie planctonica (misurati in mm dopo 20 giorni dalla schiusa delle uova), per verificare quali di esse riducano significativamente le dimensioni medie (test unilaterale) allo stato adulto.

Con i seguenti risultati ottenuti in laboratorio:

 

 

 

CONTROLLO

SOSTANZE  TOSSICHE

 

 

A

B

C

D

E

F

Media

3,25

2,80

2,18

2,96

2,24

2,39

2,67

Osservazioni

10

7

7

7

7

7

7

 

 

 per un totale di 52 osservazioni, di cui 10 nel gruppo controllo.

L'analisi della varianza con  ha permesso di rifiutare l’ipotesi nulla; la varianza d'errore  con 45 gdl è risultata uguale a 0,36. Verificare quali sostanze hanno un effetto significativo alla probabilità a = 0.05 e quali anche alla probabilità a = 0.01 in rapporto al controllo.

 

Risposta.  I confronti da effettuare sono 6. E’ possibile stimare una differenza minima significativa (MDS) unica, poiché i trattamenti hanno tutti lo stesso numero d’osservazioni

 

 

Con i dati dell’esempio (p = 6 e gdl = 40), nella tavola dei valori critici

-  alla probabilità a = 0.05 il valore del Q di Dunnett è uguale a 2,62

-  alla probabilità a = 0.01 è uguale a  3,26.

 

Pertanto,

-  alla probabilità a = 0.05

 il valore della MDS

 

  =    =  2,62 × 0,296  =  0,775

 

 è uguale a 0,775 e

 

- alla probabilità a = 0.01

 

  =    =  3,26 × 0,296  =  0,965

 

 MDS è uguale a 0,965.

 

Si calcolano le differenze dei 6 trattamenti rispetto al controllo e si verifica la loro significatività mediante il confronto con i due valori MDS stimati. Possono essere segnate con

-  due asterischi le differenze maggiori del valore 0,965 e

-   un asterisco le differenze comprese tra 0,965 e 0,775.


 

 

A

3,25 - 2,80 = 0,45

B

3,25 – 2,18 = 1,07**

C

3,25 - 2,96 = 0,29

D

3,25 – 2,24 = 1,01**

E

3,25 - 2,39 = 0,86*

F

3,25 - 2,67 = 0,58

 

 

La tabella evidenzia che, delle 6 sostanze tossiche esaminate nell’esperimento, rispetto al controllo hanno un effetto molto significativo (a < 0.01) la B e la D, mentre ha un effetto significativo (a < 0.05) la E. Le sostanze A, C ed F non hanno ridotto la crescita in modo significativo rispetto al controllo (a > 0.05).

 

ESEMPIO 2.  Questo secondo esempio è tratto dal testo di  George E. P. Box, William G. Hunter e J. Stuart Hunter (nel testo: “Statistics for Experimenters. An introdution to Design, Data Analysis and Model Building”, pubblicato nel 1978 da John Wiley & Sons, New York, pp. 653) che individua nel metodo di Tukey e in quello di Dunnett le due proposte fondamentali, per analisi da effettuare con calcoli manuali.

La procedura di Dunnett  per il confronto tra k medie con la media di un campione standard o controllo richiede ovviamente il calcolo e l’analisi di  k-1  differenze.

Per ogni differenza ( - ) tra la media di un generico trattamento i () e la media del controllo () si stima un intervallo fiduciale

( - ) ±

in cui,

-  al posto del valore di q studentizzato, viene utilizzato

-  quello di t per k confronti, con gdl n e la  probabilità a/2.

 

Con le 7 medie di prima in cui G sia il controllo

 

 

Trattamenti

A

B

C

D

E

F

G = Controllo

Ni

4

4

4

4

4