Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

analisi della varianza (ANOVA I)

a un CRITERIO di classificazione

E CONFRONTI TRA PIU’ MEDIE

10.4. I confronti A PRIORI O PIANIFICATI TRA PIU’ MEDIE

Quando con l’analisi della varianza si rifiuta l’ipotesi nulla, si può essere interessati a procedere nell’indagine per individuare tra quali medie la differenza sia significativa. Nel confronto tra diversi ambienti inquinati e in misure di tossicità con sostanze differenti, sovente l'attenzione è più rivolta ai confronti specifici tra alcune medie che non ad una valutazione complessiva, per la quale è quasi ovvio il rifiuto dell’ipotesi nulla, in particolare se un gruppo funge da controllo.

Con più confronti, aumenta la probabilità di commettere errori di Tipo I; in particolare, è errato applicare tante volte il test t di Student, nella convinzione che se un test risulta significativo, sia dimostrato che l’ipotesi nulla (tutte le medie sono uguali) sia da rifiutare.

I confronti possono essere

- semplici, cioè condotti su coppie di singoli trattamenti,

- complessi, cioè tra gruppi di trattamenti.

Un’altra distinzione, che verrà discussa in seguito, è tra

- i confronti a priori o pianificati e

- i confronti a posteriori (detti anche post-hoc) o multipli.

Esistono confronti che sono già programmati nella fase iniziale dell’esperimento, prima della raccolta di dati in natura o dei risultati dell’esperimento in laboratorio; altri che, in carenza di informazioni sulle differenze possibili tra i diversi gruppi, vengono utilizzati per la ricerca di qualunque confronto significativo.

Il problema fondamentale è che con p gruppi, e quindi con p-1 gradi di libertà nell’ANOVA, si possono avere solamente altrettanti confronti a coppie, come scomposizione della devianza tra trattamenti, se si vuole mantenere costante la probabilità a prescelta, mentre il numero teorico di confronti possibili è molto più alto, dato dalle combinazioni di p elementi 2 a 2. Con 5 gruppi, si hanno 4 gradi di libertà e sono ammessi solo 4 confronti a coppie; tuttavia i confronti teoricamente possibili sono 10 (). Ad essi è possibile aggiungere i confronti complessi, quelli fra insiemi diversi degli stessi 5 gruppi.

I confronti a priori, chiamati in molti testi anche confronti pianificati od ortogonali (planned comparisons, ortogonal comparisons), vengono prestabiliti durante la fase di programmazione dell'esperimento. Con essi è possibile organizzare sia confronti parziali che un confronto globale, in modo da analizzare le differenze tra le medie dei gruppi.

Possono essere presentati come un approfondimento dell’analisi della varianza, poiché con essi è possibile la scomposizione della devianza tra trattamenti e dei gdl relativi. Questi metodi presentano alcuni vantaggi:

- utilizzano tutti i dati,

- per la stima dell’errore impiegano la varianza d’errore,

- non abbassano il valore di a per ognuno dei confronti possibili e quindi sono più potenti di quelli non pianificati.

Una trattazione completa di questi argomenti può essere trovata nel testo di R. Rosenthal e R. L. Rosnow del 1985 Contrast analysis: focussed comparisons in the analysis of variance (Cambridge University Press, Cambridge)

Trascurando i confronti con due soli gruppi, dove i gradi di libertà della devianza tra trattamenti è 1 e il confronto può essere solo tra le 2 medie, nel caso di 3 o più trattamenti è possibile operare con diverse modalità.

Come primo esempio, è possibile citare il caso di 3 gruppi:

- un controllo ( C ) e

- due trattamenti (A₁, A₂).

La devianza tra trattamenti ha 2 gdl; se il test F risulta significativo, è logica la sua successiva scomposizione in un

1 - primo confronto tra il controllo ( C ) contro (versus, abbreviato in vs) i due trattamenti (A₁ + A₂)

2 - un secondo confronto tra i due trattamenti (A₁ vs A₂).

Un secondo esempio, che considera 4 gruppi,

- due formati con la sostanza A alla concentrazione 5% e 10% (gruppi A₁ e A₂) e

- due con la sostanza B alla concentrazione 8% e 30% (gruppi B₁ e B₂)

in un’analisi della varianza ha 3 gdl per la devianza tra trattamenti. Essi possono essere scomposti in tre confronti ortogonali

1 - un confronto di A (A₁ + A₂) contro B (B₁ + B₂),

2 - un confronto per A al 5% (A₁) contro A al 10% (A₂),

3 - un confronto di B a concentrazione 8% (B₁) contro la concentrazione 30% (B₂).

I casi da portare come esempio possono essere numerosi e sensibilmente più complessi; le scelte sui confronti da effettuare dipendono dalla conoscenza dei fattori che si vogliono sperimentare.

E’ fondamentale comprendere che i confronti che si possono effettuare devono essere tra loro indipendenti od ortogonali; in termini più semplici, significa che

ogni confronto non deve fornire informazioni sul risultato di tutti gli altri.

Per una loro corretta impostazione tecnica è utile ricorrere ai coefficienti polinomiali.

E’ un metodo proposto originariamente anche per semplificare i calcoli ed abbreviare i tempi richiesti dalla scomposizione della devianza tra trattamenti, come verrà dimostrato; ora, con la diffusione dei computer, sono rimasti utili soprattutto per impostare correttamente i confronti da effettuare, limitatamente ai gdl disponibili.

Si definiscono confronti ortogonali solo quelli in cui sono uguali a zero

- sia la somma dei coefficienti per riga

- sia quella dei loro prodotti per colonna.

Questi confronti godono della proprietà di rappresentare una corretta scomposizione della devianza tra trattamenti, con 1 gdl per ogni confronto, senza presentare correlazioni tra i risultati. In una analisi ortogonale, i differenti effetti sono stimati in modo indipendente, senza mutue interferenze e quindi senza alterazione della probabilità a prefissata di trovare differenze significative.

Nel caso precedentemente citato dei 3 gruppi, con un controllo (C) e due trattamenti (A₁ e A₂),

si intende verificare l'ipotesi nulla

H₀:

Da essa si ricavano i coefficienti polinomiali della prima riga (+1 -1/2 -1/2).

Il confronto successivo tra le medie dei gruppi A₁ e A₂

intende verificare l'ipotesi nulla

H₀:

E da esso si ricavano i coefficienti della seconda riga (0 +1 -1).

Nella tabella seguente con i coefficienti polinomiali è semplice osservare come la somma dei valori per riga sia zero e come, nel contempo, sia uguale a zero anche la somma dei prodotti delle colonne:

Confronti ortogonali tra 3 gruppi (controllo C e 2 trattamenti A₁, A₂)
Gruppi	C	A₁	A₂	Somma per riga
C contro A₁ + A₂	+ 1	-1/2	-1/2	0
A₁ contro A₂	0	+1	-1	0
Prodotti per colonna	+1 x 0	-1/2 x +1	-1/2 x -1	(Non serve)
Totale colonna	0	-1/2	+1/2	0

Se i gruppi fossero 4, un controllo e tre trattamenti, per un confronto del controllo contro gli altri tre, si darebbe valore 1 al controllo e 1/3 ad ogni trattamento.

Per semplificare ulteriormente i calcoli, quasi sempre i pesi attribuiti ad ogni gruppo per un confronto specifico sono cambiati nei corrispondenti numeri interi, moltiplicando i dati della stessa riga per il denominatore, per cui la riga +1, -1/2, -1/2 diventa +2, -1, -1.

La tabella seguente, analoga alla precedente, riporta i coefficienti polinomiali con gli interi

Confronti ortogonali tra 3 gruppi (controllo C e 2 trattamenti A₁, A₂)
Gruppi	C	A₁	A₂	Somma per riga
C contro A₁ + A₂	+ 2	- 1	- 1	0
A₁ contro A₂	0	+1	-1	0
Prodotti per colonna	+2 x 0	-1 x +1	-1 x -1	(Non serve)
Totale colonna	0	-1	+1	0

Il confronto di C contro A₁ + A₂ permette di verificare se il controllo ha effetti diversi rispetto ai due trattamenti, uniti in un gruppo solo; il confronto di A₁ contro A₂ permette di evidenziare se i due trattamenti determinano effetti tra loro differenti.

Nel caso di 4 gruppi, A₁ e A₂ con la stessa sostanza a concentrazioni diverse, B₁ e B₂con altra sostanza a concentrazioni differenti, i confronti ortogonali diventano 3 come descritti dalla tabella:

Confronti ortogonali tra 4 gruppi (A₁+ A₂ contro B₁+ B₂)
Gruppi	A₁	A₂	B₁	B₂	Somma riga
A₁ e A₂ contro B₁ e B₂	+1	+1	-1	-1	0
A₁ contro A₂	+1	-1	0	0	0
B₁ contro B₂	0	0	+1	-1	0
Prodotti per colonna	+1x+1x0	+1x-1x0	-1x0x+1	-1x0x-1	(Non serve)
Totale colonna	0	0	0	0	0

Nel primo confronto

si verifica l'ipotesi nulla

H₀:

che ha coefficienti polinomiali che possono essere scritti

- sia come +1/2 +1/2 -1/2 -1/2

- sia come +1 +1 -1 -1

Negli altri due confronti, le ipotesi e i coefficienti polinomiali sono analoghi e a quelli descritti in precedenza.

Nel caso di un controllo (C) e tre trattamenti per valutare l’effetto di tre farmaci, di cui A contenente una principio attivo naturale mentre B₁ e B₂ contenenti 2 differenti prodotti di sintesi, i confronti potrebbero essere come nella tabella successiva.

Confronti ortogonali tra 4 gruppi (C, A, B₁, B₂)
Gruppi	C	A	B₁	B₂	Totale riga
C contro A + B₁ + B₂	+1	-1/3	-1/3	-1/3	0
A contro B₁ + B₂	0	+1	-1/2	-1/2	0
B₁ contro B₂	0	0	+1	-1	0
Prodotti per colonna	+1 x 0 x 0	-1/3 x +1 x 0	-1/3x–1/2x+1	-1/3x-1/2x-1	(Non serve)
Totale colonna	0	0	+1/6	-1/6	0

per verificare rispettivamente le ipotesi

H₀:

Usando, come d’abitudine, gli interi, si ottiene

Confronti ortogonali tra 4 gruppi (C, A, B₁, B₂)
Gruppi	C	A	B₁	B₂	Somma riga
C contro A + B₁ + B₂	+3	-1	-1	-1	0
A contro B₁ + B₂	0	+2	-1	-1	0
B₁ contro B₂	0	0	+1	-1	0
Prodotti per colonna	+3 x 0 x 0	-1 x +2 x 0	-1 x –1 x +1	-1 x –1 x –1	(Non serve)
Totale colonna	0	0	+1	-1	0

La legge dell’ortogonalità, presentata per tutti i confronti, è valida anche per ogni coppia di confronti.

Con i coefficienti polinomiali è possibile mostrare quando un confronto è errato, cioè non è ortogonale. Per esempio, dopo aver verificato se esiste una differenza significativa del controllo rispetto ai tre farmaci insieme, è errato confrontare ancora il controllo rispetto ai farmaci B₁ e B₂, sia insieme che separatamente. E’ logico pensare che il primo risultato fornisca informazioni sul secondo: se tra il controllo e i farmaci risulta una differenza significativa, è maggiormente probabile che risulti significativa anche la differenza tra il controllo e i due farmaci B₁ e B₂.

I coefficienti polinomiali di questi due confronti non indipendenti, presentati nella tabella successiva, infatti risultano

(3 x 2) + (-1 x 0) + (-1 x –1) + (-1 x -1) = 6 + 0 + 1 + 1 = 8

diversi da 0.

Nella tabella precedente, risultano indipendenti

- sia il confronto riportato nella riga 1 con quello della riga 2

(+3 x 0) + (-1 x +2) + (-1 x –1) + (-1 x –1) = 0 –2 +1 +1 = 0

- sia il confronto riportato nella riga 2 con quello della riga 3

(0 x 0) + (+2 x 0) + (- 1 x +1) + (-1 x –1) = 0 + 0 –1 + 1 = 0

- sia il confronto riportato nella riga 1 con quello della riga 3

(+ 3 x 0) + (-1 x 0) + (-1 x +1) + (-1 x –1) = 0 + 0 –1 +1 = 0

in quanto la somma dei prodotti dei loro coefficienti è sempre uguale a 0.

La tabella seguente mostra i coefficienti di due confronti non ortogonali.

Confronti ortogonali tra 4 gruppi (C, A, B₁, B₂)
Gruppi	C	A	B₁	B₂	Somma riga
C contro A + B₁ + B₂	+3	-1	-1	-1	0
C contro B₁ + B₂	+2	0	-1	-1	0
Prodotti per colonna	+3 x +2	-1 x 0	-1 x –1	-1 x –1	(Non serve)
Totale colonna	+6	0	+1	+1	+8

Nel caso di più gruppi, con lo stesso numero di osservazioni e con varianze (s²) uguali (questa ultima d’altronde è richiesta dall’analisi della varianza come condizione di validità), con i coefficienti polinomiali è semplice scomporre la devianza tra trattamenti.

Per ogni singolo test riportato nelle righe dei coefficienti polinomiali, si devono calcolare

- sia la media generale di tutti i gruppi implicati (),

- sia la media di ognuno dei due sottogruppi () a confronto.

Il valore della devianza, con 1 gdl, è ottenuto dalla formula di quella tra trattamenti già presentata

dove n_i è il numero di osservazioni entro ogni sottogruppo.

L’applicazione è illustrata in modo chiaro nell’esempio successivo.

ESEMPIO. In cinque zone di una città, con 6 misure in ognuna è stata rilevata la presenza di solventi aromatici (microgrammi/Nmc a 0° e 1013 mbar): 2 stazioni di rilevazione (A e B) sono state collocate in centro, ai due angoli estremi della piazza principale; la 3^a stazione di rilevazione (C) ancora in centro, ma in una piazza secondaria; la 4^a (D) e la 5^a (E) in due zone periferiche, ai due estremi della strada principale, che attraversa la città.

I risultati sono stati

ZONE	A	B	C	D	E
Medie	208,2	199,8	141,0	123,3	119,1
n_i	6	6	6	6	6

L’analisi della varianza ha dimostrato che

- tra le 5 zone esiste complessivamente una differenza significativa e

- la varianza d’errore (s²_e), con 25 gdl, è risultata uguale a 146,5 (ovviamente, può essere ottenuta come somma delle devianze entro ognuno dei 5 gruppi, con gdl totali 5 x 5).

	DEVIANZA	GDL	VARIANZA	F
TOTALE	47.301,628	29	---	---
Tra trattamenti o zone	43.639,128	4	10.909,782	74,47
Errore	3.662,500	25	146,500	---

Mediante i confronti ortogonali, verificare tra quali zone esiste una differenza significativa nel livello medio d’inquinamento.

Risposta. Con 5 gruppi e 4 gdl della varianza tra trattamenti, sono possibili 4 confronti ortogonali. Sulla base di quanto noto sulla collocazione delle 5 stazioni di rilevamento, appare logico e senza alternative plausibili lo schema riportato nella tabella successiva:

Confronti ortogonali con relativi punteggi polinomiali
4 Confronti ortogonali tra le 5 zone	A	B	C	D	E
Centro (A+B+C) vs Periferia (D+E)	+2	+2	+2	-3	-3
Piazza princ. (A+B) vs Piazza sec. (C)	+1	+1	-2	0	0
Piazza principale: A vs B	+1	-1	0	0	0
Periferia: D vs E	0	0	0	+1	-1

Dopo aver verificato che sono tutti confronti tra loro ortogonali

come, ad esempio, il primo ed il secondo

(+2 x +1) + (+2 x +1) + (+2 x –2) + (-3 x 0) + (-3 x 0) = 2 + 2 – 4 + 0 + 0 = 0

si calcolano le 4 devianze relative:

1 – la prima (centro contro periferia) per verificare l'ipotesi nulla

H₀: = 0

con

= 208,2 + 199,8 + 141,0 +123,3 + 119,1 = 791,4 / 5 = 158,28

= 208,2 + 199,8 + 141,0 = 549,0 / 3 = 183,0 e = 18

= 123,3 + 119,1 = 242,4 / 2 = 121,2 e = 12

che risulta

(183,0 – 158,28)²×18 + (121,2 – 158,28)² ×12 = 10.999,4112 + 16.499,1168 = 27.498,528

uguale a 27.498,528;

2 – la seconda devianza (piazza principale contro piazza secondaria del centro)

per verificare l'ipotesi nulla

H₀: = 0

con

= 208,2 + 199,8 + 141,0 = 549,0 / 3 = 183,0

= 208,2 + 199,8 = 408,0 / 2 = 204,0 e = 12

= 141,0 e = 6

che risulta

(204 – 183)²×12 + (141 – 183)²×6 = 5.292 + 10.584 = 15.876

uguale a 15.876;

3 – la terza devianza (la stazione A contro la B della piazza principale)

per verificare l'ipotesi nulla

H₀:

con

= 208,2 + 199,8 = 408,0 / 2 = 204,0

= 208,2 e = 6

= 199,8 e = 6

che risulta

(208,2 – 204)²×6 + (199,8 – 204)²×6 = 105,84 + 105,82 = 211,68

uguale a 211,68;

4 – la quarta devianza (la stazione D contro la E delle periferie)

per verificare l'ipotesi nulla

H₀:

con

= 123,3 + 119,1 = 242,4 / 2 = 121,2

= 123,3 e = 6

= 119,1 e = 6

che risulta

(123,3 – 121,2)²×6+ (119,1 – 121,2)²×6 = 26,46 + 26,46 = 52,92

uguale a 52,92.

(AVVERTENZA: Se i confronti sono ortogonali e non sono stati commessi errori di calcolo,

- la somma delle 4 devianze calcolate

27.498,528 + 15.876 + 211,68 + 52,92 = 43.639,128

- risulta esattamente uguale alla devianza tra trattamenti, la cui media generale è 158,28

(208,2–158,28)²×6 + (199,8–158,28)²×6 + (141–158,28)²×6 + (208,2–158,28)²×6 + (208,2–158,28)²×6

14.952,0384 + 10.343,4624 + 1.791,5904 + 7.341,6024 + 9.210,4344 = 43.639,1280

come la somma dei 4 gdl).

Successivamente, una volta calcolate le 4 devianze, si possono effettuare 4 test F, ognuno con gdl 1,25 se e solo se il test F della varianza tra trattamenti, con gdl 4, risulta significativo.

Con i dati dell’esempio, poiché il test F della varianza tra trattamenti (43.639,1280 / 4 = 10.909,782)

risulta

uguale a 74,47

mentre il valore tabulato di F_4,25 alla probabilità

- a = 0.05 risulta uguale a 2,76

- a = 0.01 risulta uguale a 4,18

si possono fare i 4 test F, ottenendo

1 - altamente significativo

2 - altamente significativo

3 - non significativo

4 - non significativo

Di norma, i risultati sono presentati in una tabella riassuntiva generale, come la seguente:

	DEVIANZA	GDL	VARIANZA	F
TOTALE	47.301,628	29	---	---
Tra trattamenti o zone	43.639,128	4	10.909,782	74,47
A + B +C vs D + E	27.498,528	1	27.498,528	187,70
A + B vs C	15.876,000	1	15.876,000	108,37
A vs B	211,680	1	211,680	1,44
D vs E	52,920	1	52,920	<1
Errore	3.662,500	25	146,500	---

con le probabilità relative, riportate in una ulteriore colonna di fianco ai valori di F, quando sono effettuate al computer con i programmi a maggior diffusione internazionale.

Da questi risultati è possibile trarre, in modo esplicito, le conclusioni a carattere ambientale sui valori d’inquinamento rilevati nel campionamento delle 5 zone:

1 tra le cinque zone, le medie aritmetiche dell'inquinamento da solventi aromatici hanno una differenza altamente significativa;

2 tale significatività è imputabile soprattutto alla differenza tra le 3 stazioni collocate in centro e le 2 situate in zone periferiche;

3 è altamente significativa anche la differenza tra le 2 stazioni collocate nella piazza principale e la stazione collocata in una piazza secondaria;

4 non esiste una differenza significativa tra le due stazioni di rilevazione situate a i due estremi della stessa piazza centrale;

5 non esiste alcuna differenza tra i valori medi delle due zone periferiche.

Quando i gruppi hanno un numero diverso di osservazioni, il confronto tra le medie non risulta più omogeneo: ogni media avrebbe un intervallo fiduciale diverso, ma i gradi di libertà di ogni F restano identici. Se le differenze nelle dimensioni campionarie dei vari gruppi non sono troppo differenti (ma resta la difficoltà di decidere quando lo siano), fino a poco tempo fa alcuni testi accettavano ugualmente il confronto con il metodo appena illustrato.

Vari testi di statistica tendono ora a favorire questo approccio, rispetto a quello a posteriori, di seguito illustrato. Richiede uno studio anticipato del problema, ma permette una interpretazione funzionale alla logica delle differenze.

Inoltre, è molto più potente di quello a posteriori

Totale colonna

Totale colonna

Totale colonna

C

B2

B2

Somma riga

C

B2

D

-3

B₂

B₂

B₂