analisi della varianza (ANOVA  I)

a un CRITERIO di classificazione

E CONFRONTI TRA PIU’ MEDIE

 

 

 

10.4.   I confronti A PRIORI O PIANIFICATI TRA PIU’ MEDIE

 

 

Quando con l’analisi della varianza si rifiuta l’ipotesi nulla, si può essere interessati a procedere nell’indagine per individuare tra quali medie la differenza sia significativa. Nel confronto tra diversi ambienti inquinati e in misure di tossicità con sostanze differenti, sovente l'attenzione è più rivolta ai confronti specifici tra alcune medie che non ad una valutazione complessiva, per la quale è quasi ovvio il rifiuto dell’ipotesi nulla, in particolare se un gruppo funge da controllo.

Con più confronti, aumenta la probabilità di commettere errori di Tipo I; in particolare, è errato applicare tante volte il test t di Student, nella convinzione che se un test risulta significativo, sia dimostrato che l’ipotesi nulla (tutte le medie sono uguali) sia da rifiutare.

I confronti possono essere

-  semplici, cioè condotti su coppie di singoli trattamenti,

-  complessi, cioè tra gruppi di trattamenti.

 

Un’altra distinzione, che verrà discussa in seguito, è tra

-  i confronti a priori o pianificati e

-  i confronti a posteriori (detti anche post-hoc) o multipli.

Esistono confronti che sono già programmati nella fase iniziale dell’esperimento, prima della raccolta di dati in natura o dei risultati dell’esperimento in laboratorio; altri che, in carenza di informazioni sulle differenze possibili tra i diversi gruppi, vengono utilizzati per la ricerca di qualunque confronto significativo.

 

Il problema fondamentale è che con p gruppi, e quindi con p-1 gradi di libertà nell’ANOVA, si possono avere solamente altrettanti confronti a coppie, come scomposizione della devianza tra trattamenti, se si vuole mantenere costante la probabilità a prescelta, mentre il numero teorico di confronti possibili è molto più alto, dato dalle combinazioni di p elementi 2 a 2. Con 5 gruppi, si hanno 4 gradi di libertà e sono ammessi solo 4 confronti a coppie; tuttavia i confronti teoricamente possibili sono 10  (). Ad essi è possibile aggiungere i confronti complessi, quelli fra insiemi diversi degli stessi 5 gruppi.

 

I confronti a priori, chiamati in molti testi anche confronti pianificati od ortogonali (planned comparisons, ortogonal comparisons), vengono prestabiliti durante la fase di programmazione dell'esperimento. Con essi è possibile organizzare sia confronti parziali che un confronto globale, in modo da analizzare le differenze tra le medie dei gruppi.

Possono essere presentati come un approfondimento dell’analisi della varianza, poiché con essi è possibile la scomposizione della devianza tra trattamenti e dei gdl relativi. Questi metodi presentano alcuni vantaggi:

-  utilizzano tutti i dati,

-  per la stima dell’errore impiegano la varianza d’errore,

-  non abbassano il valore di a per ognuno dei confronti possibili e quindi sono più potenti di quelli non pianificati.

Una trattazione completa di questi argomenti può essere trovata nel testo di R. Rosenthal e R. L. Rosnow del 1985 Contrast analysis: focussed comparisons in the analysis of variance (Cambridge University Press, Cambridge)

 

Trascurando i confronti con due soli gruppi, dove i gradi di libertà della devianza tra trattamenti è 1 e il confronto può essere solo tra le 2 medie, nel caso di 3 o più trattamenti è possibile operare con diverse modalità.

 

Come primo esempio, è possibile citare il caso di 3 gruppi:

-  un controllo ( C ) e

-  due trattamenti (A1, A2).

La devianza tra trattamenti ha 2 gdl; se il test F risulta significativo, è logica la sua successiva scomposizione in un

1 - primo confronto tra il controllo ( C ) contro (versus, abbreviato in vs) i due trattamenti (A1 + A2)

2 - un secondo confronto tra i due trattamenti (A1 vs A2).

 

Un secondo esempio, che considera 4 gruppi,

-  due formati con la sostanza A alla concentrazione 5% e 10%  (gruppi A1 e A2) e

-  due con  la sostanza B alla concentrazione 8% e 30% (gruppi B1 e B2)

 in un’analisi della varianza ha 3 gdl per la devianza tra trattamenti. Essi possono essere scomposti in tre confronti ortogonali

1 -  un confronto di A (A1 + A2) contro B (B1 + B2),

2 -  un confronto per A al 5%  (A1) contro A al 10% (A2),

3 -  un confronto di B a concentrazione 8% (B1) contro la concentrazione 30% (B2).

 

I casi da portare come esempio possono essere numerosi e sensibilmente più complessi; le scelte sui confronti da effettuare dipendono dalla conoscenza dei fattori che si vogliono sperimentare.


 

E’ fondamentale comprendere che i confronti che si possono effettuare devono essere tra loro indipendenti od ortogonali; in termini più semplici, significa che

ogni confronto non deve fornire informazioni sul risultato di tutti gli altri.

 

Per una loro corretta impostazione tecnica è utile ricorrere ai coefficienti polinomiali.

E’ un metodo proposto originariamente anche per semplificare i calcoli ed abbreviare i tempi richiesti dalla scomposizione della devianza tra trattamenti, come verrà dimostrato; ora, con la diffusione dei computer, sono rimasti utili soprattutto per impostare correttamente i confronti da effettuare, limitatamente ai gdl disponibili.

Si definiscono confronti ortogonali solo quelli in cui sono uguali a zero

-  sia la somma dei coefficienti per riga

-  sia quella dei loro prodotti per colonna.

Questi confronti godono della proprietà di rappresentare una corretta scomposizione della devianza tra trattamenti, con 1 gdl per ogni confronto, senza presentare correlazioni tra i risultati. In una analisi ortogonale, i differenti effetti sono stimati in modo indipendente, senza mutue interferenze e quindi senza alterazione della probabilità a prefissata di trovare differenze significative.

 

Nel caso precedentemente citato dei 3 gruppi, con un controllo (C) e due trattamenti (A1 e A2),

si intende verificare l'ipotesi nulla

H0:

 

Da essa si ricavano i coefficienti polinomiali della prima riga (+1  -1/2  -1/2).

 

Il confronto successivo tra le medie dei gruppi A1 e A2

 intende verificare l'ipotesi nulla

H0:

 

E da esso si ricavano i coefficienti della seconda riga (0  +1  -1).

 

Nella tabella seguente con i coefficienti polinomiali è semplice osservare come la somma dei valori per riga sia zero e come, nel contempo, sia uguale a zero anche la somma dei prodotti delle colonne:


 

Confronti ortogonali tra 3 gruppi (controllo C  e  2 trattamenti A1, A2)

 

 

Gruppi

C

A1

A2

Somma per riga

C  contro  A1 + A2

+ 1

-1/2

-1/2

0

A1  contro  A2

0

+1

-1

0

Prodotti per colonna

+1  x  0

-1/2  x  +1

-1/2  x  -1

(Non serve)

Totale colonna

0

-1/2

+1/2

0

 

 

Se i gruppi fossero 4, un controllo e tre trattamenti, per un confronto del controllo contro gli altri tre, si darebbe valore 1 al controllo e 1/3 ad ogni trattamento.

Per semplificare ulteriormente i calcoli, quasi sempre i pesi attribuiti ad ogni gruppo per un confronto specifico sono cambiati nei corrispondenti numeri interi, moltiplicando i dati della stessa riga per il denominatore, per cui la riga +1, -1/2, -1/2 diventa +2, -1, -1.

 

La tabella seguente, analoga alla precedente, riporta i coefficienti polinomiali con gli interi

 

Confronti ortogonali tra 3 gruppi (controllo C  e  2 trattamenti A1, A2)

 

 

Gruppi

C

A1

A2

Somma per riga

C  contro  A1 + A2

+ 2

- 1

- 1

0

A1  contro  A2

0

+1

-1

0

Prodotti per colonna

+2  x  0

-1  x  +1

-1  x  -1

(Non serve)

Totale colonna

0

-1

+1

0

 

 

Il confronto di C contro A1 + A2 permette di verificare se il controllo ha effetti diversi rispetto ai due trattamenti, uniti in un gruppo solo; il confronto di A1 contro A2 permette di evidenziare se i due trattamenti determinano effetti tra loro differenti.

 

Nel caso di 4 gruppi, A1 e A2 con la stessa sostanza a concentrazioni diverse, B1 e B2 con altra sostanza a concentrazioni differenti, i confronti ortogonali diventano 3 come descritti dalla tabella:


 

Confronti ortogonali tra 4 gruppi (A1+ A2 contro B1+ B2)

 

Gruppi

A1

A2

B1

B2

Somma riga

A1 e A2  contro  B1 e B2

+1

+1

-1

-1

0

A1  contro  A2

+1

-1

0

0

0

B1  contro  B2

0

0

+1

-1

0

Prodotti per colonna

+1x+1x0

+1x-1x0

-1x0x+1

-1x0x-1

(Non serve)

Totale colonna

0

0

0

0

0

 

 

Nel primo confronto

 si verifica l'ipotesi nulla

H0:

 che ha coefficienti polinomiali che possono essere scritti

- sia come +1/2  +1/2  -1/2  -1/2

- sia come  +1     +1     -1     -1

Negli altri due confronti, le ipotesi e i coefficienti polinomiali sono analoghi e a quelli descritti in precedenza.

Nel caso di un controllo (C) e tre trattamenti per valutare l’effetto di tre  farmaci, di cui A contenente una principio attivo naturale mentre B1 e B2 contenenti 2 differenti prodotti di sintesi, i confronti potrebbero essere come nella tabella successiva.

 

Confronti ortogonali tra 4 gruppi (C, A, B1, B2)

 

Gruppi

C

A

B1

B2

Totale riga

C contro A + B1 + B2

+1

-1/3

-1/3

-1/3

0

A contro B1 + B2

0

+1

-1/2

-1/2

0

B1 contro B2

0

0

+1

-1

0

Prodotti per colonna

+1 x 0 x 0

-1/3 x +1 x 0

-1/3x–1/2x+1

-1/3x-1/2x-1

(Non serve)

Totale colonna

0

0

+1/6

-1/6

0

 

 

 per verificare rispettivamente le ipotesi

H0:

H0:

H0:

 

Usando, come d’abitudine, gli interi, si ottiene

 

Confronti ortogonali tra 4 gruppi (C, A, B1, B2)

 

Gruppi

C

A

B1

B2

Somma riga

C contro A + B1 + B2

+3

-1

-1

-1

0

A contro B1 + B2

0

+2

-1

-1

0

B1 contro B2

0

0

+1

-1

0

Prodotti per colonna

+3 x 0 x 0

-1 x +2 x 0

-1 x –1 x +1

-1 x –1 x –1

(Non serve)

Totale colonna

0

0

+1

-1

0

 

 

La legge dell’ortogonalità, presentata per tutti i confronti, è valida anche per ogni coppia di confronti.

 

Con i coefficienti polinomiali è possibile mostrare quando un confronto è errato, cioè non è ortogonale. Per esempio, dopo aver verificato se esiste una differenza significativa del controllo rispetto ai tre farmaci insieme, è errato confrontare ancora il controllo rispetto ai farmaci B1 e B2, sia insieme che separatamente. E’ logico pensare che il primo risultato fornisca informazioni sul secondo: se tra il controllo e i farmaci risulta una differenza significativa, è maggiormente probabile che risulti significativa anche la differenza tra il controllo e i due farmaci B1 e B2.

I coefficienti polinomiali di questi due confronti non indipendenti, presentati nella tabella successiva, infatti risultano

(3 x 2) + (-1 x 0) + (-1 x –1) + (-1 x -1) = 6 + 0 + 1 + 1 = 8

diversi da 0.


 

Nella tabella precedente, risultano indipendenti

- sia il confronto riportato nella riga 1 con  quello della riga 2

 (+3 x 0) + (-1 x +2) + (-1 x –1) + (-1 x –1) = 0 –2 +1 +1 = 0

 

- sia il confronto riportato nella riga 2 con  quello della riga 3

 (0 x 0) + (+2 x 0) + (- 1 x +1) + (-1 x –1) = 0 + 0 –1 + 1 = 0

 

- sia il confronto riportato nella riga 1 con  quello della riga 3

 (+ 3 x 0) + (-1 x 0) + (-1 x +1) + (-1 x –1) = 0 + 0 –1 +1 = 0

 

 in quanto la somma dei prodotti dei loro coefficienti è sempre uguale a 0.

 

La tabella seguente mostra i coefficienti di due confronti non ortogonali.

 

Confronti ortogonali tra 4 gruppi (C, A, B1, B2)

 

Gruppi

C

A

B1

B2

Somma riga

C contro A + B1 + B2

+3

-1

-1

-1

0

C contro B1 + B2

+2

0

-1

-1

0

Prodotti per colonna

+3 x +2

-1 x 0

-1 x –1

-1 x –1

(Non serve)

Totale colonna

+6

0

+1

+1

+8

 

 

Nel caso di più gruppi, con lo stesso numero di osservazioni e con varianze (s2) uguali (questa ultima d’altronde è richiesta dall’analisi della varianza come condizione di validità), con i coefficienti polinomiali è semplice scomporre la devianza tra trattamenti.

Per ogni singolo test riportato nelle righe dei coefficienti polinomiali, si devono calcolare

- sia la media generale di tutti i gruppi implicati (),

- sia la media di ognuno dei due sottogruppi () a confronto.

Il valore della devianza, con 1 gdl, è ottenuto dalla formula di quella tra trattamenti già presentata

dove ni è il numero di osservazioni entro ogni sottogruppo.

L’applicazione è illustrata in modo chiaro nell’esempio successivo.

 

 

ESEMPIO.   In cinque zone di una città, con 6 misure in ognuna è stata rilevata la presenza di solventi aromatici (microgrammi/Nmc a 0° e 1013 mbar): 2 stazioni di rilevazione (A e B) sono state collocate in centro, ai due angoli estremi della piazza principale; la 3a stazione di rilevazione (C) ancora in centro, ma in una piazza secondaria; la 4a (D) e la 5a (E) in due zone periferiche, ai due estremi della strada principale, che attraversa la città.

 

I risultati sono stati

 

 

ZONE

A

B

C

D

E

Medie

208,2

199,8

141,0

123,3

119,1

ni

6

6

6

6

6

 

 

L’analisi della varianza ha dimostrato che

-  tra le 5 zone esiste complessivamente una differenza significativa e

-  la varianza d’errore (s2e), con 25 gdl, è risultata uguale a 146,5 (ovviamente, può essere ottenuta come somma delle devianze entro ognuno dei 5 gruppi, con gdl totali  5 x 5).

 

 

 

DEVIANZA

GDL

VARIANZA

F

TOTALE

47.301,628

29

---

---

Tra trattamenti o zone

43.639,128

4

10.909,782

74,47

Errore

3.662,500

25

146,500

---

 

 

Mediante i confronti ortogonali, verificare tra quali zone esiste una differenza significativa nel livello medio d’inquinamento.


 

Risposta. Con 5 gruppi e 4 gdl della varianza tra trattamenti, sono possibili 4 confronti ortogonali. Sulla base di quanto noto sulla collocazione delle 5 stazioni di rilevamento, appare logico e senza alternative plausibili lo schema riportato nella tabella successiva:

 

 

Confronti ortogonali con relativi punteggi polinomiali

 

4  Confronti ortogonali tra le 5 zone

A

B

C

D

E

Centro (A+B+C)  vs  Periferia (D+E)

+2

+2

+2

-3

-3

Piazza princ. (A+B)  vs  Piazza sec. (C)

+1

+1

-2

0

0

Piazza principale:   A  vs  B

+1

-1

0

0

0

Periferia:   D  vs  E

0

0

0

+1

-1

 

 

Dopo aver verificato che sono tutti confronti tra loro ortogonali

 come, ad esempio, il primo ed il secondo

(+2 x +1) + (+2 x +1) + (+2 x –2) + (-3 x 0) + (-3 x 0) = 2 + 2 – 4 + 0 + 0 = 0

 

 si calcolano le 4 devianze relative:

1 – la prima (centro contro periferia) per verificare l'ipotesi nulla

H0:  = 0

 con

 =  208,2 + 199,8 + 141,0 +123,3 + 119,1  =  791,4 / 5  =  158,28

  =  208,2 + 199,8 + 141,0 = 549,0 / 3  =  183,0     e      = 18

  =  123,3 + 119,1  =  242,4 / 2  =  121,2     e      = 12

 che risulta

(183,0 – 158,28)2 ×18  +  (121,2 – 158,28)2 ×12  =  10.999,4112  +  16.499,1168  =  27.498,528

 uguale a 27.498,528;

 

2 – la seconda devianza (piazza principale contro piazza secondaria del centro)

 per verificare l'ipotesi nulla

H0:  = 0

 con

 =  208,2 + 199,8 + 141,0   =  549,0 / 3  =  183,0

 = 208,2 + 199,8  = 408,0 / 2  =  204,0     e      = 12

 = 141,0     e      = 6

 che risulta

(204 – 183)2 ×12 + (141 – 183)2 ×6  =  5.292 + 10.584   =   15.876

 uguale a 15.876;

 

3 – la terza devianza (la stazione A contro la B della piazza principale)

 per verificare l'ipotesi nulla

H0:

 con

 =  208,2 + 199,8  =  408,0 / 2  =  204,0

 = 208,2      e      =  6

 = 199,8     e      =  6

 che risulta

(208,2 – 204)2 ×6  + (199,8 – 204)2 ×6   =   105,84 + 105,82   =   211,68

 uguale a 211,68;

 

4 – la quarta devianza (la stazione D contro la E delle periferie)

 per verificare l'ipotesi nulla

H0:

 con

 =  123,3 + 119,1  =  242,4 / 2  =  121,2

 = 123,3     e      =  6

 = 119,1     e      =  6

 che risulta

(123,3 – 121,2)2 ×6+ (119,1 – 121,2)2 ×6   =   26,46 + 26,46   =   52,92

 uguale a 52,92.


 

 (AVVERTENZA: Se i confronti sono ortogonali e non sono stati commessi errori di calcolo,

-  la somma delle 4 devianze calcolate

27.498,528 + 15.876 + 211,68 + 52,92   =   43.639,128

 

-  risulta esattamente uguale alla devianza tra trattamenti, la cui media generale è 158,28

(208,2–158,28)2×6 + (199,8–158,28)2×6 + (141–158,28)2×6 + (208,2–158,28)2×6 + (208,2–158,28)2×6

14.952,0384  +  10.343,4624  +  1.791,5904  +  7.341,6024  +  9.210,4344   =   43.639,1280

 come la somma dei 4 gdl).

 

Successivamente, una volta calcolate le 4 devianze, si possono effettuare 4 test F, ognuno con gdl 1,25 se e solo se il test F della varianza tra trattamenti, con gdl 4, risulta significativo.

 

Con i dati dell’esempio, poiché il test F della varianza tra trattamenti (43.639,1280 / 4 = 10.909,782)

 risulta

 uguale a 74,47

 mentre il valore tabulato di F4,25 alla probabilità

a = 0.05 risulta uguale a 2,76

a = 0.01 risulta uguale a 4,18

 si possono fare i 4 test F, ottenendo

 

1 -    altamente significativo

2 -           altamente significativo

3 -                 non significativo

4 -                      non significativo

 

Di norma, i risultati sono presentati in una tabella riassuntiva generale, come la seguente:


 

 


 

DEVIANZA

GDL

VARIANZA

F

TOTALE

47.301,628

29

---

---

Tra trattamenti o zone

43.639,128

4

10.909,782

74,47

A + B +C   vs   D + E

27.498,528

1

27.498,528

187,70

A + B   vs   C

15.876,000

1

15.876,000

108,37

A   vs   B

211,680

1

211,680

1,44

D   vs   E

52,920

1

52,920

<1

Errore

3.662,500

25

146,500

---

 

 

 con le probabilità relative, riportate in una ulteriore colonna di fianco ai valori di F, quando sono effettuate al computer con i programmi a maggior diffusione internazionale.

 

Da questi risultati è possibile trarre, in modo esplicito, le conclusioni a carattere ambientale sui valori d’inquinamento rilevati nel campionamento delle 5 zone:

1         tra le cinque zone, le medie aritmetiche dell'inquinamento da solventi aromatici hanno una differenza altamente significativa;

2         tale significatività è imputabile soprattutto alla differenza tra le 3 stazioni collocate in centro e le 2 situate in zone periferiche;

3         è altamente significativa anche la differenza tra le 2 stazioni collocate nella piazza principale e la stazione collocata in una piazza secondaria;

4              non esiste una differenza significativa tra le due stazioni di rilevazione situate a i due estremi della stessa piazza centrale;

5              non esiste alcuna differenza tra i valori medi delle due zone periferiche.

 

Quando i gruppi hanno un numero diverso di osservazioni, il confronto tra le medie non risulta più omogeneo: ogni media avrebbe un intervallo fiduciale diverso, ma i gradi di libertà di ogni F restano identici. Se le differenze nelle dimensioni campionarie dei vari gruppi non sono troppo differenti (ma resta la difficoltà di decidere quando lo siano), fino a poco tempo fa alcuni testi accettavano ugualmente il confronto con il metodo appena illustrato.

 

Vari testi di statistica tendono ora a favorire questo approccio, rispetto a quello a posteriori, di seguito illustrato. Richiede uno studio anticipato del problema, ma permette una interpretazione funzionale alla logica delle differenze.

Inoltre, è molto più potente di quello a posteriori

 

  

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007