ANALISI DELLA VARIANZA a piu’ criteri di classificazione

 

 

11.4.   QUADRATI LATINI E GRECO-LATINI

 

 

Analizzare contemporaneamente 2 fattori di variazione a p livelli nel disegno sperimentale a blocchi randomizzati richiede  osservazioni. Con le stesse modalità di programmazione, poiché ogni livello di un fattore deve incrociare tutti i livelli degli altri fattori, un esperimento con 3 fattori di variazione a p livelli richiede  osservazioni o repliche.

In un esperimento con 3 fattori, ognuno a 5 livelli, si richiedono 125 dati.

All’aumentare dei fattori, si ha un rapido incremento delle misure che occorre raccogliere; poiché ognuna ha un costo e richiede tempo, sono stati sviluppati metodi che permettono di analizzare contemporaneamente più fattori con un numero minore di dati.

 

Il disegno sperimentale a quadrati latini permette di analizzare contemporaneamente 3 fattori a p livelli con sole  osservazioni: con 3 fattori a 5 livelli sono sufficienti 25 dati. A questo vantaggio, rappresentato da un risparmio di materiale e quindi di denaro e di tempo necessari all’esperimento, si associa lo svantaggio di una maggiore rigidità dell’esperimento stesso: tutti e tre i fattori devono avere lo stesso numero di livelli.

 

I quadrati latini furono applicati per la prima volta in esperimenti di agraria. La suddivisione in strisce tra loro perpendicolari e della stessa ampiezza di un appezzamento quadrato di terreno formava tante celle quadrate; da qui il nome, per la somiglianza del frazionamento dell'area all'accampamento romano.

Per riportare in tabella i risultati di un esperimento a quadrati latini, due fattori vengono rappresentati nelle righe e nelle colonne, mentre il terzo, di solito il fattore principale, è rappresentato nelle celle formate dall’incrocio tra riga e colonna.

In esse, il terzo fattore è distribuito in modo casuale ma ordinato: deve comparire una volta sola sia in ogni riga che in ogni colonna.

 

Per esempio, indicando

-          nelle colonne i 4 livelli (I, II, III, IV) del primo fattore,

-          nelle righe i 4 livelli del secondo fattore (1, 2, 3, 4)

-          con A, B, C, D i 4 livelli del trattamento principale o terzo fattore,

la rappresentazione tabellare dell'esperimento a quadrati latini 4 x 4 diventa:

 

 

 

COLONNE

RIGHE

I

II

III

IV

1

D

B

C

A

2

C

D

A

B

3

B

A

D

C

4

A

C

B

D

 

 

In un disegno a due criteri di classificazione, la randomizzazione è attuata assegnando i trattamenti a caso all'interno di ciascun blocco.

In un quadrato latino (che ha tre criteri di classificazione), la randomizzazione è ottenuta permutando i trattamenti nello schema ordinato delle righe e delle colonne. A questo scopo esistono tabelle di distribuzione casuale, da utilizzare nel caso di più esperimenti a quadrati latini con schemi differenti.

Il limite più grave di questo metodo nella programmazione dell'esperimento dipende dalla sua rigidità: se si vogliono analizzare 5 trattamenti serve un numero uguale di livelli anche negli altri 2 fattori da considerare nelle righe e nelle colonne. E’ ovvio che non tutti i fattori si prestano. Per esempio, non è possibile valutare l’effetto di 4 tossici su cavie di 4 età diversa (neonati, giovani, adulti, anziani) considerando anche il sesso, che ha due sole modalità.

 

In un disegno sperimentale a quadrati latini, il modello additivo dell’analisi della varianza richiede che la generica osservazione Xijk, appartenente alla riga i-esima, alla colonna j-esima e al trattamento k-esimo, sia data da

 dove:

m  è la media generale della popolazione, corrispondente a  con i dati campionari,

  è l'effetto medio della riga i-esima, sperimentalmente uguale a (),

  è l'effetto medio della colonna j-esima, uguale a (),

  è l'effetto medio del trattamento k-esimo, uguale a (),

-  Rijk è la variabilità residua e è uguale a (Xijk - ).

 

Il calcolo delle devianze è semplice:

-          la devianza totale, quella tra righe e quella tra colonne sono calcolate con la stessa metodologia utilizzata nel disegno a blocchi randomizzati;

-          la devianza tra trattamenti viene calcolata rispetto alla somma e alla media ottenute dall’addizione dei valori collocati nelle celle contrassegnate con la stessa lettera.

In simboli, ogni valore sperimentale Xijk è dato da

 

Xijk =  +() + () + () +(Xijk - )

 

corrispondenti nel modello a

Xijk = m + a + b + g + Rijk

 

 

ESEMPIO.  Si intende confrontare la produttività di 5 varietà (A, B, C, D, E) di sementi in rapporto al tipo di concime (1, 2, 3, 4, 5) e ad un diverso trattamento del terreno (I, II, III, IV, V). A questo scopo, si è diviso un appezzamento quadrato di terreno in 5 strisce di dimensioni uguali, nelle quali è stata fatta un'aratura di profondità differente; perpendicolarmente a queste, sono state tracciate altre 5 strisce, che sono state concimate in modo diverso.

Nei 25 quadrati, sono state seminate le 5 varietà di sementi, secondo lo schema a quadrati latini della tabella sottostante. In essa è riportata anche la produttività delle 5 varietà di sementi, nei 25 appezzamenti quadrati di terreno:

 

 

 

TIPO DI TRATTAMENTO DEL TERRENO

CONCIME

I

II

III

IV

V

1

A 42

C 47

B 55

D 51

E 44

2

E 45

B 54

C 52

A 44

D 50

3

C 41

A 46

D 57

E 47

B 48

4

B 56

D 52

E 49

C 50

A 43

5

D 47

E 49

A 45

B 54

C 46

 

 

Esistono differenze significative tra le medie delle 5 modalità, per ognuno dei 3 fattori considerati?

 

Risposta. E’ possibile formulare 3 ipotesi nulle, con le rispettive ipotesi alternative.

 

Per il tipo di trattamento del terreno od aratura:

H0:   mI = mII = mIII = mIV = mV         contro        H1:  non tutte le m delle arature sono tra loro uguali.

 

Per il tipo di concime:

H0:   m1 = m2 = m3 = m4 = m5       contro        H1:  non tutte le m dei concimi sono tra loro uguali.

 

Per il tipo di semente:

H0:   mA = mB = mC = mD = mE        contro        H1:  non tutte le m delle sementi sono tra loro uguali.

 

Calcolate le somme e le medie sia per riga che per colonna dei primi due fattori, cioè del tipo di trattamento del terreno e del tipo di concime utilizzato,


 

TIPO DI TRATTAMENTO DEL TERRENO

 

CONCIME

I

II

III

IV

V

Totale

Media

1

A 42

C 47

B 55

D 51

E 44

239

47,8

2

E 45

B 54

C 52

A 44

D 50

245

49,0

3

C 41

A 46

D 57

E 47

B 48

239

47,8

4

B 56

D 52

E 49

C 50

A 43

250

50,0

5

D 47

E 49

A 45

B 54

C 46

241

48,2

Totale

231

248

258

246

231

1214

 

Media

46,2

49,6

51,6

49,2

46,2

 

48,56

 

 

 si calcolano anche le somme e le medie del terzo fattore (riportate sempre a parte)

 

 

A

B

C

D

E

Totale

220

267

236

257

234

Media

44,0

53,4

47,2

51,4

46,8

 

 mediante l’addizione dei valori associati alla stessa lettera nelle varie caselle.

 

Con una delle due solite formule (euristica od abbreviata), si valutano le devianze tra i diversi livelli dello stesso fattore.

Con la formula euristica,

la devianza tra arature con 4 gdl è

2312 /5 + 2482 /5 + 2582 /5 + 2462 /5 + 2312 /5 - 12142 /25  =  109,36

 uguale a 109,36.

La devianza tra concimi, con 4 gdl, è

2392 /5 + 2452 /5 + 2392/5 + 2502 /5 + 2412 /5 - 12142 /25  =  17,76

 uguale a 17,76.

La devianza tra sementi, sempre con 4 gdl, è

2202 /5 + 2672 /5 + 2362 /5 + 2572 /5 + 2342 /5 - 12142 /25  =  286,16

 uguale a 286,16.

 

I risultati delle devianze ed il calcolo delle varianze necessarie ai tre test F, sono riportati in tabella

 

 

 

DEVIANZA

GDL

VARIANZA

Totale

480,16

24

 

Tra  sementi

286,16

4

71,54

Tra  arature

109,36

4

27,34

Tra  concimi

17,76

4

4,44

Errore

66,88

12

5,57

 

 

Con le varianze, si possono calcolare 3 F, ognuno con gdl 4 e 12:

- per il confronto tra le medie delle sementi:  

- per il confronto tra le medie delle arature:   

- per il confronto tra le medie dei concimi, con i dati dell’esempio è inutile calcolare il rapporto F. Infatti, il valore di questa varianza risulta minore di quella d'errore; pertanto il rapporto sarebbe minore di 1.

 

Per gdl 4 e 12 la tabella dei valori critici

-          alla probabilità a = 0.05 fornisce un valore uguale 3,26

-          alla probabilità a = 0.01 un valore uguale a 5,41.

In conclusione:

1)       risulta molto significativa la differenza tra sementi, il cui valore di F è superiore al valore critico della probabilità 0.01;

2)       è significativa la differenza tra arature, con un valore di F compreso tra il valore critico della probabilità 0.01 e quello della probabilità 0.05;

3)        non è assolutamente significativa, è anzi totalmente trascurabile, la differenza tra concimi con F minore di 1.

 

Il disegno sperimentale a quadrati latini è utile non solo nella ricerca di campagna per applicazioni sul terreno, ma anche in varie situazioni ricorrenti nella ricerca di laboratorio. E’ il caso in cui si devono somministrare più farmaci agli stessi individui o più tossici alle stesse cavie e si vuole considerare contemporaneamente l’effetto di questi trattamenti insieme con le differenze tra gli individui e gli effetti delle diverse successioni temporali o giorni in cui i trattamenti sono stati somministrati. Non sono poche le situazioni in cui si verifica un effetto biologico o psicologico che dipende dai trattamenti precedenti.

 

ESEMPIO. Si sperimentano gli effetti di 4 farmaci (A, B, C, D) somministrati a 4 individui (I, II, III, IV) in 4 giorni diversi (1 Lunedì;  2 Martedì;  3 Mercoledì;  4 Giovedì), con una successione di farmaci differente per ogni individuo.

Il lunedì è stato somministrato il farmaco A alla persona I, il farmaco D alla persona II, il farmaco B alla persona III e il farmaco C alla persona IV.

Il martedì sono stati scambiati farmaci e persone, somministrando alla persona I il farmaco C, alla persona II il farmaco B e così di seguito per i quattro giorni, in modo che tutti e quattro gli individui sperimentino i quattro farmaci e senza che nello stesso giorno il medesimo farmaco sia somministrato a due persone.

 

La tabella riporta il piano dell’esperimento ed i dati relativi ad ogni persona

 

 

 

GIORNI

PERSONE

1   Lunedì

2   Martedì

3   Mercoledì

4   Giovedì

I

A 48

C 35

D 40

B 51

II

D 37

B 50

C 33

A 45

III

B 42

D 64

A 53

C 39

IV

C 31

A 40

B 42

D 37

 

 

I risultati dell'analisi della varianza a quadrati latini 4x4 sono riportati nella tabella:


 

 

DEVIANZA

GDL

VARIANZA

F

Totale

1098

15

 

 

Tra  farmaci

389

3

129,7

2,77

Tra  giorni

125

3

41,7

< 1

Tra  persone

303

3

101,0

2,16

Errore

281

6

46,8

 

 

Per gdl 3 e 6, il valore critico alla probabilità a = 0.05 è 4,53.

Nessun confronto tra le 4 medie dei 3 fattori risulta significativo.

La causa potrebbe essere la limitata potenza del test, evidenziata dal numero ridotto di dati e dai gdl della varianza d’errore. Infatti con più dati, per esempio con gdl 3 per ogni fattore e gdl 60 per l’errore, il valore critico di F alla stessa probabilità a = 0.05 è 2,76 e le differenze tra farmaci sarebbero risultate significative.

 

Il disegno sperimentale a quadrati latini ha limiti che dipendono dalle sue dimensioni. Il numero di dati non può essere troppo piccolo, né troppo grande.

Il limite inferiore o minimo è imposto dai gradi di libertà della varianza d'errore.

Un quadrato latino 2 x 2 avrebbe 3 gdl per la devianza totale, che sarebbero scomposti in

-          1 per il fattore principale,

-          1 per le colonne e

-          1 per le righe.

Non resterebbero gdl per la varianza d'errore.

In una tabella a quadrati latini 3 x 3 ( con 8 gdl per la devianza totale e 2 gdl per la devianza di ognuno dei 3 fattori) la varianza d'errore ha solamente 2 gdl; è possibile condurre l’analisi, ma i gdl sono pochi per rendere significative differenze tra medie che non siano molto grandi, poiché il valore critico alla probabilità a = 0.05 per un F con  gdl 2 e 2 è uguale a 19,00.

Il limite minimo utile di un quadrato latino è 4x4.

 

Il limite massimo o superiore è determinato dalla complessità dell'esperimento; viene quindi abitualmente fissato per un quadrato latino che varia tra 10 x 10 e 12 x 12. A questi livelli è complesso gestire esperimenti con tanti farmaci da somministrare ad altrettante persone, in un numero equivalente di giorni; molto raramente esistono problemi così complessi e la gestione dell’esperimento può incorrere in vari inconvenienti, che renderebbero molto difficile ottenere tutte le risposte.

I quadrati latini analizzano contemporaneamente 3 fattori, ognuno con p modalità o livelli. Il disegno può essere  esteso a 4 fattori, sempre con lo stesso numero p di modalità.

Sono i quadrati greco-latini, la cui rappresentazione grafica è riportata nella tabella sottostante.

 

 

COLONNE

RIGHE

I

II

III

IV

1

B g

A d

D a

C b

2

C d

D g

A b

B a

3

D b

C a

B d

A g

4

A a

B b

C g

D d

 

 

Nelle righe e nelle colonne sono indicati le modalità di 2 fattori, il terzo fattore è indicato dalle lettere latine ed il quarto con le lettere greche. Ovviamente, tutti i 4 fattori hanno lo stesso numero di livelli (che nella tabella sono 4).

La costruzione della tabella dei quadrati greco-latini è più complessa della precedente a quadrati latini:

1)       non solo le lettere latine devono comparire una sola volta per riga e per colonna;

2)       la stessa legge è valida anche per le lettere greche,

3)       con la regola aggiuntiva che ogni lettera greca e ogni lettera latina devono essere associati una volta sola, ma ognuna di esse deve incontrare tutte quelle dell’altro tipo.

 

Nella ricerca ambientale è il caso di considerare non solo aratura, concimi e tipo di semente, ma anche un quarto fattore che può essere il tipo di antiparassitari, sempre con lo stesso numero di modalità. Nella ricerca di laboratorio, per un esempio analogo al precedente ma usando cavie, oltre alla razza o specie, al giorno e al tossico somministrato, può essere considerata la classe d’età.

 

Per ogni singola osservazione Xijkp ,  il modello di riferimento è uguale a quello per 4 fattori già presentato

Xijkp  = m + ai + bj + gk + dp + Rijkp

 dove

m   rappresenta la media generale,

aibjgkdp   rappresentano gli effetti indipendenti dei 4 fattori, nelle loro varie modalità,

-  Rijkp   rappresenta tutti gli altri fattori non considerati, sommando alla variazione casuale e agli errori di misura e di campionamento tutte le possibili interazioni tra i 4 fattori, che in questi disegni sperimentali, con una sola osservazione per casella, non possono essere valutate.

 

Le ipotesi nulle da verificare sono 4, relative alle medie di ognuno dei 4 fattori.

A tal fine, le devianze da calcolare sono aumentate di una unità. Dopo aver sommato tutti i dati contrassegnati dalla stessa lettera greca, con la solita formula deve essere calcolata la devianza relativa, che avrà gli stessi gdl degli altri tre fattori. Con i dati campionari, tali concetti sono espressi dalla relazione

 

Xijkp = +()+()+()+()+(Xijkp - )

 

Il grande vantaggio di questo disegno sperimentale a quadrati greco-latini è rappresentato da un rilevante risparmio di materiale, superiore a quello dei quadrati latini. Con 4 fattori a p livelli non sono più necessari p4 dati ma solamente p2; con 4 livelli per fattore non più 256 dati ma solamente 16; con 5 livelli per fattore, non più 625 osservazioni (5 x 5 x 5 x 5), ma solamente 25.

Quando il costo od il tempo richiesto per ottenere un dato è alto, questo disegno sperimentale può rappresentare una soluzione possibile per effettuare la ricerca programmata. Tuttavia, occorre considerare che la riduzione del numero di dati determina una riduzione notevole dei gdl nella varianza d’errore.

Con lo schema riportato nella tabella precedente con 4 livelli per ognuno dei 4 fattori, si devono calcolare le seguenti quantità, che hanno i gdl di fianco riportati

 

 

DEVIANZA

GDL

VARIANZA

F

TOTALE

XXX

15

 

 

Tra colonne

XXX

3

XXX

XXX

Tra righe

XXX

3

XXX

XXX

Tra lettere latine

XXX

3

XXX

XXX

Tra lettere greche

XXX

3

XXX

XXX

Errore

XXX

3

XXX

 

 

 

Pure con 16 dati di una tabella 4 x 4, i gdl per la varianza d’errore sono solamente 3 e i test F hanno gdl 3 e 3. Il valore critico di F alla probabilità a = 0.05 è 9,28 e alla probabilità a= 0.01 è  29,46.

Per ricorrere ai quadrati greco-latini in tabelle 4 x 4 è quindi necessario che la varianza d’errore sia molto piccola; è un risultato che può essere ottenuto quando i fattori considerati sono gli unici reali elementi di variabilità.

Un’altra soluzione può essere un aumento delle dimensioni dell’esperimento ad almeno 5 x 5, che ha 4 gdl per ogni fattore ed 8 gdl nell’errore, con valori critici di F uguali a 3,84 alla probabilità a = 0.05 e 7,01 alla probabilità a = 0.01.

E’ possibile utilizzare esperimenti di dimensioni ancora maggiori; ma con la grande difficoltà di gestire esperimenti così complessi con uno schema tanto rigido e trovare tante modalità per ognuno dei 4 fattori.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007