trasformazionI dei dati;

test per normalita’ e PER OUTLIER

 

 

 

13.5.   EFFETTI DELLE TRASFORMAZIONI SUI RISULTATI DELL’ANOVA

 

 

Nei test t ed F, la trasformazione dei dati per normalizzare la distribuzione ottiene l’effetto di rendere minima la varianza d’errore. E’ quindi un criterio di scelta: la trasformazione più adeguata è quella che rende minima la varianza d’errore e quindi rende i test più significativi e con ciò più potenti.

La complessità dei problemi da risolvere per scegliere la trasformazione più adeguata e il dibattito che sempre si pone sulla reale validità dell’analisi attuata possono essere meglio illustrati con la discussione ampia di un esempio, tratto dal testo già citato di George E. P. Box, William G. Hunter e J. Stuart HunterStatistics for Experimenters. An introdution to Design, Data Analysis and Model Building”, pp. 228-240).

 

 

ESEMPIO.  Per verificare gli effetti di 3 sostanze tossiche (A, B, C) sulla sopravvivenza di cavie di età diversa (I, II, III, IV), ad ognuno dei 12 gruppi (3 trattamenti x 4 blocchi) sono stati assegnati 4 individui. Per ognuno di essi è stato misurato il tempo di sopravvivenza, tradotto in una grandezza unitaria equivalente a 10 ore.

 

I risultati sono riportati nella tabella sottostante

 

 

Età

BLOCCHI

Sostanze Tossiche        TRATTAMENTI

A

B

C

I

0,31   0,45   0,46   0,43

0,36   0,29   0,40   0,23

0,22   0,21   0,18   0,23

II

0,8   1,10   0,88   0,72

0,92   0,61   0,49   1,24

0,30   0,37   0,38   0,29

III

0,43   0,45   0,63   0,76

0,44   0,35   0,31   0,40

0,23   0,25   0,24   0,22

IV

0,45   0,71   0,66   0,62

0,56   1,02   0,71   0,38

0,30   0,36   0,31   0,33

 

 

(In essa, il valore 0,31 della prima cavia appartenente alla classe d’età I e al tossico A indica che essa è sopravvissuta 3,1 giorni).

E’ un disegno fattoriale a due fattori con repliche (3 trattamenti x 4 blocchi con 4 repliche per ogni esperimento; quindi 48 dati), che permette di verificare l’eventuale significatività sia di ognuno dei due fattori, sia della loro interazione.


 

L’analisi della varianza (ovviamente ottenuta con un programma informatico) fornisce i seguenti risultati

 

 

Fonte di variazione

Devianza

Gdl

Varianza

F

P

Totale

3,005

47

---

---

---

Tra gruppi

2,204

11

0,200

9,010

.000

Tra tossici

1,033

2

0,517

23,222

.000

Tra età

0,921

3

0,307

13,806

.000

Interazione

0,250

6

0,0417

1,874

.112

Entro gruppi (errore)

0,801

36

0,0222

---

---

 

 

Essi permettono di rifiutare l’ipotesi nulla, relativamente al confronto tra tossici e tra età; per l’interazione si può sostenere una significatività tendenziale (P = .112), che potrebbe forse essere dimostrata con un aumento delle dimensioni del campione.

Ma l’analisi effettuata è valida?

 

Per valutare se sono state rispettate le condizioni di validità, è utile analizzare i residui. Il modo più semplice è quello della loro rappresentazione grafica, che può riguardare sia la variabilità entro gruppi che l’interazione. A questo scopo è utile costruire due grafici, che i programmi informatici più sofisticati permettono di stampare con facilità:

-   il primo (vedi grafico a) può essere ottenuto riportando sull'asse delle ascisse (trasferito al centro) la media di ogni gruppo (in questo caso quello di casella ) e sull’asse delle ordinate gli scarti di ognuna delle n (4) repliche da essa ();

-   il secondo (vedi grafico b) è costruito riportando sull’asse delle ascisse le medie attese  in ogni gruppo (con  e sull’asse delle ordinate le differenze tra le medie osservate e queste medie attese ().

(Nelle figure successive, tratte dal testo citato, la variabile è indicata con Y)


 

 

 

Dall’analisi dei due grafici appare con evidenza che

1 - gli scarti di ognuna delle 4 repliche dalla media del loro gruppo aumentano al crescere del valore della media;

2 - gli scarti tra le medie osservate e quelle attese tendono ad una relazione di tipo curvilineo, all’aumentare del valore delle medie.

Per conclusioni condivise sul primo punto, occorrerebbe effettuare i confronti tra varianze. Ma le analisi inferenziali sulla omogeneità delle varianze (test di Hartley, Cochran, Bartlett, Levene) sono molto tolleranti: non rifiutare l’ipotesi nulla non significa che essa sia vera, in particolare quando i dati sono pochi.

Di conseguenza, è lecito il sospetto che l’analisi della varianza applicata in precedenza non sia valida, in quanto potrebbe non essere rispettata la condizione di omoschedasticità. Si impone quindi una trasformazione dei dati.

 

Ma quale è la trasformazione più adeguata? Il fatto che la varianza entro casella o errore cresca all’aumentare della media suggerisce di utilizzare una trasformazione per g1 positivo (forte asimmetria destra); ma esse sono tante, da quella in radice quadrata a quella logaritmica, oppure il reciproco.

Per meglio comprendere gli effetti delle trasformazioni, un primo tentativo può essere effettuato con la radice quadrata. I valori diventano quelli riportati nella tabella successiva

 

 

Trasformazione in radice quadrata (  arrotondata alla seconda cifra decimale)

 

Età

BLOCCHI

Sostanze Tossiche        TRATTAMENTI

A

B

C

I

0,56   0,67   0,68   0,66

0,60   0,54   0,63   0,48

0,47   0,46   0,42   0,48

II

0,91   1,05   0,94   0,85

0,96   0,78   0,70   1,11

0,55   0,61   0,62   0,54  

III

0,66   0,67   0,79   0,87

0,66   0,59   0,56   0,63  

0,48   0,50   0,49   0,47

IV

0,67   0,84   0,81   0,79

0,75   1,01   0,84   0,62

0,55   0,60   0,56   0,57

 

 

e l’analisi della varianza applicata ad essi fornisce i seguenti risultati

 

 

Fonte di variazione

Devianza

Gdl

Varianza

F

P

Totale

1,365

47

---

---

---

Tra gruppi

1,071

11

0,0974

11,938

.000

Tra tossici

0,561

2

0,280

34,389

.000

Tra età

0,431

3

0,144

17,601

.000

Interazione

0,079

6

0,013

1,62

.169

Entro gruppi (errore)

0,294

36

0,00815

---

---

 

 

Da essi emerge che:

1 - il test F tra gruppi (F = 11,9 con 11 gdl), quello tra tossici che interessa maggiormente (F = 34,4 con 2 gdl) e quello tra età (F = 17,6 con 3 gdl) sono tutti più significativi di quanto risultassero in precedenza, con i dati originari;

2 - il test F per l’interazione (F = 1,62 con 6 gdl) è meno significativo di quanto suggerito dall’analisi p- recedente.


 

I risultati sono migliori; ma questa è la trasformazione più adeguata oppure ne esistono altre preferibili?

E’ semplice dimostrare che, con la trasformazione reciproca, i dati diventano

 

Trasformazione in reciproco (  arrotondata alla seconda cifra decimale)

 

Età

BLOCCHI

Sostanze Tossiche        TRATTAMENTI

A

B

C

I

3,23   2,22   2,17   2,33

2,78   3,45   2,50   4,35

4,55   4,76   5,56   4,35

II

1,22   0,91   1,14   1,39

1,09   1,64   2,04   0,81  

3,33  2,70   2,63   3,45

III

2,33   2,22   1,59   1,32

2,27   2,86   3,23   2,50

4,35   4,00   4,17   4,55

IV

2,22   1,41   1,52   1,61  

1,79   0,98   1,41   2,63

3,33   2,78   3,23   3,03

 

 

e l’analisi della varianza fornisce risultati

 

 

Fonte di variazione

Devianza

Gdl

Varianza

F

P

Totale

65,505

47

---

---

---

Tra gruppi

56,862

11

5,169

21,531

.000

Tra tossici

34,877

2

17,439

72,635

.000

Tra età

20,414

3

6,805

28,343

.000

Interazione

1,571

6

0,262

1,090

.387

Entro gruppi (errore)

8,643

36 (35)

0,240

---

 

 

 

ancor più significativi per i due fattori, ma che escludono la significatività, anche solo tendenziale, della loro interazione:

-  il test F tra gruppi fornisce un valore pari a 31,531 (contro 11,938 precedente e 9,010 del primo caso);

-  il test F tra tossici fornisce un valore pari a 72,635 (contro 34,389 precedente e 23,222 del primo caso);

-  il test F tra età fornisce un valore pari a 28,343 (contro 17,601 precedente e 13,806 del primo caso);

-  il test F dell’interazione fornisce un valore pari a 1,090 (contro 1,623 precedente e 1,874 del primo caso).

 

La figura successiva, che riporta

- nella parte superiore, i dati originari con la media dei tre tossici e

 la loro deviazione standard

0,037

 

-  nella parte inferiore, i dati trasformati in reciproco con la media dei tre tossici e

 la loro deviazione standard

0,123

 

 rapportati alla stessa scala

 

 

 

 

dimostra visivamente gli effetti della trasformazione sulla riduzione della varianza d’errore; nel caso specifico, sulla deviazione standard delle tre medie a confronto.


 

Per scegliere la trasformazione più adeguata all’esempio riportato, con una procedura sistematica che consideri tutte le possibilità migliori, Box e al. nel loro testo considerano solamente gli effetti di riga e di colonna, quindi una serie di valori Sl, derivati dalla somma dei quadrati dei residui con 42 gdl.

Nella tabella sottostante, per ogni valore di l è riportato il corrispondente valore di Sl da essi stimato:

 

 

l

-2,5

-2,0

-1,6

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,5

1,0

Sl,

1,333

0,664

0,463

0,401

0,359

0,333

0,323

0,326

0,343

0,375

0,424

0,635

1,051

 

 

Dai valori di l (in ascissa) e di Sl in ordinata è stato ricavato il grafico

 

 

 

 

Da esso emerge che, con i criteri precedentemente definiti, la trasformazione più adeguata è

-   l = -0,75 corrispondente al valore minimo di Sl =  0,322


 

Questa risposta solleva 2 problemi:

-   il valore di l = -0,75 è una risposta campionaria e non è accettabile impostare la trasformazione solo su un risultato sperimentale, poiché sarebbe differente nei vari casi affrontati;

-   una trasformazione con elevamento alla potenza –0,75 è insolita e priva di significato specifico, mentre l’esperienza ha dimostrato che in questi casi (tempi di risposta ad uno stimolo) quella adeguata è la trasformazione reciproca.

 

La stima dell’intervallo fiduciale permette di giungere ad una risposta generale.

Per   a = 0.05   e con    n  = 42,   poiché    t42, 0.025 = 2,021

 si ottiene un valore di S

S = 0,322×

 pari a 0,353.

 

Di conseguenza, è accettabile un valore Sl fino al limite di 0,353. Sulla figura precedente, simmetrica rispetto al valore centrale, corrispondono valori di l che sono compresi tra –1,18 e –0,32.

Poiché l = -1 è compreso in questo intervallo fiduciale, la trasformazione reciproca è adatta ai dati sperimentali raccolti, in pieno accordo con la teoria sulle misure di tempo.

 

In questo esempio, che descrive una realtà complessa ma frequente nella ricerca ambientale, con la trasformazione che normalizza la distribuzione dei dati si possono risolvere contemporaneamente i problemi derivanti da più cause:

-  la non additività dei due fattori considerati (per la presenza di una interazione tendenzialmente significativa),

-  la non omoschedasticità dei gruppi a confronto,

-  la non normalità della distribuzione dei dati.

 

A questi è da aggiungere il caso in cui i dati presentino una variabilità elevata,

 cioè quando il rapporto

Xmassimo / Xminimo

è grande,

- indicativamente maggiore di tre (come nel caso dell’esempio 1).


 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007