ANALISI DELLA VARIANZA a piu’ criteri di classificazione

 

 

 

 11.9.   LETTURA DI TABULATI SULL’ANALISI DELLA VARIANZA

 

 

Gli scopi di un corso e di un testo di statistica applicata di solito sono 4:

1) fornire una chiara visione dei principi che sono alla base dell’analisi e dell’inferenza statistica;

2) guidare alla scelta dei test più appropriati, per i problemi specifici che si affrontano o per le domande alle quali si vuole rispondere con la ricerca ed i dati raccolti;

3) condurre all’applicazione esatta delle formule dei test, con una impostazione del calcolo metodologicamente appropriata;

4) indirizzare alla corretta interpretazione dei risultati.

 

Come negli esercizi già svolti, i risultati possono essere ottenuti con il calcolo manuale quando i dati sono pochi e la formula da applicare è relativamente semplice. Con molti dati o con calcoli che richiedono lunghe elaborazioni, la probabilità di errore è sempre alta e la possibilità di verifiche è limitata, ridotta alla pura ripetizione dei calcoli, eventualmente con altra formula. Per ottenere risultati senza errori di calcolo, non esiste alcuna alternativa pratica all’uso di pacchetti statistici, ormai consolidato dall’ampia diffusione dei personal computer e dai costi relativamente bassi.

Di norma, questi programmi cercano di fornire risposte a tutte le domande che è possibile porre o ai vari casi che è possibile esaminare con l’uso di un determinato test. Essi sono molto più numerosi di quanto abitualmente serve al ricercatore in un caso specifico; spesso i test offerti sono tra loro alternativi, come nel caso dei confronti multipli quando sono forniti i risultati del test di Tukey, di Scheffé, di Dunnett e vari altri analoghi, mentre il problema quasi sempre richiede l’uso specifico di uno solo di essi.

Per un impiego corretto e funzionale di un pacchetto statistico, è divenuto importante imparare a scegliere le sole risposte utili, tra la grande quantità di analisi e di informazioni fornite.

 

Come esercitazione all’uso corretto dell’analisi della varianza con un pacchetto statistico, sono stati svolti alcuni degli esempi già utilizzati. Per l’interpretazione, prima dei risultati è utile rileggere il problema con i dati relativi.

L'output fornito dal computer è stato inserito nel testo senza alcuna modifica sostanziale. Per istruire ricercatori ed operatori dell’ambiente alla loro lettura, è stato fornito un breve commento delle parti di output racchiuse nei riquadri numerati, che rappresentano le informazioni utili per rispondere in modo completo e dettagliato alle domande dell’esercizio, in accordo con gli argomenti fino ad ora sviluppati.

 

ESEMPIO   Per un controllo della qualità dell'aria, con rilevazioni in tre diverse zone di una città (denominate A, B e C) è stata misurata anche la quantità di ferro (in microgrammi/Nmc a 0°C e 1013 mbar) tra i metalli pesanti in sospensione.

 

Fattore Sperimentale

A

B

C

2,71

1,75

2,22

2,06

2,19

2,38

2,84

2,09

2,56

2,97

2,75

2,60

2,55

---

2,72

2,78

---

---

 

Esiste una differenza significativa tra le tre zone, per la quantità di ferro in sospensione?

 

Analysis of Variance Procedure

 

 1)

 

                          Class     Levels     Values

 

                          ZONE        3        1 2 3

 

                   Number of observations in data set = 15


 

 

 

 

2)

 

Dependent Variable: FERRO

 

                                               Sum of             Mean

Source                       DF         Squares           Square         F Value     Pr > F

 

Model                         2      0.50293667       0.25146833        2.54      0.1204

 

Error                         12      1.18890333       0.09907528

 

Corrected Total         14      1.69184000

 

 

               R-Square            C.V.       Root MSE           FERRO Mean

 

              0.297272        12.70227       0.314762           2.47800000

 

 

Source                  DF        Anova SS     Mean Square     F Value       Pr > F

 

ZONE                     2      0.50293667      0.25146833        2.54          0.1204

 

 

 

 

               Duncan's Multiple Range Test for variable: FERRO

 

         NOTE: This test controls the type I comparisonwise error rate,

                      not the experimentwise error rate

 

                      Alpha= 0.05  df= 12  MSE= 0.099075

                      WARNING: Cell sizes are not equal.

                    Harmonic Mean of cell sizes= 4.864865

 

                         Number of Means       2         3

                         Critical Range         0.439   0.460

 

Means with the same letter are not significantly different.

 

                Duncan Grouping              Mean      N  ZONE

 

                              A                        2.652       6      1

                              A

                              A                        2.496       5      3

                              A

                              A                        2.195       4      2

 


 

 3)

 

           Tukey's Studentized Range (HSD) Test for variable: FERRO

 

         NOTE: This test controls the type I experimentwise error rate, but

               generally has a higher type II error rate than REGWQ.

 

                      Alpha= 0.05  df= 12  MSE= 0.099075

                  Critical Value of Studentized Range= 3.773

                    Minimum Significant Difference= 0.5384

                      WARNING: Cell sizes are not equal.

                    Harmonic Mean of cell sizes= 4.864865

 

         Means with the same letter are not significantly different.

 

                Tukey Grouping              Mean      N      ZONE

 

                             A                       2.652       6          1

                             A

                             A                       2.496       5          3

                             A

                             A                       2.195       4          2

 

 

                      Scheffe's test for variable: FERRO

 

         NOTE: This test controls the type I experimentwise error rate but

               generally has a higher type II error rate than REGWF for all

               pairwise comparisons

 

                      Alpha= 0.05    df= 12    MSE= 0.099075

                         Critical Value of F= 3.88529

                    Minimum Significant Difference= 0.5626

                      WARNING: Cell sizes are not equal.

                    Harmonic Mean of cell sizes= 4.864865

 

 

         Means with the same letter are not significantly different.

 

               Scheffe Grouping              Mean      N      ZONE

 

                              A                       2.652       6          1

                              A

                              A                       2.496       5          3

                              A

                              A                       2.195       4          2

 

 

1)  E’ un’analisi della varianza ad un criterio di classificazione (ZONE); sono presenti 3 livelli per un totale di 15 dati.

 

2) La devianza totale ha 14 d.f; quella per il confronto tra le medie 2 d.f. e quella d’errore 12 d. f.

Il test  con d.f. 2 e 12 non risulta significativo (probabilità superiore al 12%). Dopo le informazioni che riguardano la variabilità dei dati e la media generale, è riportata la scomposizione delle devianze tra i vari fattori in esame. Poiché si tratta di un'analisi ad un solo criterio di classificazione, l’informazione riportata è identica a quella già stampata nella parte superiore del riquadro.

 

Benché per il confronto tra le quantità medie di polvere di ferro campionate nelle tre zone il test F non risulti significativo nemmeno alla probabilità 0.05 (ma il tabulato riporta solo la probabilità esatta (Pr> 0.1204) sono di seguito stampati i confronti tra le tre medie, con vari test. Il primo è il test di Duncan, che nei paragrafi precedenti non è stato spiegato. Ovviamente conviene utilizzare quelli noti, come il test di Tukey e il test di Scheffé riportati nel riquadro 3.

 

3) Le informazioni per i confronti tra le tre medie sono fornite dal test di Tukey e dal test di Scheffé.

Il test di Tukey per confronti singoli, alla probabilità con s2e = 0,099075, 12 d.f. ed un valore critico del Q studentizzato uguale a 3,773 fornisce una differenza minima significativa tra le tre medie uguale a 0,5324. Il tabulato ricorda pure che occorre fare attenzione (WARNING): i tre gruppi a confronto non hanno lo stesso numero di osservazioni, come richiesto dal test. Di conseguenza, è stata stimata la media armonica del numero di osservazioni presenti in ogni gruppo, che risulta uguale a 4,86. Di seguito, in ordine decrescente sono riportate le medie con il relativo numero di osservazioni e l’indicazione della ZONA di rilevazione. Poiché le differenze tra loro sono tutte inferiori al valore della differenza minima significativa, le tre medie sono state indicate con la stessa lettera, con una rappresentazione grafica dei gruppi molto semplice.

Segue il test di Scheffé che, alla stessa probabilità (0.05)  (ovviamente per un valore identico della varianza d’errore e dei df) con un valore di F pari a 3,885 fornisce una differenza minima significativa uguale a 0,5626. Anche con il test di Scheffé occorre fare attenzione, poiché i tre gruppi non hanno lo stesso numero d’osservazioni. La differenza minima significativa risulta un valore superiore a quella stimata con il test di Tukey, in quanto permette pure i confronti multipli. Anche per il test di Scheffé è riportata la rappresentazione grafica dei tre gruppi, con la media relativa in ordine decrescente, il numero di osservazioni  di ogni gruppo e la zona di rilevazione.

 


ESEMPIO su blocchi e trattamenti  Si vuole verificare se esiste una differenza significativa nella quantità di piombo in sospensione nell'aria di 5 zone di una città (A, B, C, D, E).

 

 

 

TRATTAMENTI (ZONE)

BLOCCHI (ORE)

A

B

C

D

E

I

28

25

30

22

26

II

34

32

37

31

30

III

22

21

24

20

19

IV

36

31

40

33

29

 

 

                        Analysis of Variance Procedure

 

 1)

                            Class          Levels    Values

 

                         BLOCCHI         4         1 2 3 4

 

                         TRATTAM       5         1 2 3 4 5

 

       Number of observations in data set = 20

 

 

 

2)

Dependent Variable: VY

                                                  Sum of           Mean

Source                          DF         Squares         Square          F Value         Pr > F

Model                           7     654.3000000      93.4714286     39.08            0.0001

Error                           12      28.7000000         2.3916667

Corrected Total           19     683.0000000

 

 

                  R-Square            C.V.         Root MSE            VY Mean

                  0.957980        5.426321       1.546501           28.5000000

 

 

Source                       DF        Anova SS       Mean Square     F Value      Pr > F

BLOCCHI                  3        525.8000000     175.2666667     73.28        0.0001

TRATTAM                4        128.5000000       32.1250000     13.43        0.0002

 


3)

            Tukey's Studentized Range (HSD) Test for variable: VY

 

         NOTE: This test controls the type I experimentwise error rate, but

               generally has a higher type II error rate than REGWQ.

 

                      Alpha= 0.05  df= 12  MSE= 2.391667

                  Critical Value of Studentized Range= 4.199

                    Minimum Significant Difference= 2.9038

 

         Means with the same letter are not significantly different.

 

               Tukey Grouping              Mean      N       BLOCCHI

 

                            A                       33.800      5           4

                            A

                            A                       32.800      5           2

 

                            B                       26.200      5           1

 

                            C                       21.200      5           3

 

 

                       Scheffe's test for variable: VY

 

         NOTE: This test controls the type I experimentwise error rate, but

               generally has a higher type II error rate than REGWF for all

               pairwise comparisons

 

                      Alpha= 0.05  df= 12  MSE= 2.391667

                         Critical Value of F= 3.49029

                    Minimum Significant Difference= 3.165

 

         Means with the same letter are not significantly different.

 

              Scheffe Grouping              Mean      N     BLOCCHI

 

                             A                      33.800      5          4

                             A

                             A                      32.800      5          2

 

                             B                      26.200      5          1

 

                             C                      21.200      5          3

 


4)

            Tukey's Studentized Range (HSD) Test for variable: VY

 

         NOTE: This test controls the type I experimentwise error rate, but

               generally has a higher type II error rate than REGWQ.

 

                      Alpha= 0.05  df= 12  MSE= 2.391667

                  Critical Value of Studentized Range= 4.508

                    Minimum Significant Difference= 3.4857

 

         Means with the same letter are not significantly different.

 

               Tukey Grouping              Mean      N    TRATTAM

 

                            A                     32.750       4          3

                            A

                    B      A                     30.000      4          1

                    B

                    B      C                     27.250      4           2

                            C

                            C                      26.500      4          4

                            C

                            C                      26.000      4          5

 

 

                       Scheffe's test for variable: VY

 

         NOTE: This test controls the type I experimentwise error rate but

               generally has a higher type II error rate than REGWF for all

               pairwise comparisons

 

                      Alpha= 0.05  df= 12  MSE= 2.391667

                         Critical Value of F= 3.25917

                    Minimum Significant Difference= 3.9484

 

         Means with the same letter are not significantly different.

 

              Scheffe Grouping              Mean      N      TRATTAM

 

                             A                      32.750      4           3

                             A

                     B      A                      30.000     4            1

                     B

                     B      C                      27.250      4           2

                     B      C

                     B      C                      26.500      4           4

                             C

                             C                       26.000      4           5

 

 

1)  E' un'analisi della varianza a 2 criteri di classificazione (chiamati BLOCCHI e TRATTAMENTI).  I blocchi hanno 4 livelli e i trattamenti 5 livelli, per un totale di 20 osservazioni.

 

2)  La devianza totale ha 19 d.f. dei quali 7 per confronti tra medie e 12 per l'errore o residuo. Il test F complessivo per il confronto tra medie risulta altamente significativo (probabilità inferiore a 0.0001). Dopo le informazioni sulla variabilità e la media generale è riportato il test F sia per le 4 medie dei blocchi (con 3 d.f.) sia per le 5 medie dei trattamenti (con 4 d.f.): sono entrambe altamente significative. Le differenze tra le medie dei blocchi risultano più significative (probabilità inferiore a 0.0001) di quelle tra le medie dei trattamenti (probabilità inferiore a 0.0002). Il valore di R2 (R square) pari a 0.9579 sta ad indicare che i due fattori noti (blocchi e trattamenti) assorbono il 95,79% della variabilità totale (654.3 / 683 =  0,9579).

 

3)  Per il confronto tra le 4 medie dei blocchi il test di Tuckey e quello di Scheffé danno i medesimi risultati, anche se la differenza minima significativa di Tuckey (2,9038), come più volte spiegato, è leggermente minore di quella di Scheffé (3,165). Tra le 4 medie risultano non significativamente diverse le due medie maggiori (33,8 e 32,8); rispetto a queste due sono significativamente differenti le altre due medie (26,2 e 21,2), che risultano significativamente differenti anche tra loro.

Come imposto dallo schema a due criteri di classificazione, le medie hanno lo stesso numero di osservazioni; di conseguenza, non è calcolata la loro media aritmetica.

 

4)  Per le differenze tra le medie dei trattamenti, il test di Tukey e quello di Scheffé non danno gli stessi risultati. All’aumentare del numero di medie e quindi dei possibili confronti semplici e complessi, cresce il divario tra le due diverse stime della differenza minima significativa (con 5 medie Tukey e uguale 3,4858 e Scheffé a 3,9484). Sempre alla probabilità 0.05 secondo il test di Tukey la media del trattamento 3 non è significativamente diversa da quella del trattamento 1, mentre è differente dalle altre 3 medie; la media del gruppo 1 (la seconda in ordine decrescente) non è diversa da quella del gruppo 3 né da quella del trattamento 2, ma è differente da quelle dei trattamenti 4 e 5; la media del trattamento 2 non differisce significativamente da quella del trattamento 1, mentre diverge da quella degli altre 3 gruppi. Le medie dei gruppi 4 e 5 non divergono tra loro né dal gruppo 2, ma differiscono in modo significativo dalla media del gruppo 3 e dal quella del gruppo 1.

Con il test di Scheffé si ha una differenza per la media del gruppo 4 che non divergerebbe in modo significativo non solo da quella del gruppo 5 e del gruppo 2, ma nemmeno da quella del gruppo 1.

La rappresentazione grafica riesce a fornire la stessa informazione in modo più chiaro e sintetico.


ESEMPIO su aratura, concime e semente del cap. 8

 

quadrati latini

                                Analysis of Variance Procedure

 

 1)

                           Class            Levels      Values

                         ARATURA       5            1 2 3 4 5

                         CONCIME        5            1 2 3 4 5

                         SEMENTE        5            1 2 3 4 5

 

                   Number of observations in data set = 25

 

 

 2)

Dependent Variable: VY

                                                  Sum of               Mean

Source                          DF         Squares             Square            F Value        Pr > F

Model                          12         413.2800000     34.4400000       6.18             0.0018

Error                            12           66.8800000       5.5733333

Corrected Total            24         480.1600000

 

                  R-Square            C.V.          Root MSE              VY Mean

                  0.860713        4.861596       2.360791               48.5600000

 

 

Source                        DF        Anova SS       Mean Square      F Value        Pr > F

ARATURA                  4      17.7600000        4.4400000           0.80            0.5498

CONCIME                   4     109.3600000      27.3400000          4.91            0.0141

SEMENTE                   4     286.1600000      71.5400000        12.84            0.0003

 

 


 

 

 3)

 

            Tukey's Studentized Range (HSD) Test for variable: VY

 

         NOTE: This test controls the type I experimentwise error rate, but

               generally has a higher type II error rate than REGWQ.

 

                      Alpha= 0.05  df= 12  MSE= 5.573333

                  Critical Value of Studentized Range= 4.508

                    Minimum Significant Difference= 4.7592

 

         Means with the same letter are not significantly different.

 

               Tukey Grouping              Mean      N    ARATURA

 

                            A                      50.000      5        4

                            A

                            A                      49.000      5        2

                            A

                            A                      48.200      5        5

                            A

                            A                      47.800      5        3

                            A

                            A                      47.800      5        1

 

 

                       Scheffe's test for variable: VY

 

         NOTE: This test controls the type I experimentwise error rate but

               generally has a higher type II error rate than REGWF for all

               pairwise comparisons

 

                      Alpha= 0.05  df= 12  MSE= 5.573333

                         Critical Value of F= 3.25917

                    Minimum Significant Difference= 5.391

 

         Means with the same letter are not significantly different.

 

              Scheffe Grouping              Mean      N    ARATURA

 

                             A                      50.000      5        4

                             A

                             A                      49.000      5        2

                             A

                             A                      48.200      5        5

                             A

                             A                      47.800      5        3

                             A

                             A                      47.800      5        1

 


 

 4)

 

            Tukey's Studentized Range (HSD) Test for variable: VY

 

         NOTE: This test controls the type I experimentwise error rate, but

               generally has a higher type II error rate than REGWQ.

 

                      Alpha= 0.05  df= 12  MSE= 5.573333

                  Critical Value of Studentized Range= 4.508

                    Minimum Significant Difference= 4.7592

 

         Means with the same letter are not significantly different.

 

               Tukey Grouping              Mean      N    CONCIME

 

                            A                      51.600      5        3

                            A

                    B      A                     49.600      5         2

                    B      A

                    B      A                     49.200      5         4

                    B

                    B                              46.200      5        1

                    B

                    B                              46.200      5        5

 

 

                       Scheffe's test for variable: VY

 

         NOTE: This test controls the type I experimentwise error rate but

               generally has a higher type II error rate than REGWF for all

               pairwise comparisons

 

                      Alpha= 0.05  df= 12  MSE= 5.573333

                         Critical Value of F= 3.25917

                    Minimum Significant Difference= 5.391

 

         Means with the same letter are not significantly different.

 

              Scheffe Grouping              Mean      N    CONCIME

 

                             A                      51.600      5      3

                             A

                     B      A                      49.600     5      2

                     B      A

                     B      A                      49.200     5      4

                     B

                     B                              46.200      5      1

                     B

                     B                              46.200      5      5

 


 

 5)

 

            Tukey's Studentized Range (HSD) Test for variable: VY

 

         NOTE: This test controls the type I experimentwise error rate, but

               generally has a higher type II error rate than REGWQ.

 

                      Alpha= 0.05  df= 12  MSE= 5.573333

                  Critical Value of Studentized Range= 4.508

                    Minimum Significant Difference= 4.7592

 

         Means with the same letter are not significantly different.

 

               Tukey Grouping              Mean      N    SEMENTE

 

                            A                      53.400      5        2

                            A

                    B      A                     51.400      5        4

                    B

                    B      C                      47.200      5       3

                    B      C

                    B      C                      46.800      5       5

                            C

                            C                      44.000      5        1

 

 

                       Scheffe's test for variable: VY

 

         NOTE: This test controls the type I experimentwise error rate but

               generally has a higher type II error rate than REGWF for all

               pairwise comparisons

 

                      Alpha= 0.05  df= 12  MSE= 5.573333

                         Critical Value of F= 3.25917

                    Minimum Significant Difference= 5.391

 

         Means with the same letter are not significantly different.

 

              Scheffe Grouping              Mean       N    SEMENTE

 

                             A                      53.400       5      2

                             A

                     B      A                     51.400       5       4

                     B

                     B      C                     47.200       5       3

                     B      C

                     B      C                     46.800       5       5

                             C

                             C                      44.000       5      1

 

 

 

 

1)  E’ un’analisi della varianza a tre criteri di classificazione, chiamati ARATURA, CONCIME e SEMENTE. Ha cinque livelli (1, 2, 3, 4, 5) per ogni criterio e 25 osservazioni in totale, come richiesto per un’analisi a quadrati latini.

 

2)  La devianza dei fattori analizzati ha in totale 12 df, quella d’errore altri 12 per un totale di 24. Complessivamente, le fonti di variazione risultano altamente significative con un valore di F uguale a 6,18 per d. f. 12 al numeratore e 12 al denominatore, corrispondenti ad una probabilità di 0.0018.

La media generale delle 25 osservazioni è 48,56 e la sua deviazione standard (la radice quadrata della varianza d’errore) è uguale a 2,36. Il coefficiente di variazione è pertanto limitato (4,86%) e i tre fattori considerati assorbono l’86% della variabilità totale (R2 = 0.86); la variabilità residua è così ridotta (14%), da lasciare intendere che oltre ai tre considerati non esistono altri fattori in grado di influire in modo sostanziale sui valori delle osservazioni.

Fra i tre fattori considerati, le differenze tra le medie dei diversi tipi di aratura non risultano assolutamente significative (Pr = 0.5498); sono invece molto significative le differenze tra le medie

dei concimi (Pr = 0.0141) e soprattutto risultano altamente significative quelle tra le medie delle sementi (Pr = 0.0003).

 

3) Sono evidenziate in modo dettagliato le differenze tra le medie dei cinque tipi di aratura. Il loro F complessivo, riportato nel riquadro precedente, non risulta assolutamente significativo. Per la significatività è quindi da ritenere inutile questa analisi più dettagliata; tuttavia, essa viene quasi sempre riportata nei tabulati dei programmi informatici, per favorire una valutazione più precisa ed ugualmente importante delle differenze campionarie.

A ulteriore conferma della non significatività delle differenze tra queste cinque medie, il test di Tukey stima che alla probabilità 0.05 la differenza minima significativa è uguale a 4,7592 mentre la differenza tra la media con il valore massimo (la 4a con 50.0) e quella con il valore minimo (la 1a con 47.8) è uguale a 2,2.

La rappresentazione grafica esprime questi concetti riunendo le medie dei cinque tipi di aratura in un solo gruppo.

Con il test di Scheffè a maggior ragione non si evidenzia alcuna differenza significativa, essendo ancor più conservativo del test precedente.

 

4)  Sono descritte in modo particolareggiato le differenze tra le medie dei cinque tipi di concime. Poiché la varianza d’errore ed il numero di medie a confronto sono identiche a quelle utilizzate per il confronto tra i 5 tipi di aratura, la differenza minima significativa è uguale a quella stimata nel riquadro precedente, per ognuno dei due test riportati (4,7592 per il test di Tukey e 5,391 per quello di Scheffé).

Con il test di Tukey, secondo la rappresentazione grafica la significatività complessiva è dovuta alla differenza del gruppo 3 (quello con la media maggiore) dai gruppi 1 e 5 (con le due medie minori).

Il test di Scheffé arriva alle stesse conclusioni e pertanto fornisce la stessa risposta grafica.

 

 

5)  Nella resa dei cinque tipi di sementi a confronto, la differenza tra valore massimo e valore minimo (53,4 - 44,0) è maggiore di quella ottenuta nel confronto tra le medie dei cinque tipi di concime (51,6 - 46,2), riportate nel riquadro quattro. In questo disegno sperimentale, che utilizza la stessa varianza d’errore ed ha gli stessi gdl per ogni fattore, ciò spiega la maggiore significatività del test F tra le medie delle sementi rispetto a quello tra le medie dei concimi.

Secondo il test di Tukey, tra le cinque medie sono significative tutte le differenze superiori a 4,7592.

Secondo il test di Scheffé, per confronti sia semplici che complessi, sono significative le differenze superiori a 5,391

.


 



 


 

 


 

 


 

 


 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007