analisi della varianza (ANOVA  I)

a un CRITERIO di classificazione

E CONFRONTI TRA PIU’ MEDIE

 

 

 

10.7.   STIMA DELLA DIMENSIONE N DI K GRUPPI CAMPIONARI PER L’ANOVA

 

 

Al momento di programmare il confronto tra più medie campionarie, un problema fondamentale è sapere quanti dati è necessario raccogliere, ovviamente allo scopo di rendere il test significativo.

Le dimensioni n di ognuno dei k campioni dipendono essenzialmente da 4 variabili, che occorre conoscere o determinare al momento della programmazione:

1 – la differenza minima d tra almeno 2 medie, di cui si intende verificare la significatività; la scelta del valore dipende dalla conoscenza del fenomeno o da uno studio preliminare;

quanto minore è d tanto maggiore deve essere la dimensione n di ogni campione;

 

2 – la deviazione standard s,  tratta dalla corrispondente varianza d’errore; anche in questo caso deve essere nota attraverso dati riportati in letteratura, per l’esperienza del ricercatore oppure determinata da un esperimento pilota;

quanto minore è s tanto minore può essere la dimensione n di ogni campione;

 

3 – la probabilità a, alla quale si vuole che la differenza d risulti significativa, in un test bilaterale; di norma è fissato uguale a 0.05 oppure a 0.01;

quanto minore è a tanto maggiore deve essere la dimensione n di ogni campione;

 

4 – la potenza 1 - b del test, la probabilità di rifiutare l’ipotesi nulla quando è falsa, tratta da una distribuzione per test unilaterali; è prassi accettare una probabilità pari a 80% oppure 90%, corrispondente ad una probabilità di b uguale a 0.20 oppure 0.10;

tanto minore è b, tanto maggiore è la potenza richiesta al test e quindi tanto maggiore deve essere anche la dimensione n di ogni campione.

 

Nel caso di un’analisi della varianza in cui si confrontano le medie di k gruppi, ognuno con n dati, i gdl n dell’errore standard sono quelli della varianza d’errore,  quindi uguali a n = k×(n-1).

Poiché è sufficiente che sia significativa la differenza tra 2 delle k medie a confronto,

-  per la probabilità a, si ricorre alla distribuzione t di Student per un test bilaterale;

-  per la probabilità b, alla stessa distribuzione t di Student, ma per un test unilaterale.

Affinché il test sia sufficientemente potente,

 n deve essere maggiore od uguale a

 

La stessa relazione è più frequentemente scritta come

 

 

 (gli indici di t, entro parentesi, non sono stati riportati a pedice per renderli di lettura più facile).

 

E’ da sottolineare che la formula richiede di conoscere

-   il rapporto   s / d, spesso indicato con  j; è più facile da ottenere che non i singoli valori, in quanto simile ad un coefficiente di variazione;

per utilizzare un valore indicativo, quando non si hanno informazioni è utile ricordare che l’esperienza ha dimostrato che il valore

    j » 0,2 è piccolo (variabilità ridotta rispetto alla media);

    j » 0,5 è medio;

   j » 0,7 è grande (variabilità ampia rispetto al valore della media);

 

-  il valore di t alla probabilità b deve essere preso dalla tabella dei valori critici e nello stesso modo con il quale viene scelto quello della probabilità a per un test bilaterale. Per prassi, la probabilità di b è circa 4-5 volte quella di a; di conseguenza

   quando si ha a = 0.01 si sceglie un valore di b = 0.05,

   quando si ha a = 0.05 si sceglie un valore di b = 0.20.

Sarebbe possibile prendere anche un valore di b = 0.5,  che corrisponde alla probabilità del 50% che il campione raccolto non risulti significativo alla probabilità a prefissata; in questo caso, il valore di t ha distribuzione simmetrica ed è uguale a 0.

 

Quando, come tabella dei valori critici, si dispone solo di una distribuzione bilaterale, (vantaggiosa per trovare direttamente il valore di a) per trovare il valore di b si deve utilizzare la colonna 2b.

Il calcolo di n è ottenuto con un processo iterativo, quando non è possibile ricorrere a metodi grafici.

Di seguito è riportato il processo di calcolo, in quanto utile a comprendere i fattori in gioco nella scelta delle dimensioni del campione; sono anche le informazioni richieste dai programmi informatici più diffusi.

Il valore di t dipende dal numero n di gdl, determinato sulla base del numero k di gruppi e soprattutto del numero n di osservazioni entro ogni gruppo: n = k×(n-1). 

 

Il metodo iterativo richiede:

a)       una prima stima di  n, considerando che ogni gruppo abbia almeno  n = 5-6 osservazioni; con 4 gruppi, il valore di  n  diventa uguale a 16 – 20 e sulla base di questi gdl si scelgono i due valori di t (quello alla probabilità a e quello alla probabilità b);

b)        se il calcolo determina un valore di n maggiore dei 5-6 preventivati (ad esempio 10), si stima un nuovo n  (uguale a 36 poiché (10-1) x 4 = 36) e si scelgono dalla tabella sinottica due nuovi valori di t;

c)        dopo il nuovo calcolo, spesso si può osservare che il terzo valore di n è vicino al secondo: si sceglie quello più cautelativo, arrotondato all’unità per eccesso. Se la differenza tra il terzo valore di n ed il secondo fosse ritenuta ancora importante, si effettua un nuovo calcolo dopo aver modificato i valori di t corrispondenti ai nuovi gdl; quasi sempre la quarta stima è molto simile alla terza e con essa termina il processo iterativo.

 

ESEMPIO. Mediante un’analisi della varianza con 4 gruppi (un controllo e tre trattamenti), si intende dimostrare la significatività di una differenza (tra il controllo ed uno dei tre trattamenti) uguale a 11.

Dai dati già raccolti, è noto che la varianza è uguale a 150 e quindi s  è uguale a 12,2 (arrotondato alla prima cifra decimale), mentre il rapporto j (s / d) è uguale a 0, 9.

Quanti dati n occorre raccogliere per ognuno dei 4 campioni, affinché il test ANOVA risulti significativo alla probabilità a uguale a 0.05 e con  una potenza (1 - b) uguale al 90 per cento?

 

Risposta.

Si utilizza la formula

 

 in cui, con i dati del problema, si ha che

  j (s / d) = 0,9

  a = 0.05   e   b = 0.10

 

Nel 1° tentativo, si scelgono i valori dei gdl e i valori di t corrispondenti, solo sulla base del buon senso (l’esperienza):

  con k = 4   e    n = 20,

 se si ipotizza a priori che sia sufficiente n = 6,

 poiché  n = k×(n-1)

 si devono scegliere i due valori di t con 20 gdl.

Dalla tabella dei valori critici si ricava che

-  t di a (0.05, 20) = 2,086 (in una distribuzione per test bilaterale),

-  t di b (0.10, 20) = 1,325 (in una distribuzione per test unilaterale, corrispondente alla colonna 0.20 se la distribuzione è bilaterale).

 

Dai parametri fissati, con la formula sopra riportata

si ottiene un valore di n

³  2 × 0,92 × (2,086 + 1,325)2   =   2 × 0,81 × 11.635   =   18,85

uguale a 19, per arrotondamento all’unità superiore.

Si può osservare che il valore stimato (19) è molto maggiore di quello ipotizzato all’inizio (6).

Di conseguenza, il valore di t utilizzato con 20 gdl è errato e troppo grande in quanto fondato su pochi gdl. Si deve quindi procedere ad una iterazione, con un secondo tentativo di calcolo fondato su un valore di t più preciso.

 

Nel 2° tentativo,

 prendendo come riferimento delle dimensioni di ogni gruppo n = 19,

 il valore di n è 4 x 18 = 72.

Poiché poche tabelle riportano i valori esatti di t per questo numero di gradi di libertà, ma approssimativamente per decine, come scelta cautelativa si utilizza n uguale a 70, che fornisce un valore di t maggiore  di quello con 80 gdl e quindi anche un n maggiore.

 

I nuovi valori di t sono:

-  per  a = 0.05 in un test bilaterale,    t(0.05, 70) = 1,994

-  per b = 0.10 in un test unilaterale,    t(0.10, 70) = 1,294

 

La nuova stima di n

³  2 × 0,92 × (1,994 + 1,294)2   =   2 × 0,81 × 10,81   =   17,51

 risulta uguale a 18 per arrotondamento all’unità superiore.

Poiché il nuovo valore (18) non differisce sensibilmente dal valore calcolato in precedenza (19), si può concludere che per ognuno dei 4 gruppi sono sufficienti 18 o 19 dati.

 

L’esempio mette in evidenza che per poter utilizzare pochi dati, quindi avere un risparmio in costo di materiale e di tempo richiesti dall’esperimento,

-  è vantaggioso rendere il valore di j (s / d) il minimo possibile, agendo

-  sulla differenza, affinché sia grande e

-  sulla varianza affinché sia piccola.

 

 

  

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007