Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

L’ANALISI GERARCHICA E

LE COMPONENTI DELLA VARIANZA

14.7. IL CONCETTO DI EFFETTI RANDOM E CONDIZIONI DI VALIDITA’ DEL TEST

Riprendendo i concetti illustrati nella presentazione dell’ANOVA, nell’analisi degli effetti fissi il modello additivo assume che esista un effetto principale (main factor), individuato dalla media, con variazioni imputabili ad effetti casuali (random effects).

Ad esempio, nella stima del livello d’inquinamento atmosferico in vari quartieri di una città, la quantità misurata con una singola osservazione (X_ij) dipende

- dalla quantità stabilmente presente in tutta l’area (m),

- dalla differenza (a_i) della zona rispetto al valore medio generale e

- dai fattori casuali (e_ij) presenti nell’istante della misurazione:

Ogni zona ha un suo effetto fisso (m_i), la cui differenza dalla media generale (m) determina a:

a =

Si supponga ora di voler confrontare il livello d’inquinamento atmosferico della zona A con quello della zona B, ma con misure effettuate in orari differenti: nella zona A alle ore 6 e nella zona B alle 14. Facilmente nella zona B il livello d’inquinamento risulta maggiore, perché durante la giornata essi variano e a quell’ora di norma è maggiore. E’ intuitivo sollevare l’obiezione che se la rilevazione fosse stata effettuata alla stessa ora, forse il confronto tra le due zone poteva essere di segno opposto. Nasce quindi il problema di quantificare e verificare se, in quella città, l’ora di rilevazione sia un fattore importante di variabilità tra zone, per il parametro rilevato.

E’ un problema che in biologia e nella ricerca ambientale ricorre con frequenza. Per la selezione di un carattere, è vantaggioso disporre di un gruppo di individui molto variabile, in quanto più probabilmente essi sono geneticamente differenti. La variabilità della qualità dell’acqua fornita da un acquedotto dipende da quella dei pozzi che lo alimentano.

Nei prodotti delle aziende e spesso nella gestione ambientale, un fenomeno molto variabile ha conseguenze negative e richiede attenzioni maggiori, se non si devono superare valori soglia prefissati.

Per valutare se l’ora della rilevazione è importante, si assuma di effettuare una misura del livello d’inquinamento ad intervalli costanti ed in successione rapida dalle ore 0,00 alle 24,00. Ogni osservazione (X_ij) dipende

- dalla quantità media della giornata (m_i) in quella zona e

- dalle sue variazioni (e_ij):

Se le rilevazioni sono suddivise in ore, il modello aumenta di un fattore e diventa

dove

- è la media della giornata

- è la media di ogni ora, assunta come unità di misura.

Di conseguenza, come schema generale si ritorna al modello precedente

utilizzato per i fattori fissi.

Per studiare le variazioni (random effects), il modello è riconducibile a quello dello studio delle differenze tra i livelli medi (fixed effects). Ma restano differenti gli scopi. Con rilevazioni in k zone,

- l’analisi ad effetti fissi verifica l’ipotesi nulla

H₀: m₁ = m₂ = … = m_k

contro l’ipotesi alternativa

H₁: non tutte le m sono uguali

- l’analisi ad effetti random verifica l’ipotesi nulla

H₀: = 0

contro l’ipotesi alternativa

H₀: > 0

(La varianza è un quadrato e quindi la differenza da zero è sempre una quantità positiva)

Nel modello ad effetti fissi, le rilevazioni sono effettuate dopo aver prefissato i gruppi a confronto.

Nello studio della variabilità, per testare l’ipotesi nulla sugli affetti casuali, dalla popolazione teoricamente infinita di tempi in cui la giornata può essere suddivisa è sufficiente raccogliere dati solo per alcune ore, se essa è assunta come unità di misura: si estrae un campione random di ore, per determinare gli effetti presenti in ogni replica dell’esperimento. Da qui il nome di modello ANOVA random-effects; in contrapposizione, l’altro nome di fixed-effects.

Per rispettare questa condizione di casualità nella scelta, sono proposti due criteri:

- la sostituibilità (replaceability): i gruppi (chiamati anche modalità o livelli) del fattore sono scelti in modo casuale oppure arbitrario e possono essere sostituiti da qualsiasi altro gruppo; cioè, per valutare la variabilità nel tempo, può essere campionato un gruppo k qualsiasi di ore;

- la generalizzazione (generalization): le conclusioni sono ugualmente attendibili ed estensibili a tutta la popolazione, con qualsiasi gruppo k di dati sia stata condotta l’analisi.

Questo concetto di random effects non deve essere confuso con quello del disegno completamente randomizzato (completely randomized design) né quello di disegno a blocchi randomizzati (randomized block design). Essi riguardano il modello a fattori fissi.

Per l’ANOVA II o a effetti random, derivate dai concetti precedenti, si devono assumere le seguenti condizioni di validità:

1 – gli effetti random sono distribuiti in modo normale, con m = 0 e varianza ;

in simboli

2 – gli errori sono distribuiti in modo normale, con m = 0 e varianza ; il concetto è espresso in simboli con

3 – gli effetti random e gli errori sono indipendenti, per cui la correlazione tra ogni coppia di e deve essere uguale a 0;

4 – gli errori sono tutti indipendenti tra loro.

Queste assunzioni hanno varie implicazioni. Affinché il test ANOVA II sia valido, è necessario che nei dati raccolti siano verificate le tre condizioni seguenti.

1 – Le medie () di popolazioni di rilevazioni (quali le ore) devono essere distribuite in modo normale intorno alla media della giornata (m) e avere varianza . Poiché , le devono avere distribuzione normale intorno a 0 (zero), con varianza .

2 – Le osservazioni di una singola ora devono essere distribuite in modo normale intorno alla loro media , con varianza . Poiché , a loro volta le devono essere distribuite in modo normale intorno allo 0 con varianza .

Questa condizione deve essere vera per tutti i gruppi ed è equivalente a quella di omogeneità delle varianze nel modello ad effetti fissi. Poiché la sua distribuzione è a più dimensioni, è chiamata normalità multivariata o condizione di sfericità.

3 - Se i campioni di osservazioni sono estratti da popolazioni per una scelta casuale del tempo , essi non devono dare informazioni sul valore medio . La serie di questi valori medi di ogni gruppo che deve essere distribuita intorno allo 0 e ogni valore deve essere indipendente da un qualsiasi altro .

La nested ANOVA II permette di stimare

- sia la varianza , cioè la variabilità delle medie dei gruppi nei vari livelli,

- sia quella , cioè la variabilità entro gruppi.