METODI NON PARAMETRICI PER DUE CAMPIONI INDIPENDENTI

 

 

 

9.5. L’INTERVALLO DI CONFIDENZA PER UNA DIFFERENZA MEDIANA, CON IL METODO ESATTO DI FISHER.

 

 

Nell’analisi sulla qualità delle acque, è frequente il conteggio di popolazioni planctoniche o batteriche, che hanno una crescita esponenziale. La distribuzione di questi dati è fortemente asimmetrica; per l’applicazione di test parametrici sulla media, quale il test t di Student spiegato in precedenza, si deve preventivamente ricorrere alla trasformazione logaritmica, come sarà illustrato nel capitolo dedicato alle trasformazioni. Tuttavia, non sempre il risultato richiesto per la validità del test (la normalità della distribuzione e la omogeneità della varianza) è raggiunto in modo soddisfacente.

Il ricorso al test della mediana permette di ottenere inferenze difficilmente confutabili, anche in queste situazioni sperimentali che si allontanano dal modello richiesto per l’applicazione di un test parametrico.

 

Oltre all’inferenza sulla significatività della differenza, spesso è richiesta anche la stima di un suo valore medio o mediano, con il suo intervallo di confidenza. Il test della mediana si presta al calcolo di una stima non confutabile della differenza (d) vera

In alcuni casi di forte asimmetria, questo metodo risulta più potente di quello che utilizza la distribuzione t di Student.

 

Sviluppando l’esempio riportato nel testo di Sprent già citato (pag. 107-8), si assuma di aver effettuato il conteggio di popolazioni batteriche in campioni d’acqua di due aree (10 pozzi dell’area A e 12 pozzi di quella B), con i risultati della tabella, nella quale sono già stati ordinati per rango allo scopo di facilitarne la lettura e il confronto:

 

Area A

143

173

226

233

250

287

291

303

634

637

---

---

Area B

50

164

198

221

225

302

328

335

426

534

586

618

 

Determinare l’intervallo di confidenza alla probabilità nominale del 95% per la differenza tra le due mediane, utilizzando il metodo esatto di Fisher (Fisher’s exact test).

 

Risposta.   La procedura del test della mediana con campioni piccoli, cioè con il metodo esatto di Fisher,

 

1 - come primo passo richiede che i dati dei due campioni indipendenti siano disposti in ordine crescente, come se fossero un gruppo solo, mantenendo l’informazione sul gruppo di appartenenza; con i 22 dati campionari, si ottiene la seguente serie

 

 

Rango

1

2

3

4

5

6

7

8

9

10

11

Valore

50

143

164

173

198

221

225

226

233

250

287

Area

B

A

B

A

B

B

B

A

A

A

A

 

 

Rango

12

13

14

15

16

17

18

19

20

21

22

Valore

291

302

303

328

335

426

534

586

618

634

637

Area

A

B

A

B

B

B

B

B

B

A

A

 

 

 nella quale la mediana del gruppo riunito cade tra il rango 11 (287) e il rango 12 (291).

 

 

2 – Con pochi dati, la mediana è la media di questi due valori: 289.

Successivamente si costruisce la tabella 2 x 2,


 

 

M E D I A N A

 

 

 

Gruppo A

6

4

10

Gruppo B

5

7

12

 

11

11

22

 

nella quale emerge che

-          dei 10 dati del gruppo A, 6 sono inferiori e 4 sono maggiori della mediana comune,

-          dei 12 dati del gruppo B, 5 sono inferiori e 7 sono maggiori della mediana comune.

 

 

3 – Per stimare l’intervallo di confidenza alla probabilità bilaterale a = 0.05 è necessario calcolare quali sono le distribuzioni di frequenza che, mantenendo costanti i totali (di riga, di colonna e quindi  anche quello generale) della tabella, abbiano una probabilità (P) complessiva inferiore a a = 0.025 in ognuna delle due code della distribuzione.

Con un programma informatico, poiché i conti manuali sono lunghi seppure ancora possibili, si stima che

-          la probabilità (P0) di ottenere la tabella seguente (la più estrema in una direzione)

 

 

 

M E D I A N A

 

 

 

Gruppo A

10

0

10

Gruppo B

1

11

12

 

11

11

22

 

 

 cioè la probabilità di avere 0 nella casella in alto a destra (ma 0 potrebbe anche essere in alto a sinistra, trattandosi di una distribuzione simmetrica)

è

0,000017

 approssimativamente uguale a 0.000;

-          la probabilità (P1) di ottenere la tabella seguente

 

 

 

M E D I A N A

 

 

 

Gruppo A

9

1

10

Gruppo B

2

10

12

 

11

11

22

 

 

 cioè di avere 1 nella casella in alto a destra

 è

0,000936

 approssimativamente uguale a 0.001;

-          la probabilità (P2) di ottenere la tabella

 

 

 

M E D I A N A

 

 

 

Gruppo A

8

2

10

Gruppo B

3

9

12

 

11

11

22

 

 

 cioè di avere 2 nella casella in alto a destra

 è

0,01403

 approssimativamente uguale a 0.014.

La probabilità (P3) di avere 3, sempre solamente per effetto del caso,

è

0,08420

 

Questa ultima è alta (P3 = 0.084), superando da sola il 5%.

 

4 – Da questi calcoli si deduce che

P = 0.000 + 0.001 +0.014 @ 0.015

 la probabilità complessiva di avere per solo effetto del caso le tre risposte più estreme in una coda è approssimativamente P = 0.015.

 

5 – Di conseguenza, per calcolare l’intervallo di confidenza alla probabilità complessiva a £ 0.05 considerando entrambe le code della distribuzione, il valore limite accettabile nel gruppo A è 303

 

 

Area A

143

173

226

233

250

287

291

303

634

637

---

---

Area B

50

164

198

221

225

302

328

335

426

534

586

618

 

 

 in quanto esclude solo i due valori più estremi: esso è il primo che non permette di rifiutare l’ipotesi nulla H0.

 

6 – Successivamente si prendono in considerazione i dati del campione B. Poiché il numero totale di valori oltre la mediana sono 11, come riportano le tabelle 2 x 2 e sempre per non rifiutare l’ipotesi nulla H0, nel gruppo B i valori che si possono escludere sono gli 8 maggiori. Nel campione B il valore più basso degli 8 maggiori, cioè il valore critico inferiore, è 225.

Ne deriva che la distanza massima tra le due serie campionarie, per non rifiutare l’ipotesi nulla H0, è la differenza tra questi due valori critici, cioè

303 – 225 = 78

Quindi si può rifiutare l’ipotesi nulla H0 solo quando

qB - qA > -78

 

7 – Con ragionamento simile, ma simmetrico, in un test bilaterale si rifiuta l’ipotesi nulla anche quando la distribuzione è sbilanciata  con intensità uguale nell’altra direzione.

 

 

Area A

143

173

226

233

250

287

291

303

634

637

---

---

Area B

50

164

198

221

225

302

328

335

426

534

586

618

 

 

Nel gruppo A, dopo i due valori estremi, il primo dato è 226; nel gruppo B il primo dato dopo gli 8 valori più bassi (in quanto 2 + 8sono gli 11 dati minori della mediana generale) è 426.

Poiché

426 – 226 = 200

 si rifiuta l’ipotesi nulla H0 solo quando

qB - qA > 200.

 

8 – Si deve quindi concludere che, alla probabilità nominale del 95%, l’intervallo di confidenza per la differenza mediana in questi due campioni è tra –78  e  +200.

 

Nel trarre le conclusioni  su questi risultati, è importante evidenziare due osservazioni:

-          la probabilità reale di questo intervallo di confidenza è del 97% (non del 95% come nominalmente richiesto), poiché è stato escluso un 1,5% in ogni coda della distribuzione, a causa dei valori discreti che il metodo esatto di Fisher determina quando i campioni sono piccoli;

-          con il test t (rivedi come si calcola l’intervallo di confidenza di una differenza tra le medie di due campioni indipendenti),

 

-          alla probabilità del 95% (quindi minore di quello reale prima utilizzato) l’intervallo di confidenza della differenza media risulta

–142,94  < d <  + 172,04

 

E’ più ampio di quello stimato con il test della mediana (-78  e  200) e il metodo delle probabilità esatte di Fisher. La causa è la forte asimmetria della distribuzione sperimentale, che inoltre solleva dubbi forti di validità quando si ricorre ad un test parametrico.

Sono più che evidenti i vantaggi di questo metodo, che inoltre è il meno potente tra quelli non parametrici, rispetto al metodo classico utilizzato nella statistica parametrica.


 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007