METODI NON PARAMETRICI PER UN CAMPIONE

 

 

 

7.7.   INTERVALLO DI CONFIDENZA DELLA MEDIANA CON IL TEST DEI SEGNI.

 

 

In varie occasioni, le misure raccolte in natura o in laboratorio per verificare la risposta media di un fenomeno non godono delle proprietà di una scala ad intervalli o di rapporti. Ad esempio, possono essere

-  tassi o percentuali, raccolti su campioni di dimensioni differenti e quindi con varianza notevolmente differente;

-  indicazioni numeriche rilevate su una scala non costante, ma di tipo logaritmico, per cui la lettura del dato comporta un errore crescente all’aumentare del valore;

-  valori fortemente asimmetrici, con presenza frequente di dati anomali in uno solo o in entrambi gli estremi.

Come stima della tendenza centrale, è utile calcolare un intervallo di confidenza fondato sul test dei segni che ricorre alla distribuzione binomiale e fa riferimento alla mediana.

Per illustrane questa metodologia in modo semplice, si assuma di aver ottenuto i seguenti 12 valori campionari


 

Campione

A

B

C

D

E

F

G

H

I

L

M

N

Xi

15,7

4,9

6,0

7,7

17,6

4,5

5,7

5,3

12,3

9,6

13,5

12,3

 

 

Per stimare l’intervallo di confidenza (in questo caso alla probabilità  a = 0.05) si deve seguire il seguente processo logico.

 

1 - Si ordinano i valori sperimentali in modo crescente, come

 

Rango

1

2

3

4

5

6

7

8

9

10

11

12

Xi

4,5

4,9

5,3

5,7

6,0

6,9

7,7

9,6

12,3

13,5

15,7

17,6

 

2 – Tenendo presente che l’intervallo di confidenza utilizza una distribuzione bilaterale, sulla base del numero totale di dati (in questo caso N = 12) dalla distribuzione binomiale cumulata (riportata in un paragrafo precedente) si ricava che, se si considerano i segni positivi,

-  la probabilità di avere 0 segni negativi è P = 0.000;

-  la probabilità di avere 1 o 0 segni negativi è P = 0.003;

-  la probabilità di avere 2, 1 o 0 segni negativi è P = 0.019;

-  la probabilità di avere 3, 2, 1 o 0 segni negativi è P = 0.073.

 

In modo differente, dalla distribuzione binomiale

Pi =

 

con r che varia da 0 a 3 si giunge agli stessi risultati:

-  la probabilità di avere 0 segni negativi è P = 0.000

-  la probabilità di avere 1 segno negativo è P = 0.003

-  la probabilità di avere 2 segni negativi è P = 0.016

-  la probabilità di avere 3 segni negativi è P = 0.054

 

3 – La prima tabella di probabilità evidenzia che, in una distribuzione bilaterale, si possono avere al massimo due segni negativi per rifiutare l’ipotesi nulla, poiché la sua probabilità è

P = 2 x 0.019 = 0.038 < a = 0.05.


La seconda tabella arriva alle stesse conclusioni poiché

P = 2 (0.000 + 0.003 + 0.016 ) = 0.038

 

Queste probabilità indicano che nel test dei segni

-  si rifiuta l’ipotesi nulla quando si hanno da 0 a 2 oppure da 10 a 12 segni dello stesso tipo,

-  si accetta l’ipotesi nulla se si hanno da 3 a 9 segni dello stesso tipo.

 

4 – Applicando gli stessi concetti in modo differente, si può affermare che per stimare l’intervallo di confidenza alla probabilità a £ 0.05, con N = 12 si devono scartare i 2 valori più estremi nelle due code della serie ordinata dei valori sperimentali; di conseguenza, con la distribuzione

 

Rango

1

2

3

4

5

6

7

8

9

10

11

12

Xi

4,5

4,9

5,3*

5,7

6,0

6,9

7,7

9,6

12,3

13,5*

15,7

17,6

 

la tendenza centrale (q con simbologia generale, che in questo caso è la mediana) di questa distribuzione varia tra 5,3 e 13,5

5,3 < q < 13,5

 

5 – Per stimare l’intervallo di confidenza alla probabilità a £ 0.01 dato che

P = 2 (0.000 + 0.003) = 0.006

 cioè nel test dei segni

-          si rifiuta l’ipotesi nulla se si hanno da 0 a 1 oppure da 11 a 12 segni uguali,

-          si accetta l’ipotesi nulla se si hanno da 2 a 9 segni uguali,

 si devono scartare i due valori più  estremi, uno in ogni coda della distribuzione

 

Rango

1

2

3

4

5

6

7

8

9

10

11

12

Xi

4,5

4,9*

5,3

5,7

6,0

6,9

7,7

9,6

12,3

13,5

15,7*

17,6

 

Di conseguenza, la tendenza centrale (la mediana, indicata genericamente con q) di questa distribuzione varia tra 4,9 e 15,7

4,9 < q < 15,7

Dalla stessa tabella si ricava che, sempre per la probabilità a £ 0.05, con

-  N = 15 si devono scartare i 3 valori più estremi,

-  N = 17 si devono scartare i 4 valori più estremi,

-  N = 20 si devono scartare i 5 valori più estremi.

 

Nel caso di grandi campioni, una buona approssimazione per stimare il numero di valori estremi che cadono nella zona di rifiuto  può essere derivata dalla distribuzione normale, dove

-          il limite inferiore L1 è uguale a Xi

-          il limite superiore L2 è uguale a XN-i+1

con

 

Ad esempio, con N = 40 e alla probabilità a = 0.05 (Z = 1,96) si ottiene

  13,8 che deve essere arrotondato a 13.

Significa che nella serie ordinata per rango dei 40 valori, l’intervallo di confidenza della mediana è ottenuto scartando i 13 valori minori e i 13 valori maggiori.

Nel capitolo successivo è fornita la tabella per l’intervallo di confidenza di una serie di differenze, stimate da due campioni dipendenti; la tecnica e i valori sono applicabili anche a questo caso, in cui si dispone di una sola serie di dati.

In essa è possibile verificare il risultato appena ottenuto: con

N = 40  e  a = 0.05 il numero di dati da scartare è 13.

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007