trasformazionI dei dati;

test per normalita’ e PER OUTLIER

 

 

 

13.8. CENNI DEL TEST DI CRAMER-VON MISES PER UN CAMPIONE E PER DUE CAMPIONI INDIPENDENTI

 

 

Il test di Cramér e von Mises, riportato in alcuni programmi informatici e spesso citato in varie pubblicazioni per cui è utile che sia conosciuto almeno nei suoi aspetti principali, è fondato su una logica del tutto simile a quella del test di Kolmogorov-Smirnov. La metodologia è stata proposta alla fine degli anni ’20 con l’articolo di H. Cramér del 1928 On the composition of elementary errors (pubblicato sulla rivista Skandinavisk Aktuarietidskrift, Vol. 11, pp. 13-74 e pp. 141-180) e all’inizio degli anni ’30 nel volume di R. von Mises del 1931, pubblicato in tedesco, Wahrscheinlichkeitsrechnung und Ihre Anwendung in der Statistik und Theoretischen Physik (edito da F. Deutiche, Leipzig).

E’ stata perfezionata da N. V. Smirnov nel 1936 per quanto riguarda le caratteristiche della distribuzione dei valori critici con l’articolo, in francese, Sur la distribution de W2 (criterium de M. R. v. Mises) (pubblicato su Comptes Rendus, Paris, Vol. 202, pp. 449-452).

Il test di Kolmogorov-Smirnov e molto più frequentemente utilizzato e è riportato in quasi tutte le librerie informatiche. Il test di Cramér von Mises gode del vantaggio di essere più semplice.

 

Come il test di Kolmogorov-Smirnov, può essere applicato

-   nel caso di un solo campione,  per verificare la bontà dell’adattamento,

-   nel caso di due campioni indipendenti, per verificare se appartengono alla stessa popolazione o comunque a popolazioni identiche.

 

Per verificare l’accordo tra una distribuzione campionaria e una distribuzione attesa di qualsiasi forma, è necessario che la variabile casuale sia continua. Come in tutti i test per la bontà dell’adattamento, l’ipotesi riguarda tutti i parametri della distribuzione (media, varainza, simmetria, curtosi): quando il test risulta significativo, la distribuzione osservata si differenzia da quella attesa per almeno un parametro, senza alcuna informazione su quale esso sia.

Ovviamente il test è utile quando il parametro non è noto; soprattutto quando la differenza può essere determinata da un concorso di più parametri.


 

E’ un test generalista, in cui l’ipotesi nulla è che il campione osservato appartenga alla popolazione teorica indicata. Appunto perché dipendente da più fattori, l’ipotesi alternativa è quasi sempre bilaterale.

Limitando anche in questo caso la spiegazione alla comprensione dei programmi informatici, quindi senza entrare nel dettaglio delle procedure di calcolo,

 

1 - dopo aver costruito le n classi della distribuzione osservata e della distribuzione attesa, sulla base della legge matematica o statistica prescelta

 

2 - si stima il valore di un indicatore  che è uguale a

 =

dove

-   F(xi) è lo scarto tra osservato ed atteso nella classe i.

 

3 - Si rifiuta l’ipotesi nulla, quindi c’è disaccordo tra distribuzione osservata e distribuzione attesa, quando  supera il valore critico Ca , riportato nella tabella seguente.

 

Con n > 10, si possono usare i seguenti valori critici Ca  per la probabilità a prefissata.

 

a

0.10

0.05

0.01

0.001

Ca

0,347

0,461

0,743

1,168

 

 

Quando la distribuzione attesa è costruita sulla base di uno o più parametri (media, varianza, simmetria, curtosi) calcolati nella distribuzione osservata, il valore di  è inferiore.

Sono stati stimati valori critici anche per queste analisi più specifiche che considerano contemporanemamente k parametri.

 

La metodologia per il caso di due campioni indipendenti, può essere illustrata con la presentazione di un esempio.

Si supponga di avere il campione A


 

186

191

217

220

255

270

300

380

 

 con un numero di osservazioni  m = 8

 e il campione B

 

104

115

120

150

171

175

188

210

215

220

260

300

 

 

 con un numero di osservazioni n = 12.

Esiste una differenza significativa tra le due distribuzioni?

 

Risposta.

1 – Delle due serie di dati, si forma una distribuzione unica, mantenendo l’informazione sul gruppo di appartenza di ogni valore

 

(1)

(2)

(3)

(4)

(5)

(6)

A

B

Cum. A

Cum B

D

D2

---

104

0,0

0,083

-0,083

0,00689

---

115

0,0

0,167

-0,167

0,02789

---

120

0,0

0,250

-0,250

0,06250

---

150

0,0

0,333

-0,333

0,11089

---

171

0,0

0,416

-0,416

0,17316

---

175

0,0

0,500

-0,500

0,25000

186

---

0,125

0,500

-0,375

0,14062

---

188

0,125

0,583

-0,458

0,20976

191

---

0,250

0,583

-0,333

0,11089

---

210

0,250

0,667

-0,417

0,17389

---

215

0,250

0,750

-0,500

0,25000

217

---

0,375

0,750

-0,375

0,14062

220

220

0,500

0,833

-0,333

0,11089

255

---

0,625

0,833

-0,208

0,04326

---

260

0,625

0,917

-0,292

0,08526

270

---

0,750

0,917

-0,167

0,02789

---

300

0,750

1,000

-0,250

0,06250

330

---

0,875

1,000

-0,125

0,01563

380

---

1,000

1,000

0,000

0,00000

  =    2,00254


 

 come risulta nella tabella, leggendo insieme la colonna del campione A e la colonna del campione B

 

2 - Poiché il numero di osservazioni, con spesso nel caso di due campioni indipendenti, è diverso, si trasformano i valori nelle rispettive proporzioni e si costruiscono sia la cumulata del campione A sia la cumulata del campione B (colonna 3 e 4)

 

3 – Si costruisce la serie delle differenze D (colonna 5),

 dove

D = Cum. A – Cum.B

 

4 – Si costruisce la serie delle differenze al quadrato (D2 della colonna 6) e se ne ricava la somma (S),

ottenendo

  =  S =  2,00254

 

5 – Attraverso la relazione

 

 con i dati dell’esempio di trova W2 = 0,48.

 

6 – In un test bilaterale, come di solito nel confronto generico tra due distribuzioni di dati,

-  alla probabilità a = 0.05  il valore critico è 0,461

-  alla probabilità a = 0.01  il valore critico è 0,743

 

7 – Poiché il valore calcolato (0,48) si colloca tra la probabiltà 0.05 e 0.01 è possibile rifiutare l’ipotesi nulla con probabilità P < 0.05 di commettere un errore di Tipo I.

Le due distribuzioni non appartengono alla stessa popolazione.

 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007