METODI NON PARAMETRICI PER UN CAMPIONE
7.5. INTERVALLO DI CONFIDENZA PER UNA PROBABILITA’ O FREQUENZA RELATIVA, SECONDO IL METODO DI CLOPPER E PEARSON
La probabilità media () di un evento, calcolata su un campione di dati raccolti in natura o con prove ripetute in laboratorio, è data dal rapporto tra i casi positivi (B) e il numero totale di osservazioni (N) = B / N La sua deviazione standard () dipende dalla media e da N, secondo la relazione
=
La varianza non è quindi misurata utilizzando la variabilità campionaria delle repliche, ma è una funzione del valore medio. Calcolata una probabilità o frequenza relativa dai dati di un campione, spesso si pone il problema di conoscere la probabilità (p) vera o della popolazione. E’ una domanda alla quale la statistica frequentista risponde attraverso l’intervallo di confidenza.
Nel caso di campioni molto piccoli (N da 1 a 10), uno dei metodi più semplici e rapidi per stimare l’intervallo di confidenza o intervallo fiduciale è la procedura grafica, proposta da C. J. Clopper e E. S. Pearson nel 1934 (nell’articolo The use of confidence or fiducial limits illustrated in the case of binomial comparso su Biometrika vol. 26, pp. 404-413). Di questa procedura grafica vengono riportati solo i risultati e le applicazioni. Alcuni valori fondamentali (per a = 0.01, 0.05, 0.10, 0.20) di una distribuzione bilaterale sono riportati nelle tabelle della pagina successiva. L’intervallo di confidenza alla probabilità 1 - a della probabilità media , compreso tra il valore del limite inferiore pI (a/2) e il valore del limite superiore pS (a/2) può essere scritto come Pp[ pI (a/2) < < pS (a/2)] ³ 1 - a
Per le applicazioni, le risposte sono fornite direttamente dalle due tabelle seguenti. Tabella dei limiti di confidenza di una probabilità P = B/N (0.00 £ P £ 1.00 ) calcolati con il metodo grafico di Clopper e Pearson (1934)
N = dimensioni del campione (da 1 a 10); B = numero di successi (varia da 0 a N) a = probabilità bilaterale; PI(a/2) = limite critico inferiore; PS(a/2) = limite critico superiore
CONTINUA NELLA PAGINA SEGUENTE
Ad esempio 1) assumendo di avere avuto una risposta positiva su 4 tentativi (N = 4 e B = 1), l’intervallo fiduciale del valore medio uguale a 0,25 è compreso - tra 0,0063 e 0,8059 alla probabilità a = 5% e - tra 0,0127 e 0,7514 alla probabilità a = 10%;
2) assumendo 4 risposte positive su 8 tentativi (N = 8 e B = 4), l’intervallo fiduciale del valore medio uguale a 0,50 è compreso - tra 0,1570 e 0,8430 alla probabilità a = 5% e - tra 0,1929 e 0,8071 alla probabilità a = 10%. Con il metodo di Clopper e Pearson, l’intervallo fiduciale è simmetrico solo per i valori medi di uguali a 0,50.
ESEMPIO. Per stimare la diffusione geografica di una specie, sono stati campionati cinque siti e la specie è stata trovata in due. Quale è la percentuale di presenza p reale di questa specie alla probabilità a = 0.05, considerando l’universo dei siti?
Risposta. Il campione è di dimensioni estremamente ridotte. Quindi per stimare l’intervallo di confidenza è utile ricorrere alla tabella costruita con il metodo grafico di Clopper-Pearson. Per N uguale a 5 e B uguale a 2 (corrispondente ad una media di 0,4), alla probabilità a = 0.05 nella tabella viene riportato un intervallo di confidenza compreso tra 0,0527 e 0,8534. Tradotto in percentuale, si può affermare che, con probabilità pari al 95%, la frequenza reale p di siti in cui è presente la specie studiata varia tra 5,27% e 85,34%. E’ importante osservare che, rispetto al valore medio del campione (0,40), la distribuzione non è simmetrica.
Per grandi campioni, (anche se non è mai definito chiaramente il confine tra campioni piccoli e grandi) si può ricorrere alla distribuzione normale, essendo la varianza definita dalla media (e quindi nota), come già presentato nel capitolo IV. La frequenza (p) reale o della popolazione si trova, con probabilità 1-a, entro l’intervallo
p =
E’ una distribuzione bilaterale; di conseguenza, - alla probabilità complessiva a = 0.05 in ognuna delle due code si deve prendere a = 0.025 alla quale corrisponde un valore di Z uguale a 1,96; - alla probabilità complessiva a = 0.01 in ognuna delle due code si deve prendere a = 0.005 alla quale corrisponde un valore di Z uguale a 2,58 (più esattamente 2,576).
ESEMPIO. Nelle misure d’inquinamento dell’aria, in una città su 25 zone campionate il limite di legge è stato superato in 6 casi. Quale è la frequenza reale p di superamento dei limiti di legge, alla probabilità a = 0.05?
Risposta. Con = 6/25 = 0,24 N = 25 Z = 1,96 alla probabilità a = 0.05 bilaterale, si ottiene un intervallo fiduciale della media reale
p = = = 0,24 ± 0,1674 che varia - da un limite inferiore uguale a 0,0726 (0,24 – 0,1674) - a un limite superiore uguale a 0,4074 (0,24 + 0,1674). La frequenza reale di superamento dei limiti di legge, stimata con un campione di 25 osservazioni in una media pari a 24%, alla probabilità a = 0.05 varia tra 7,26% e 40,74%.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |