Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

METODI NON PARAMETRICI PER UN CAMPIONE

7.6. INTERVALLI DI CONFIDENZA NON PARAMETRICI E INTERVALLI DI TOLLERANZA

Oltre agli intervalli di confidenza parametrici, descritti nel capitolo precedente, è possibile costruire anche intervalli di confidenza non parametrici. Questi non richiedono che la popolazione dei dati sia distribuita in modo normale e non sono derivati dai valori della Z, ma sono validi per qualsiasi forma di distribuzione dei dati e sono fondate su distribuzioni di probabilità diverse dalla normale.

Tra le distribuzioni più importanti, per stimare gli intervalli di confidenza sono da ricordare

- la disuguaglianza di Cebicev (su alcuni testi scritto Tchebycheff),

- la distribuzione binomiale, che permette la stima delle probabilità per il test dei segni,

- la distribuzione T di Wilcoxon.

La prima è completamente generale ed è valida per qualsiasi forma di distribuzione. Essa consente di determinare intervalli di confidenza, cioè i limiti della distribuzione di un parametro quale la media, alla probabilità 1-a prefissata, in assenza di qualsiasi informazione sulla forma di distribuzione della variabile casuale, eccetto l’esistenza della varianza.

Il limite fondamentale di questo intervallo di confidenza e di altri intervalli non parametrici deriva dal fatto che l’intervallo calcolato spesso è molto ampio. Troppo grande, per risultare utili in varie situazioni sperimentali.

E’ appunto l’effetto del non aver posto limiti alle sue applicazioni e quindi di richiedere che sia valido in tutte le situazioni.

Un altro esempio di intervallo di confidenza utile nella statistica non parametrica può essere quello fondato sulle probabilità stimate con la distribuzione bernouillana. Si ottiene un intervallo di confidenza della probabilità p mediante la relazione:

p =

dove

- è la frequenza relativa media,

- N è il numero totale di casi analizzati,

- a è la probabilità prefissata.

ESEMPIO 1. Nelle misure d’inquinamento dell’aria, in una città su 25 zone campionate il limite di legge è stato superato in 6 casi. Quale è la frequenza reale p di superamento dei limiti di legge, alla probabilità a = 0.05?

Risposta. Con = 6/25 = 0,24 e N = 25 e a = 0.05

p = = = 0,24 ± = 0,24 ± 0,447

l’intervallo richiesto è p = 0,24 ± 0,447

E’ semplice osservare che è molto ampio: come estremi fornisce i valori 0 e 0,687.

In realtà, secondo la formula il limite inferiore dovrebbe risultare negativo (0,24 – 0,447); per convenzione è arrotondato a 0, non essendo possibile una probabilità negativa.

Un’altra considerazione è che la risposta fornita da questa stima non è molto indicativa, in quanto l’intervallo è troppo ampio.

Una seconda osservazione è che il limite di confidenza della stessa proporzione, quando fondato sulla normale, fornisce un intervallo nettamente minore (tra 7,26% e 40,74%), per la stessa probabilità a. Ma questo ultimo è valido solo per distribuzioni che siano normali, almeno in modo approssimato.

Altri metodi per calcolare gli intervalli di confidenza sono spiegati nei paragrafi e nei capitoli successivi. Fondati sul test dei segni, sul test T di Wilcoxon, sul test U di Mann-Whitney essi sono non parametrici: non richiedono la normalità e la simmetria dei dati. Inoltre l’intervallo di confidenza fondato sui ranghi determina risultati molto vicini a quelli stimati con il test t di Student. E’ sempre utile confrontare i risultati ottenuti con metodi differenti, quando applicati alla stessa distribuzione campionaria. Se la distribuzione dei dati non è normale, l’intervallo di confidenza non parametrico

- può risultare inferiore

- e rispetta l’asimmetria presente nella distribuzione dei dati.

Quando è possibile costruire vari intervalli di confidenza sulla base di ipotesi diverse, si pone il problema di scegliere quello “ottimale”. Senza entrare nel dibattito tecnico, un criterio di preferenza sovente proposto è

- la lunghezza minore dell’intervallo, a parità di probabilità a,

- la minore o maggiore generalità dei requisiti di validità, in rapporto al settore di applicazione.

Come già illustrato per il test t di Student, l’intervallo di confidenza permette anche la verifica di ipotesi in test bilaterali, poiché non si può rifiutare l’ipotesi nulla H₀ quando l’intervallo di confidenza include il valore di confronto.

A differenza degli intervalli di confidenza che delimitano il campo di variazione dei parametri (media e varianza), gli intervalli di tolleranza individuano i limiti della distribuzione dei valori.

Come già descritto nel paragrafo corrispondente per la statistica parametrica, intervalli di confidenza parametrici e intervalli di tolleranza hanno usi analoghi, ma implicano concetti differenti:

- un intervallo di confidenza è un intervallo entro il quale si sostiene che sia contenuto un parametro (quasi sempre la media m oppure la varianza s²);

- un intervallo di tolleranza è un intervallo entro il quale si sostiene che sia contenuta una proporzione (P) dei valori assumibili da una variabile casuale, con probabilità prefissata (a).

Con il diagramma di Tukey, illustrato sia nel capitolo di statistica descrittiva sia nei paragrafi sulla individuazione degli outlier, quando è applicato a grandi campioni è possibile costruire anche intervalli di tolleranza. Si stabiliscono i valori compresi entro quantili prefissati, che di solito sono il 5%, il 10% o il 20% delle osservazioni. Il metodo può essere applicato sia per entrambe le code, sia per una coda solamente.

Come riportato nel testo di Douglas C. Montgomery del 2001 Introduction to statistical quality control (4^th ed., John Wiley Sons, Inc. XIX + 796 p.), un metodo approssimato non parametrico per individuare quale siano i limiti entro i quali

- si trova almeno una proporzione P della popolazione,

- alla probabilità a che tale affermazione sia vera,

ricorre alla distribuzione :

dove (cioè con 4 gdl) è

- uguale 13,28 per la probabilità a = 0.01

- uguale a 9,49 per la probabilità a = 0.05

Con essa si stima approssimativamente, in una distribuzione bilaterale, il numero di dati campionari che devono essere estratti dalla popolazione, affinché tra il valore più piccolo e quello più grande sia compresa almeno una proporzione P della popolazione, con probabilità a.

La percentuale P di popolazione in termini tecnici è chiamata population coverage.

ESEMPIO 2. Per

- la probabilità = 0.01 che sia vera l’affermazione (quindi = 13,28)

- che la proporzione P = 0,95 dei dati della popolazione

- sia compresa tra il valore massimo e quello minimo del campione,

- occorre estrarre dalla popolazione

- un campione di almeno = 130 dati.

E’ un intervallo di tolleranza bilaterale.

Per stimare il limite di tolleranza unilaterale che,

- con probabilità a,

- almeno una proporzione P della popolazione

- sia maggiore del valore campionario più piccolo

- (oppure sia minore del valore campionario più grande)

- è necessario che dalla popolazione sia estratto almeno un campione con osservazioni,

dove

ESEMPIO 3. Per ottenere il limite di tolleranza inferiore che

- sopra di esso escluda almeno il 90% dei dati della popolazione (P = 0,90),

- con probabilità a = 0.05 di affermare il vero,

si deve prendere il valore minore in un campione

- composto da = 28 - 29 dati.

Nel caso degli intervalli di tolleranza non parametrica non si stimano direttamente i due valori limite, ma la quantità di osservazioni necessarie affinché i due valori estremi del campione identifichino i due limiti.

Ancor più di quanto già evidenziato per gli intervalli di confidenza o fiduciali non parametrici, in generale i limiti di tolleranza non parametrici hanno un valore pratico molto basso: sono molto ampi oppure richiedono un numero molto alto di osservazioni. E’ richiesto un campione così grande da non poter essere realizzato, a causa dei costi di ogni singola osservazione.