elementi di statistica  descrittiva

Per  DISTRIBUZIONI  UNIVARIATe

 

 

1.10.   METODI PER CALCOLARE UN GENERICO QUANTILE DA UNA SERIE DI DATI

 

 

Nella statistica ambientale, è diffuso l’uso dei quantili, per due scopi:

-  individuare la collocazione di un dato entro una serie di rilevazioni,

- stimare il valore di uno specifico percentile, come avviene frequentemente per la mediana o il primo e il terzo quartile.

 

Disponendo di uno o più dati, è utile conoscere la loro collocazione entro una distribuzione sperimentale precedente, come indicazione approssimata e descrittiva della sua posizione. In questo caso, la soluzione è semplice: il percentile è la posizione o rango occupata da quel valore, rapportata appunto a 100.

Più complesso è stimare il valore esatto di un determinato percentile, con differenze metodologiche tra una serie limitata di dati o una distribuzione di frequenza.

Il concetto di stima di un quartile appare semplice; ma i metodi di calcolo non sono così banali ed unanimi come possono apparire.

Non esiste un metodo unico, con risultati universalmente accettati, in quanto

-  le varie proposte rintracciabili nei testi mostrano tutte inconvenienti od illogicità di tipo differente.

Quando il numero di osservazioni è alto, tutti i metodi forniscono risposte simili, spesso coincidenti; ma quando il numero di dati è limitato e sono presenti valori anomali, i risultati differiscono anche in modo sensibile.

A dimostrazione dei concetti appena espressi, si supponga di disporre di una serie di dati fortemente asimmetrica e con valori anomali, quale

1, 7, 4, 2, 50, 51,

in cui n = 6,

per calcolare un generico quantile Px.


 

Dopo aver ordinato gli n dati in modo crescente, ottenendo

1, 2, 4, 7, 50, 51,

 

un primo metodo richiede di

1 -  Calcolare R, che è dato da

R = ((n - 1) · Px) + 1

Con n = 6 dati e Px supposto uguale al 3° quartile, (3/4 oppure 75/100, espresso nell’intervallo 0-1) e quindi Px = 0,75

R = ((6 - 1) · 0,75) + 1 = 3,75 + 1 = 4,75

 si ottiene R = 4,75.

Il valore di R (che nell’esempio è uguale a 4,75) indica che il quantile da stimare si trova tra il 4° e il 5° valore nella serie ordinata dei dati ed esattamente nella posizione 0,75 della distanza tra i valori di rango 4 e rango 5. Per l’individuazione di tale valore, il metodo qui presentato (valido anche per la mediana con Px = 0,5) chiede ulteriori passaggi, quali

 

2 – Prendere I, la parte intera di R,

I = Int ( R )

per cui, nell’esempio,

I = Int (4,75) = 4

I risulta uguale a 4.

 

3 – Calcolare D per differenza tra R e I

D = R - I

che, sempre con i 6 dati dell’esempio

D = 4,75 – 4 = 0,75

risulta uguale a 0,75.

 

4 – Individuare nella serie ordinata dei dati X(I) e X(I+1)

cioè (con I = 4) i valori che occupano il rango 4° e 5°, per cui, con i dati dell’esempio,

X(4)  = 7     e      X(5) =  50

5 - La stima del quantile (Q) è determinata dalla relazione

= (1 - D) · X(I) + D · X(I +1)

Con i dati dell’esempio, il 3° quartile (Q0,75) è

Q0,75 = (1 – 0,75) x 7 + 0,75 x 50 = 1,75 + 37,5 = 39,25

uguale a 39,25.

 

Dopo aver calcolato che il quantile (Q0,75) desiderato si trova in posizione 4,75 su 6 dati, una variante del primo metodo appena descritto è fondata sull’interpolazione lineare a 0,75 tra il valore che occupa il 4° rango (X(4) = 7) e quello che occupa il 5° rango (X(5) = 50). Dopo averne stimato la differenza d

d = X(I+1) – X(I) = 50 - 7 = 43

si calcola la quota dovuta alla  proporzione P  (0,75) che eccede il rango I mediante la proporzione

P = 43 x 0,75 = 32,25

e viene sommata al valore del rango I

Q0,75 = 7 + 32,25 = 39,25

per ottenere un valore (39,25)  uguale al precedente.

 

 

Un secondo metodo calcola il quantile Px mediante la relazione

Rx = n · Px + 0,5

per cui il 75° percentile o terzo quartile con n = 6 dati è

R0,75 = 6 x 0,75 + 0,5 = 5,0

esattamente il 5° valore.

Con i 6 dati dell’esempio precedente Q0,75 risulta uguale a  50.

Per la quota eccedente l’intero I, quando esiste, si può usare l’interpolazione come calcolata prima, fra il valore X(I) e X(I+1).

 

 

Altri autori, con un terzo metodo, definiscono il valore Qx del quantile Px  nei termini della relazione

Rx = Px· (n + 1)

per cui il 75° percentile o terzo quartile con n = 6 dati

 è

Rx = 0,75 x (6 + 1) = 5,25

 

il valore che occupa la posizione 5,25.

Di conseguenza Q0,75 può essere stimato per interpolazione, tra il 5° e il 6° valore,

 risultando

Q0,75 = 50 + 0,25 (51 – 50 ) = 50,25

uguale a 50,25.


 

Anche questo metodo presenta varianti, fondate sulla logica di non voler stimare un valore che pretende di essere molto più preciso di quanto siano oggettivamente i dati:

- una prima è l’arrotondamento all’intero più vicino, per cui è il 5° valore e Q0,75 risulta uguale a 50,

  una seconda è l’interpolazione come media tra i due valori, calcolando quindi Q0,75 uguale a 50,5.

 

Anche il primo metodo, al quale ricorrono vari programmi informatici a grande diffusione, presenta inconvenienti logici, come evidenzia l’esempio seguente.

Le misure dell’inquinamento idrico spesso sono fornite come medie mensili; in Italia spesso manca il dato di agosto, coincidente con il mese di ferie. Calcolare il 9° decile della serie di 11 valori

12, 10, 8, 7, 14, 27, 29, 21, 14, 11, 9

Dopo aver ordinato per rango i valori

7, 8, 9, 10, 11, 12, 14, 14, 21, 27, 29

 il 90° percentile

R0,9 = (11 – 1) x 0,9  + 1 = 9 + 1 = 10

risulta il 10° valore, per cui Q0.9 è uguale a 27.

Se è corretto che la mediana o R0,5 sia uguale esattamente al sesto valore, è indubbiamente una stima approssimata che tutti i decili da 1 a 9, come indicano i calcoli, risultino esattamente i valori che occupano le posizioni dalla seconda alla decima.

 

E’ utile ricordare quanto affermato da Peter Armitage e Geoffry Berry (in Statistica Medica, metodi statistici per la ricerca in medicina, 3a edizione, in italiano, McGraww-Hill Libri Italia srl, Milano 1996, a pag. 33):

-  ” Si noti che non esiste un’unica procedura standard nel calcolo dei quartili (e dei quantili). Le diverse convenzioni conducono, comunque, a piccole e insignificanti differenze tra i risultati finali”.

 

Con eccezione della sola mediana, non appare possibile definire quale sia il metodo migliore. Le differenze tra i diversi risultati, come nel caso di dati fortemente anomali, possono anche essere di quantità rilevanti, contrariamente a quanto affermato da Armitage; ma è un’incertezza insita nella variabilità delle osservazioni campionarie e nel numero limitato di osservazioni.

Di conseguenza,

è evidente la difficoltà di pervenire a conclusioni generali e condivise, attraverso analisi fondate sui quantili.

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007