trasformazionI dei dati;

test per normalita’ e PER OUTLIER

 

 

 13.9. L’OUTLIER: DATO ANOMALO O DATO SBAGLIATO?  DEFINIZIONI DI OUTLIER

 

 

Un outlier, in italiano tradotto con i termini dato anomalo o valore fuori limite, è una osservazione che appare differente dalle altre dello stesso gruppo. Il concetto spesso è limitato a un solo dato; ma può essere esteso a più valori contemporaneamente, rispetto al gruppo più ampio di osservazioni raccolte nelle stesse condizioni. In termini più tecnici,

un dato è outlier quando non appare consistente con gli altri,

 cioè quando altera uno o più parametri contemporaneamente tra media, varianza e simmetria.

 

Nel manuale pubblicato dal Dipartimento di Ricerca della Marina Militare Americana nel 1960 (Statistical Manual by Edwin L. Crow, Frances A. Davis, Margaret W. Maxfield, Research Department U. S: Naval Ordnance Test Station, Dover Publications, Inc., New York, XVII + 288 p.), in seguito utilizzato anche da altri dipartimenti della difesa americana, sono chiamati gross errors. Sono definiti come quei valori che possono apparire troppo grandi oppure troppo piccoli allo sperimentatore, tali da suscitargli il timore che la loro presenza alteri i risultati reali.

Ma qual è il risultato reale? Quello che li comprende oppure quello che li esclude?

 

In tempi più recenti, vari autori di testi di statistica applicata forniscono una determinazione ancor più sfumata di outlier, definendoli quelli inconsistenti rispetto all’ambiente nel quale sono stati osservati. Non è solamente il confronto con gli altri, ma il contesto delle analisi di laboratorio o quello naturale in cui sono stati rilevati, che li fa definire outlier.

 

E’ una impostazione che altri criticano, se non altro per la carenza di criteri condivisi.

B. E. Rodda nel 1990 in Bioavailability: design and analysis (pubblicato su Statistical Methology in the Pharmaceutical Sciences, Berry D. A. ed., Marcel Dekker, New York, p.78) afferma: ... they are very difficult to define and are only called outlier because they are inconsistent with the environment in which they are observed.

 

Queste definizioni legate al “concetto dell’apparire differente”, implicano una valutazione soggettiva. Nel loro volume Outliers in statistical data del 1994 (3rd ed. Chichester, John Wiley & Sons), V. Barnett e T. Lewis enfatizzano questa idea, affermando che

-  un outlier è tale quando suscita una sorpresa genuina nell’osservatore.

Di conseguenza, dipende dalla conoscenza personale del fenomeno. Come enunciazione di un principio, questa indicazione può essere accettabile, quando si tratta di un fenomeno che rientra nella cultura generale; ma persone differenti possano classificare diversamente lo stesso dato.

 

Esempi di conoscenza comune nella individuazione di un dato anomalo possono essere tratti, ad esempio,  dalla misure di (a) peso e di (b) altezza di un gruppo di maschi adulti.

 

A)  Si osservi il peso in Kg di un gruppo di maschi adulti, come nella seguente serie già ordinata


 

65

69

75

78

80

81

85

130

 

 

La presenza dell’ultimo valore, una persona che pesa 130 Kg, non è tale da suscitare meraviglia in molte culture, anche se è il doppio del peso minore: in molte popolazioni non è raro trovare individui adulti di quel peso.

 

B) Nella serie successiva di altezze in cm sempre di maschi adulti

 

160

166

170

172

180

182

195

230

 

 

 si pone un problema di credibilità per l’ultimo dato: 230 cm di altezza sono un valore eccezionale nell’esperienza di ogni persona. E, in questo caso, è solo il 44% in più dell’altezza minima rilevata in quel campione, mentre il peso di 130 Kg era il 100% in più di quello minimo.

 

In fenomeni meno noti, quali la quantità di colesterolo in maschi adulti oppure in giovani donne, il livello di ozono in una città, quello di radioattività emessa naturalmente da una roccia, la valutazione non è altrettanto semplice, per persone non sufficientemente esperte. Inoltre, per decidere scientificamente, si pone il problema

-  di ricavare dai dati una stima espressa in termini probabilistici,

-  che, a partire dagli stessi dati, induca i ricercatori alle medesime conclusioni,

-  sulla base di concetti e metodi condivisi.

 

Prima di avviare la discussione se un dato è anomalo, sulla base della loro lunga esperienza di elaborazione di dati statistici per gruppi o intere strutture di ricovero e di ricerca, molti statistici suggeriscono di chiedersi se il dato è semplicemente sbagliato.

Geoff R. Norman e David L. Streiner nel loro testo del 1998 Biostatistics: The Bare Essentials (pubblicato da B. C. Decker, Inc. Hamilton, Ontario, Canada), tradotto in italiano da Giovanni Capelli e Giovanni D’Abramo nell’anno 2000 con il titolo Biostatistica. Quello che avreste voluto sapere (edito da Casa Editrice Ambrosiana, Milano XII + 260 p.) con il loro stile intelligente e scherzoso di presentare i problemi della statistica (a pag. 202 - 203) scrivono: Idealmente, questo paragrafo avrebbe dovuto chiamarsi “Scovare i dati sbagliati”, perché è questo il nostro obiettivo: trovare i dati che sono riusciti a eludere tutti i nostri sforzi per identificare gli errori prima che arrivassero all’archivio finale del nostro studio (aggiungendo, nella nota: Ci sono parecchi metodi per fare qualcosa del genere, a cominciare dal doppio inserimento dei dati seguito da una verifica delle differenze tra i due archivi. Ma se state leggendo questo libro per cercare altri metodi finalizzati a questo, avete preso quello sbagliato: andate a cercare su qualcun altro).

Ad esempio, se avete passato la notte in bianco e oggi vi si incrociano gli occhi, è possibile che inseriate sul computer 42 anni invece di 24 per l’età di uno dei soggetti: potreste non riuscire mai ad accorgervi dell’errore. Infatti, tutti e due questi valori stanno molto probabilmente all’interno  dell’intervallo dei valori ammessi nel vostro studio e non avete indizi che possano far sospettare che voi (o qualche vostro collaboratore) abbiate fatto confusione. Il meglio che si può fare è andare a verificare i dati che si trovano fuori dell’intervallo di valori attesi o se sono presenti incongruenze nell’ambito di un singolo soggetto.

 

In questo settore, ogni disciplina ha i suoi metodi per scoprire gli errori. Poiché le cause sono diverse, in un testo generalista sono inutili i dibattiti statistici su di essi e le discussioni tecniche sui fattori che li possono determinare. Quelli più frequenti, comuni a molte discipline, sono:

1)  un funzionamento errato, anche se temporaneo, dello strumento;

2)  una contaminazione in analisi di laboratorio;

3)  il tecnico che ha interpretato male il risultato;

4)  un errore nella lettura e/o successiva scrittura del dato, in uno dei vari passaggi dalla prima rilevazione all’analisi statistica.

 

Ma può essere un valore reale, che è solamente molto grande o molto piccolo entro i valori estremi della distribuzione delle osservazioni.

 

La ricerca dei dati anomali, che possono non essere giudicati valori sbagliati, può avere varie finalità:

-  la stima della media o della varianza reale di un fenomeno, una volta che siano stati eliminati gli outlier;

- la identificazione degli outlier per distinguerli dai valori normali e studiare le cause che li hanno generati;

-  la motivazione per passare dalla statistica parametrica a quella non parametrica nella scelta del test;

-  la giustificazione per una trasformazione dei dati;

- a volte è la eliminazione dell’outlier dal gruppo, per effettuare un test parametrico che rispetti le condizioni di validità.


 

Secondo alcuni autori, la individuazione degli outliers per questa ultima finalità, cioè l’applicazione corrette di un test parametrico, è solo un problema teorico. Nella pratica sperimentale, può essere ignorato ai fini dell’inferenza statistica: è sufficiente ricorrere a procedure robuste, cioè a metodi i cui risultati non sono alterati dal mancato rispetto delle condizioni di normalità, omoschedasticità e simmetria.

Nel suo testo del 1996 Applied multivariate statistics for the social sciences (3rd. Ed. Mahwah, NJ, Lawrence Erlbaum Associates, Publishers), J. Stevens condivide questa impostazione per la statistica multivariata. A maggior ragione, può essere applicata alla statistica univariata e a quella bivariata. Ad esempio, è nota la robustezza del test t di Student per due campioni indipendenti, rispetto alle assunzioni di normalità.

 

Ma non tutti gli studiosi sono dello stesso parere. Molti ritengono necessario decidere se nei dati sono presenti degli outlier, ai fini della scelta più corretta del test, pure rilevando le difficoltà di tale operazione di identificazione, che sono attribuite a tre cause principali.

 

1)  Nel suo volume del 1998 Data driven statistical methods (London, Chapman & Hall), P. Sprent annota con ironia che molti test, proposti per evidenziare la presenza di uno o più outliers in un campione di dati, perdono potenza quando essi sono presenti. Si parla di masking effect o di influential observation:

- la potenza di un test per evidenziare un outlier è compromessa, quando esso è presente.

 

2) La seconda serie di problemi deriva dall’effetto delle dimensioni del campione, quando il giudizio è di tipo occhiometrico, per usare ancora il linguaggio di Norman e Streiner, secondo i loro traduttori.

Lo stesso dato

-   può apparire outlier, se il campione è formato da poche unità;

-   non risultare outlier, se il campione è formato da almeno due decine di osservazioni.

James E. De Muth nel suo testo del 1999 Basic Statistics and Pharmaceutical Statistical Applications (edito da Marcel Dekker, Inc. New York, XXI + 596 p. a pag. 530-531) con un esempio mette in evidenza come lo stesso dato

- possa apparire anomalo in un campione di 6 osservazioni

- mentre non risulti più un outlier se le osservazioni diventano 12.

Si assuma che nell’analisi chimica di una concentrazione e riportati nella tabella seguente, siano stati ottenuti

-  prima i 6 dati della prima riga

-  successivamente gli altri 6 della seconda riga della tabella sottostante

 

97

98

98

95

86

99

98

98

97

99

98

95

 

 

Il numero 86 della prima riga, a  molti può apparire un outlier. Ma lo è?

Applicando il principio della consistenza del dato, vale a dire se la presenza o meno del dato altera le statistiche del campione, è stato misurato l’impatto del potenziale outlier sulle misure di  tendenza centrale e di variabilità dei due campioni. Nella tabella successiva sono stati analizzati

- solo la prima riga, senza il valore 86;

- solo la prima riga, con il valore 86;

- i 12 dati delle due righe.

 

 

 

Misure

Riga 1

 

Riga 1 + 2

Senza 86

Con 86

Dimensioni 

5

6

12

Media 

97,4

95,5

96,5

Deviazione st.

1,5

4,8

3,5

Range o Diff. Massima

4

11

11

Mediana

98

97,5

98

 

 

I risultati mostrano come

-  analizzando solo la prima riga, le statistiche differiscono sensibilmente se si comprende oppure si esclude il valore 86;

- mentre analizzando tutti i 12 dati, le statistiche (media e deviazione standard) si avvicinano molto a quelle calcolate per la prima riga,  quando non comprendono il valore 86.

Con tale analisi,

-  se disponessero solo dei primi 6 dati, probabilmente molti affermerebbero che 86 è un outlier;

-  ma, disponendo dei 12 dati, altrettanto facilmente direbbero che 86 non è un outlier.


 

Il numero minimo di dati per decidere se è presente un outlier è tre. Naturalmente, più dati sono presenti più è probabile che un dato sia identificato come tale. I metodi di identificazione fondati sulla logica statistica, come tutti i test, sono impostati in modo tale che

-  con un campione piccolo la discrepanza deve essere molto grande, quando i dati sono pochi,

-  mentre essa si riduce, quando i dati aumentano.

Di conseguenza, diversamente dal masking effect, l’effetto del numero è più apparente che reale, quando l’analisi è condotta seguendo i metodi statistici

 

3)  Il terzo gruppo di difficoltà deriva dal tipo di distribuzione ipotizzata.  Nel 1943, R. A. Fisher in un articolo in collaborazione con A. S. Corbet e C. B. William, dal titolo The relation between the number of species and the number of individuals in a random sample of a animal population (pubblicato su Journal of Animal Ecology Vol. 12, pp. 42 – 57), nel conteggio di insetti raccolti con una trappola riporta la seguente distribuzione di 15 osservazioni, qui ordinata in modo crescente per meglio evidenziarne le caratteristiche statistiche:

 

 

3

3

4

5

7

11

12

15

18

24

51

54

84

120

560

 

 

Il valore 560 è un outlier?

Riprendendo questi dati,  V. Barnett e T. Lewis nel loro volume del 1994 Outliers in statistical data (3rd ed., Chichester, John Wiley  and Sons) affermano che quasi tutti i test statistici portano ad affermare che 560 è un outlier. Questo a causa del fatto che molti test ipotizzano la distribuzione normale dei dati, sia nel caso in cui il valore sospettato è escluso, sia quando è compreso. Anche test di statistica non parametrica indurrebbero ad affermare che 560 è un outlier.

In realtà non lo è. La distribuzione di un conteggio di questi insetti è fortemente asimmetrica, come possono facilmente capire coloro che sanno che queste specie vivono in sciami.

Sciami

 

Oltre a queste incertezze sulla necessità e sui metodi per identificare un outlier, il dibattito verte su come effettuare test che siano condivisi, almeno per compiere una scelta sulla base di una probabilità corretta, non su quella di una semplice impressione. Nel loro volume già citato, V. Barnett e T. Lewis riportano 48 metodi statistici per identificare uno o più outlier, solamente rispetto all’assunzione di normalità. In letteratura esistono proposte anche per altre distribuzioni, quali la binomiale, la poissoniana, la gamma, … .

Una prima serie di metodi, di uso molto semplice, sono derivati dalle rappresentazioni grafiche delle distribuzioni.

Esse evidenziano visivamente la distanza di un valore dalla media del gruppo e/o dalla sua distribuzione complessiva; ma non forniscono la probabilità di errore nella decisione di considerarlo un outlier. Esistono vari programmi informatici che evidenziano la presenza potenziale di un outlier, sulla base della sua collocazione rispetto a tutti gli altri dati del gruppo.

 

 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007