elementi di statistica descrittiva

Per DISTRIBUZIONI UNIVARIATe

1.3. Tipi di dati e scale di misurazione

Nell’analisi statistica, occorre porre sempre molta attenzione alle caratteristiche dei dati. Già la fase dell’esperimento che conduce alla raccolta delle informazioni è un punto fondamentale, poiché da essa dipendono sia i metodi di descrizione, sia i test da applicare.

Schematicamente, esistono due tipi di variabili casuali, alle quali sono associati due tipi di dati: le variabili qualitative e le variabili quantitative.

Le variabili qualitative o categoriali sono quantificate con conteggi, ossia con numeri interi e discreti. Ad esempio, per valutare gli effetti di un tossico è possibile contare quante cavie muoiono o sopravvivono; con un farmaco, quanti pazienti guariscono o restano ammalati, entro un tempo prefissato; con esperimenti sulle leggi di Mendel, quante piante hanno fiori rossi o bianchi.

Le variabili quantitative richiedono risposte numeriche, espresse su una scala continua. Ad esempio, per un’analisi del dimorfismo animale, dopo la separazione in maschi e femmine, si possono misurare il peso e l’altezza di ogni individuo.

I dati che si raccolgono per analisi statistiche possono quindi essere discreti o continui. Questa suddivisione, ormai storica nella presentazione ed elaborazione dei dati, è stata resa più chiara e funzionale dalla classificazione delle scale di misurazione proposta dallo psicologo S.S. Stevens nel 1946, (vedi l’articolo On the theory of scales of measurement, pubblicato su Science, vol. 103, pp.:677-680). Tale classificazione è stata aggiornata nel 1951 con le operazioni statistiche “ammissibili” e in seguito divulgata da S. Siegel, nel suo manuale "Statistica non parametrica" del 1956.

Una presentazione ampia e dettagliata può essere trovata pure nell’ultima edizione del testo di S. Siegel e N. J. Castellan del 1988 (Nonparametric Statistics for the Behavioral Sciences, 2^nd ed., Mc Graw Hill, New York), tradotto anche in italiano.

Le misure possono essere raggruppate in 4 tipi di scale, che godono di proprietà formali differenti; di conseguenza, esse ammettono operazioni differenti. Come per tutte le discipline, una scala di misurazione dei fenomeni biologici ed ambientali può essere:

1) nominale o classificatoria;

2) ordinale o per ranghi;

3) ad intervalli;

4) di rapporti.

1.3.1. La scala nominale o classificatoria è il livello più basso di misurazione. E’ utilizzata quando i risultati possono essere classificati o raggruppati in categorie qualitative, dette anche nominali ed eventualmente identificate con simboli. I caratteri nominali, detti anche “sconnessi”, costituiscono variabili le cui modalità o attributi non assumono alcun ordine precostituito. In una popolazione animale si possono distinguere gli individui in maschi e femmine, contando quanti appartengono ai due gruppi; con una classificazione a più voci, possono essere suddivisi e contati secondo la loro specie.

Nella scala nominale o qualitativa, esiste una sola relazione, quella di identità: gli individui attribuiti a classi diverse sono tra loro differenti, mentre tutti quelli della stessa classe sono tra loro equivalenti, rispetto alla proprietà utilizzata nella classificazione.

Un caso particolare è quello dei caratteri dicotomici che possono assumere solo due modalità, spesso indicate in modo convenzionale con 0 e 1 oppure + (più) e – (meno).

L'attribuzione di numeri per identificare categorie nominali, come avviene per individuare i giocatori nei giochi di squadra, è solamente un artificio che non può certamente autorizzare ad elaborare quei numeri come se fossero reali, ad esempio calcolandone la media. Quando per la classificazione dei gruppi al posto di nomi vengono usati numeri, si utilizza solo la funzione di identificazione degli elementi numerici come se fossero simboli; ma con tale trasformazione non si determina una informazione differente dalla precedente o ad essa aggiuntiva.

L’operazione ammessa è il conteggio degli individui o dei dati presenti in ogni categoria.

I quesiti statistici che possono essere posti correttamente riguardano le frequenze, sia assolute che relative.

Sono possibili confronti tra frequenze osservate (es.: "Una classe è significativamente più numerosa dell’altra? Le varie classi hanno tutte lo stesso numero di individui, escludendo le variazioni casuali?") oppure tra le frequenze osservate e le rispettive frequenze attese sulla base di leggi biologiche, ipotesi od altro (es.: "I risultati ottenuti da un esperimento sulle leggi di Mendel sono in accordo con la sua distribuzione teorica?").

1.3.2. La scala ordinale o per ranghi rappresenta una misurazione che contiene una quantità di informazione immediatamente superiore a quella nominale; essa assume modalità logicamente sequenziali, non importa se in ordine crescente o decrescente.

Alla proprietà precedente di equivalenza tra gli individui della stessa classe, si aggiunge una graduazione tra le classi o tra individui di classi differenti.

Con la precedente scala nominale, si ha la sola informazione che gli individui appartenenti a gruppi differenti sono tra loro diversi, ma non è possibile stabilire un ordine.

Con la scala per ranghi, le differenti classi possono essere ordinate sulla base dell’intensità del fenomeno. (es.: Si supponga che il risultato di un reagente sia di colorare in verde una serie di provette, secondo la quantità di sostanza contenuta. E’ possibile mettere in ordine le provette secondo l'intensità del colore, per avere una stima approssimata della quantità di sostanza contenuta. Se si confrontano tre o più provette con intensità di colore differente, è facile stabilirne l'ordine; rimane impossibile misurare ad occhio la quantità di colore di ognuna e la differenza esistente tra esse).

Questa misura ha un limite fondamentale. In una scala ordinale, non è possibile quantificare le differenze di intensità tra le osservazioni.

Alcune risposte, apparentemente definite a livello qualitativo o nominale, in realtà possono contenere una scala ordinale o di rango, seppure con molte ripetizioni. E’ il caso della suddivisione in giovane, adulto ed anziano per l'età; oppure della classificazione in insufficiente, sufficiente, discreto, buono ed ottimo in valutazioni di merito.

Forniscono l’informazione di una scala ordinale anche

- misure che sono rappresentate con simboli, come

--, -, =, +, ++.

- raggruppamenti convenzionali o soggettivi in classi di frequenza variabili come

0, 1-2, 3-10, 11-50, 51-100, 101-1.000, >1.000

Resta l’impossibilità di valutare quanto sia la distanza tra insufficiente e sufficiente; oppure se essa sia inferiore o superiore alla distanza tra buono ed ottimo.

La scala ordinale o per ranghi è pertanto una scala monotonica. Alle variabili così misurate è possibile applicare una serie di test non parametrici; ma non quelli parametrici. In questi casi, non sarebbe possibile utilizzare quei test che fanno riferimento alla distribuzione normale, i cui parametri essenziali sono la media e la varianza, poiché non si possono definire le distanze tra i valori.

Tuttavia questa indicazione di massima sulla utilizzazione della statistica non parametrica è spesso superata dall'osservazione che variabili discrete o nominali tendono a distribuirsi in modo approssimativamente normale, quando il numero di dati è sufficientemente elevato. Per coloro che sono nella fase iniziale delle applicazioni statistiche, permane sempre molta incertezza sulla scelta dei test più appropriati; infatti permane un’ampia varietà di opinioni su quando il numero di osservazioni sia sufficientemente elevato, per ottenere una distribuzione normale. Nel seguito del corso, l’argomento sarà discusso in molte situazioni reali, a chiarimento dei criteri di scelta dei test.

1.3.3. La scala ad intervalli aggiunge la proprietà di misurare le distanze o differenze tra tutte le coppie di valori. La scala di intervalli si fonda su una misura oggettiva e costante, anche se il punto di origine e l'unità di misura sono arbitrari. Esempi classici di scale ad intervalli sono la temperatura (misurata in gradi Celsius o Fahrenheit, ma non Kelvin) ed il tempo (misurato secondo calendari differenti). Valori di temperatura, oltre a poter essere facilmente ordinati secondo l’intensità del fenomeno, godono della proprietà che le differenze tra loro sono direttamente confrontabili e quantificabili; le date di qualsiasi calendario, non importa se gregoriano, islamico, ebraico o cinese, possono essere tra loro ordinate dalla più antica a quella più recente e le differenze temporali sono misurate con precisione oggettiva.

Ma la scala ad intervalli ha un limite, non gode di un'altra proprietà importante nella elaborazione statistica dei dati, quella del rapporto tra coppie di misure

Ad esempio, una temperatura di 80 gradi Celsius non è il doppio di una di 40 gradi. Se una persona ponesse la mano destra in una bacinella con acqua a 80 gradi e la mano sinistra in un’altra con acqua a 10 gradi, non direbbe certamente che la prima scotta 8 volte più della seconda, ma solo che la prima è molto calda e la seconda fredda.

In una scala ad intervalli, solo le differenze tra i valori sono quantità continue e isomorfe alla struttura dell'aritmetica. Solo per le differenze sono permesse tutte le operazioni: possono essere tra loro sommate, elevate a potenza oppure divise, determinando le quantità che stanno alla base della statistica parametrica.

Da una scala d’intervalli è possibile scendere ad una scala di ranghi (es.: utilizzando solo l’informazione dell’ordine dei valori) oppure ad una scala nominale (es.: suddividendo le misure in alte e basse, sopra o sotto un valore prefissato). Pertanto, la scala d’intervalli gode anche delle proprietà definite per le due scale precedenti.

Nella presentazione dei test non parametrici verranno discusse le situazioni in cui, avendo dati misurati su scale d’intervalli o di rapporti, è conveniente scendere nel tipo di scala seppure con una perdita d’informazione.

1.3.4. La scala di rapporti ha il vantaggio di avere un’origine reale. Sono tipiche scale di rapporti l'altezza, la distanza, la velocità, l'età, il peso, il reddito, la temperatura in gradi Kelvin; più in generale, tutte quelle misure in cui 0 (zero) significa quantità nulla.

Non solo le differenze, ma gli stessi valori possono essere moltiplicati o divisi per quantità costanti, senza che l'informazione di maggiore importanza, il rapporto tra essi, ne risulti alterata.

Alle variabili misurate con una scala di rapporti, il tipo di misurazione più sofisticato e completo, può essere applicato qualsiasi test statistico. Possono essere utilizzati anche la media geometrica ed il coefficiente di variazione, i quali richiedono che il punto 0 (zero) sia reale e non convenzionale.

Pure con una scala di rapporti è possibile scendere nella scala di misurazione, trasformandola in una scala di rango o addirittura qualitativa. Ovviamente, si ha una perdita ancor più rilevante della quantità d’informazione, che essa fornisce; di conseguenza, rappresenta un’operazione che deve essere evitata, quando non imposta da altre condizioni dell’analisi statistica o dalle caratteristiche della distribuzione dei dati.

Riassumendo i concetti fondamentali esposti,

- nella scala nominale, esistono solo relazioni di equivalenza;

- in quella ordinale, alla precedente si aggiungono relazioni di minore o maggiore di;

- in quella ad intervalli alle due precedenti si aggiunge la relazione di rapporto tra ogni coppia d’intervalli;

- nella scala di rapporti si ha anche la quarta relazione di rapporto conosciuto tra ogni coppia di valori.

Come sarà più volte discusso nei prossimi capitoli, anche nella ricerca e nella gestione ambientali occorre porre estrema attenzione al reale significato da attribuire ai valori numerici che vengono utilizzati. Si possono avere numeri che apparentemente hanno le stesse caratteristiche, ma che in realtà richiedono elaborazioni diverse ed impongono il ricorso a test differenti, per rispondere ai medesimi quesiti. Per esempio, i grammi di una determinata sostanza inquinante sciolta in un litro d’acqua, la percentuale di questa sostanza sul peso complessivo, il punteggio della qualità dell’acqua determinata dalla presenza di quella sostanza sono misure che utilizzano scale diverse.

- Nel primo caso, si ha una classica scala di rapporti ed è possibile usare test parametrici, se la distribuzione dei dati è normale;

- nel secondo caso, è possibile utilizzare le stesse procedure statistiche e gli stessi test parametrici, solamente dopo apposita trasformazione dei valori;

- nel terzo, si ha una scala di ranghi, poiché la reale informazione fornita da questa serie di punteggi è solo quella di una graduatoria della qualità, nella quale non hanno reale significato né i rapporti né le differenze tra loro.