elementi di statistica  descrittiva

Per  DISTRIBUZIONI  UNIVARIATe

 

 

1.4.              classificazione in tabelle

 

 

Un insieme di misure è detto serie statistica o serie dei dati. Quando la serie non è ordinata, si ha un insieme disordinato di numeri che non evidenzia le caratteristiche fondamentali del fenomeno.

Una sua prima ed elementare elaborazione può essere una distribuzione ordinata di tutti i valori, in modo crescente o decrescente, detta seriazione.

Il valore minimo e il valore massimo insieme permettono di individuare immediatamente il campo (od intervallo) di variazione.

 

Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche appartengono ad ogni gruppo o categoria.

Si ottiene una distribuzione di frequenza o di intensità, detta anche semplicemente distribuzione.

Come prima applicazione, è utile considerare un caso semplice: una variabile discreta ottenuta da un conteggio del numero di foglie, germogliate su 45 rami di lunghezza uguale.

 

Tabella 1. Numero di foglie contate su 45 rami.

 

5

6

3

4

7

2

3

2

3

2

6

4

3

9

3

2

0

3

3

4

6

5

4

2

3

6

7

3

4

2

5

1

3

4

3

7

0

2

1

3

1

5

0

4

5

 

 

Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi:

-  è sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9),

-  contando quante volte compare ogni modalità di espressione (cioè quanti sono i rami con un numero di foglie uguali).

Queste informazioni di norma sono presentate in una tabella impostata come la seguente:

 

 

Tabella 2. Distribuzione di frequenze assolute e relative delle foglie in 45 rami.

 

Classe

x

0

 1

 2

 3

 4

 5

 6

 7

 8

 9

Freq.  Assoluta

n

3

 3

 7

12

 7

 5

 4

 3

 0

 1

Freq.  Relativa

f

0,07

0,07

0,15

0,27

0,15

0,11

0,09

0,07

0,00

0,02

Freq.   Cumulata

---

0,07

0,14

0,29

0,56

0,71

0,82

0,91

0,98

0,98

1,00


 

in cui:

-   la classe è una modalità di espressione (in questo caso un valore o conteggio);

-   la frequenza assoluta della classe è il numero di volte con la quale compare ogni valore;

-   la  frequenza relativa della classe è la sua frequenza assoluta divisa per il numero totale;

-   la frequenza cumulata di una classe (che può essere stimata con quelle assolute e/o con quelle relative) è la somma di tutte le frequenze delle classi minori con quella della classe stessa.

 

La trasformazione da frequenza assoluta a frequenza relativa risulta utile quando si vogliono confrontare due o più distribuzioni, che hanno un differente numero complessivo di osservazioni.

La frequenza cumulata offre informazioni importanti quando si intende stimare il numero totale di osservazioni inferiore (o superiore) ad un valore prefissato (ad es.: il 71% dei rami ha meno di 5 foglie; il 56% ha un massimo di 3 foglie).

La distribuzione dei dati e la distribuzione delle frequenze cumulate forniscono informazioni non dissimili, essendo possibile passare con facilità dall’una all’altra. Sono diverse nella loro forma, come si vedrà con maggiore evidenza nelle rappresentazioni grafiche. La prima ha una forma a campana, la seconda una forma a S, di tipo asintotico; si prestano ad analisi differenti e la scelta è fatta sulla base del loro uso statistico.

 

La distribuzione di frequenza offre una lettura rapida delle caratteristiche più importanti della serie di dati. Nella tabella precedente, il ramo “tipico” ha 3 foglie; se dovessimo sintetizzare con un solo valore il numero di foglie presenti sui rami raccolti diremmo 3, che rappresenta la tendenza centrale. Altra caratteristica importante è il numero minimo e il numero massimo, 0 e 9, che insieme forniscono il campo di variazione, una indicazione della variabilità o dispersione. La distribuzione del numero di foglie tende ad diminuire in modo simile allontanandosi da 3, seppure mantenga frequenze più alte nelle classi con un numero maggiore di foglie: sono indicazioni sulla forma della distribuzione, che in questo esempio non è simmetrica (ma asimmetrica) rispetto alla tendenza centrale, a causa di un eccesso dei valori più alti.

 

Nella costruzione di tabelle sintetiche (come la tabella 2 rispetto alla 1) uno dei problemi più rilevanti è quante classi di frequenza costruire. La scelta dipende strettamente dal numero totale N  di osservazioni e, in misura minore, dalla variabilità dei dati.

Se, in riferimento alla dimostrazione precedente, i dati fossero stati in numero inferiore ai 45 presentati (ad esempio i 15 valori della prima riga), il campo di variazione sarebbe stato più ridotto (non più da 0 a 9, ma da 2 a 9). Le classi non sarebbero state 10 come prima, ma solamente 8.

Tuttavia, come si può osservare dai dati, 8 classi per 15 osservazioni sarebbero ugualmente un numero troppo alto, per riuscire ad evidenziare e rappresentare in modo corretto le caratteristiche principali e la forma reale della distribuzione.

 

Le distribuzioni di frequenza tendono a mostrare la distribuzione reale del fenomeno solo quando è possibile utilizzare un numero sufficientemente elevato di osservazioni.

L’esperienza ha insegnato che il numero di classi abitualmente varia da un minimo di 4-5 (con N = 10-15) ad un massimo di 15-20 (con N > 100), in funzione del numero complessivo di osservazioni.

Un numero troppo basso di classi, raggruppando eccessivamente i dati, determina una perdita di informazione sulle caratteristiche della distribuzione e la rende non significativa; è intuitivo che una o due sole classi determinano l’impossibilità di evidenziare qualunque caratteristica della distribuzione. Inversamente, ma con un risultato finale simile, un numero troppo elevato di classi disperde i valori e non rende manifesta la forma della distribuzione.

 

Per stimare in modo oggettivo il numero di classi, sono stati proposti vari metodi; tra essi è utile ricordarne due:

1 - quello di H. Sturges che nel 1926, sulla base del numero di osservazioni N, ha indicato il numero ottimale di classi   C  con 

 

 

2 - quello di D. Scott che nel 1979 ha determinato l’ampiezza ottimale  h  delle classi (dalla quale ovviamente dipende direttamente anche il numero di classi C), mediante la relazione

 

 dove

S è la deviazione standard,

 che sarà presentata più avanti  tra le misure di variabilità dei dati.

Nella costruzione di distribuzioni di frequenza, non è strettamente obbligatorio utilizzare intervalli uguali, anche se è prassi consolidata per una lettura più semplice. Nel caso di classi di ampiezza diversa, la rappresentazione grafica ed il calcolo dei parametri fondamentali esigono alcune avvertenze, non sempre intuitive (di seguito presentate).


 

Nel caso di una variabile continua, il raggruppamento in classi richiede alcuni accorgimenti ulteriori rispetto a quelli utilizzati per una variabile discreta. Si supponga che sia stata misurata l’altezza in cm. di 40 giovani piante della stessa specie, arrotondata all’unità per semplificazione.

 

Tabella 3. Altezza in cm. di 40 giovani piante.

 

107

83

100

128

143

127

117

125

64

119

98

111

119

130

170

143

156

126

113

127

130

120

108

95

192

124

129

143

198

131

163

152

104

119

161

178

135

146

158

176

 

 

E’ evidente come non sia conveniente fare una classe per ogni cm., in analogia a quanto fatto con i dati della tabella 1. In questo caso, il numero di modalità sarebbe nettamente superiore al numero di osservazioni, anche se il campione avesse un numero di osservazioni doppio o triplo. Di conseguenza, si impone la necessità di un raggruppamento in classi, che comprendano più modalità di espressione.

Una volta individuato il valore minimo e quello massimo (64 e 198), si stabilisce l'intervallo di variazione (198 - 64 = 134). Nella formazione delle classi, il limite inferiore della prima classe ed il limite superiore dell’ultima classe non devono essere necessariamente i valori osservati, ma li devono ovviamente comprendere.  E quindi possibile costruire un campo di variazione, ad esempio di 140 cm. (sempre più ampio di quello calcolato), partendo da cm. 60 e arrivando a cm. 199 compresi. Sulla base del numero di dati (40), si decide il numero di classi. Nel caso specifico, potrebbero essere 7 classi, con un’ampiezza di 20 cm. ognuna.

E’ necessario definire con precisione il valore minimo e quello massimo di ogni classe, onde evitare incertezze nell'attribuzione di un singolo dato tra due classi contigue. Con i dati dell’esempio, le classi possono essere 60-79 la prima, 80-99 la seconda, 100-119 la terza e così via fino a 180-199 per l’ultima.

E’ da evitare la suddivisioni in classi come 60-80, 80-100, 100-120, …

 

Poiché la scala è continua, i cm. riportati devono essere intesi con almeno 2 cifre decimali, per cui nella classe 60-79 il primo numero deve essere inteso come  60,00 cm. e 79 come 79,99; nello stesso modo la classe 180-199 deve essere intesa tra i cm. 180,00 e 199,99.


 

Nonostante le indicazioni di massima presentate, la determinazione dei valori estremi, del numero di classi e dell'intervallo di ogni classe è ampiamente soggettiva. Nella costruzione di una tabella, la scelta soggettiva di una particolare serie o di un'altra può tradursi in una rappresentazione completamente diversa degli stessi dati. Per piccoli campioni, l'alterazione e le differenze possono essere sensibili; ma all'aumentare del numero di osservazioni, gli effetti delle scelte soggettive, quando non siano estreme, incidono sempre meno sulla concentrazione dei valori e sulla forma della distribuzione.

Tra le altre avvertenze importanti, è da ricordare che la classe iniziale e quella terminale non devono essere classi aperte (come < 80 quella iniziale e  180 quella finale). Con classi estreme aperte, si perde l'informazione del loro valore minimo o massimo e quindi del valore centrale di quella classe; la conseguenza è la perdita di un dato indispensabile, per calcolare la media della classe e quella totale, nonché tutti gli altri parametri da essa derivati. Come verrà successivamente chiarito, con tabelle in cui le classi estreme sono aperte viene impedita o resa soggettiva anche la loro rappresentazione grafica, per la quale è indispensabile conoscere con precisione il valore iniziale e quello terminale.

I dati della tabella 3 possono essere riportati in modo più schematico e più comprensibile, come nella seguente tabella 4.

 

Tabella 4. Distribuzione di frequenza assoluta e relativa (in %) dell'altezza di 40 giovani piante.

 

Classe

60-79

80-99

100-19

120-39

140-59

160-79

180-99

Freq. Assoluta

1

3

10

12

7

5

2

Freq. Relativa  %

2,5

7,5

25,0

30,0

17,5

12,5

5,0

Freq. Cumulata

---

2,5

10,0

35,0

65,0

82,5

95,0

100,0

 

 

Rispetto all'elenco grezzo dei dati, la tabella di distribuzione delle frequenze fornisce in modo più chiaro le indicazioni elementari contenute, in particolare la loro

-  posizione o dimensione (già chiamata anche tendenza centrale) e

-  la variabilità o dispersione.

Per evidenziare sia queste che altre caratteristiche della distribuzione dei dati raccolti, sovente è di aiuto una rappresentazione grafica che mostra in modo sintetico soprattutto

-   la forma, come la simmetria e la curtosi, quando si tratti di grandi gruppi di dati.

 

Ritornando al problema della rappresentazione tabellare dei dati riportati in tabella 3, secondo le indicazioni di Sturges il numero di classi C avrebbe dovuto essere

 

uguale a 6,34

dal quale si deduce anche un’ampiezza h =

circa 22 centimetri.

 

Secondo le indicazioni di Scott, l’ampiezza h delle classi avrebbe dovuto essere

 

uguale a circa 16,

dalla quale si deduce un numero di classi C

C =

uguale a 9 (8,84).

Ovviamente, il numero di classi calcolato (C = 8,84) deve essere arrotondato all’unità.

Secondo i due metodi proposti, con i dati della tabella 3 il numero di classi può ragionevolmente variare da 6 a 9; si evidenzia la correttezza della scelta di fare 7 classi, suggerita dalla semplicità di formare classi con un’ampiezza di 20 cm.

 

La rappresentazione dei dati in una tabella di frequenza offre i vantaggi descritti; ma soffre anche di alcune controindicazioni. Lo svantaggio maggiore deriva dal

- non poter conoscere come sono distribuiti i dati entro ogni classe.

 

Per stimare i parametri della distribuzione (media, varianza, simmetria, curtosi), viene quindi usato il valore centrale di ogni classe,

-  nell’ipotesi che in quell’intervallo i dati siano distribuiti in modo uniforme.

Rispetto alla distribuzione delle singole osservazioni, questa procedura comporta un’approssimazione, poiché

-  tale ipotesi operativa implicita non è vera

(il concetto sarà ripreso e dimostrato in paragrafi successivi).

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007