IL DISEGNO SPERIMENTALE:

CAMPIONAMENTO, PROGRAMMAZIONE DELL’ESPERIMENTO E POTENZA

 

 

23.2.  CAMPIONI NON PROBABILISTICI E CAMPIONI PROBABILISTICI, CON USO DELLE TAVOLE DI NUMERI CASUALI

 

 

Nel 1908, presentando la distribuzione t, Student scriveva: “Ogni esperimento può essere visto come un caso di una popolazione di esperimenti, condotti nelle stesse condizioni. Una serie di esperimenti è un campione estratto da questa popolazione”. In questa definizione la popolazione è teorica, come nel modello dell’inferenza statistica, essendo composta da un numero infinito di misure. Molti esempi del testo hanno utilizzato questa definizione di popolazione. E’ anche il caso dell’esperienza di Gosset (Student), che effettuava analisi chimiche nella birreria in cui era il responsabile del “controllo di qualità”: ogni campione formato da un gruppo di misure del prodotto poteva essere visto come un caso estratto casualmente da una popolazione teoricamente infinita.

Ma in varie situazioni ambientali e biologiche, la popolazione è concreta e delimitata; pertanto, il problema consiste nel ricavare da essa l’informazione desiderata.

Se la popolazione è piccola, come i grandi laghi di una regione o i corsi d’acqua che attraversano una provincia, come il numero di ammalati di una malattia rara o residenti su un territorio circoscritto, può essere conveniente raccogliere dati su tutta la popolazione. Tuttavia spesso la popolazione è grande, anche se finita. Quindi a causa del tempo e delle risorse disponibili, che in tutte le ricerche sono limitate, è possibile misurarne solamente una parte. Il problema diventa: come costruire questo campione, in modo che esso fornisca informazioni corrette su tutta la popolazione?

 

Nella scelta di un campione esistono metodi probabilistici e non probabilistici.

Nel campionamento probabilistico, ogni unità dell’universo ha una probabilità prefissata e non nulla di essere inclusa nel campione, anche se non uguale per tutte.

Nel campionamento non probabilistico, detto campionamento a scelta ragionata, si prescinde dai criteri di scelta totalmente casuale delle unità campionarie. E’ una tecnica adatta a piccoli campioni, in cui le unità sono scelte sulla base di scopi estranei ai principi statistici.

Si supponga, a causa di ridotte disponibilità economiche, di poter attrezzare una sola stazione di rilevamento dell’inquinamento dell’aria in una città. Diventa utile collocarla in una zona ritenuta rappresentativa dell’inquinamento medio oppure di quello massimo della città. Se sono possibili solo due o tre stazioni, potranno essere scelte località con i valori massimi oppure una con il valore ritenuto massimo e l’altra con il valore minimo; ancora, è ugualmente accettabile la scelta di zone ritenute “tipiche” del fenomeno, quindi  con valori ritenuti vicini alla tendenza centrale di tutta l’area.

E’ possibile anche seguire criteri totalmente differenti, non sulla base della variabile che si vuole analizzare, quale la quantità di sostanza inquinante, ma sulla base di un altro fattore ritenuto importante dal punto di vista sociale o economico, quale le zone con la popolazione residente maggiore oppure quelle più note alla popolazione, ritenute di maggior interesse per usi specifici, quali la sede del municipio, il centro storico o i giardini.

 

Per indagini sulla popolazione, sono campionamenti non probabilistici anche quelli definiti di convenienza, come i campioni volontari, utilizzati soprattutto nelle indagini sociologiche o a carattere medico ed epidemiologico, oltre al campione a valanga o a palla di neve.

Si utilizzano campioni di convenienza, come in sondaggi sulla politica ambientale di un comune, quando ad esempio le domande sono rivolte solamente alle persone appartenenti al volontariato. Si ricorre a campioni a valanga, quando ad esempio si devono effettuare ricerche sulla produzione di rifiuti particolari, in prevalenza collegati a professioni specifiche, quali le gomme o le batterie da auto, vernici, frigoriferi. I metodi cosiddetti a valanga o a palla di neve sono applicati soprattutto nel caso di popolazioni rare, i cui componenti sono in gran parte ignoti e non registrati in modo completo: da un gruppo iniziale noto, si possono ottenere informazioni per risalire agli altri individui appartenenti alla stessa categoria.

 

Nonostante il ricorso a questi modelli per esigenze specifiche, nella ricerca ambientale con frequenza maggiore vengono utilizzati i campionamenti probabilistici.

 

Il metodo fondamentale è il campionamento casuale semplice senza ripetizione (simple randon sampling o random sampling without replacement), in cui ogni individuo della popolazione ha le stesse probabilità di essere inserito nel campione. Un campione è detto estratto a caso (in inglese at random da cui randomizzazione per indicare il campionamento casuale) quando tutte le unità della popolazione hanno la stessa probabilità di entrare a far parte del campione.

Lo scopo del campionamento casuale è di eliminare la possibilità che la scelta del campione risulti viziata dalla condotta del ricercatore. Un campione quando è affetto da un errore sistematico è detto campione viziato o distorto. In inglese si usa il termine bias, che dovrebbe essere tradotto letteralmente con peso eccedente, poiché si è in presenza di un effetto che sistematicamente si somma a ogni osservazione del campione. Ne deriva che la somma degli errori sarà differente da zero, ma in modo diverso dalle fluttuazioni generate dal campionamento stesso; quindi le fluttuazione dovute a bias non sono controllabili, cioè sono non stimabili e perciò non eliminabili, mentre quelle dovute alle variazioni casuali sono prevedibili e quantificabili con la distribuzione normale. E’ classico l’esempio di bias nella scelta delle cavie in un esperimento farmacologico, per verificare l’effetto di un sedativo rispetto al placebo, quando i due gruppi sono formati collocando nel primo la parte iniziale degli animali catturati inserendo un braccio nella gabbia e il secondo gruppo con la parte finale. Anche inconsciamente per il ricercatore, i più lenti con probabilità maggiore finiranno nel primo gruppo, mentre i più vivaci finiranno in netta maggioranza nel secondo gruppo, alterando il risultato di una quantità ignota. In termini scherzosi, si parla di campionamento a casaccio, diverso dal corretto e scientifico campionamento a caso.

Spesso non è facile riconoscere a priori le sorgenti di un errore sistematico. L’esperienza dimostra che in varie ricerche il bias, insospettato al momento del campionamento, si evidenzia al momento della valutazione dei risultati. La validità dell’esperimento è compromessa in modo irrimediabile.

 

Sebbene non sia quello più utilizzato, il metodo random riveste grande importanza teorica, poiché rappresenta il termine di confronto di tutti gli altri piani di campionamento e ne misura l’efficienza relativa.

Come nel gioco del lotto, le unità sono estratte una alla volta, mentre quelle rimanenti hanno la stessa probabilità di essere estratte successivamente. Si utilizzano numeri casuali, che fino ad alcuni anni fa erano presi da tabelle e ora spesso sono prodotti mediante computer, con un metodo chiamato Monte Carlo, fondato su estrazioni caratterizzate dall’assenza di una legge di ordinamento o di successione.

 

Due campioni casuali semplici senza ripetizione sono considerati distinti, se contengono almeno un elemento differente; il loro numero è dato dalle combinazioni di N elementi n a n

 dove N è il numero di individui che formano la popolazione e n quello che forma il campione,

 mentre la probabilità di un campione specifico è 1/.

 

Il campionamento sistematico o scelta sistematica è un altro metodo semplice, basato su principi simili e con risultati identici al precedente: da un elenco numerato degli individui che formano la popolazione, dopo l’estrazione casuale della prima unità effettuata con un numero random, si selezionano gli individui successivi a distanza costante. A tale scopo, occorre predeterminare la frazione di campionamento. Per esempio, se da una popolazione di 1000 individui se ne vogliono estrarre 50, dall’elenco si deve estrarre una unità ogni 20, a distanza costante. Se il primo numero estratto è stato 6, le unità campionate successive saranno 26, 46, 66, … .

E’ importante la scelta del primo numero. Deve essere fatta in modo da assicurare, ovviamente a priori, che tutte le unità abbiano la stessa probabilità di fare parte del campione.

La scelta sistematica è assimilata alla scelta casuale., anche perché tutta la lista a sua volta deve essere casuale, cioè non avere una disposizione sistematica: non vi deve essere alcuna relazione tra la grandezza statistica che si vuole analizzare e l’ordine degli elementi sulla lista. In condizioni differenti, conduce a errori sistematici.

 

Nel campionamento casuale semplice con ripetizione, le n unità del campione vengono estratte con ripetizione e con probabilità costante, uguale a 1/N. Due campioni sono considerati distinti se contengono almeno una unità differente oppure le stesse unità ma in un ordine differente. Il numero di campioni possibili è determinato dalle disposizioni con ripetizione di N elementi presi n a n, equivalente a Nn  e il singolo campione ha probabilità 1/Nn.

Anche in questo caso, si possono utilizzare i numeri casuali, con l’avvertenza che se un numero compare più volte l’unità corrispondente deve essere inserita nel campione altrettante volte.

 

Il campionamento casuale stratificato rappresenta un raffinamento di quello casuale; richiede la conoscenza delle caratteristiche della popolazione, per aumentare l’efficienza del metodo di estrazione per formare il campione. La differenza fondamentale da quello totalmente casuale è che la popolazione prima è divisa in gruppi tra loro omogenei (detti appunto strati) e l’estrazione casuale è esercitata all’interno di essi, in modo indipendente per ognuno, come se si trattasse di tanti campioni casuali semplici. La stratificazione può essere fatta sulla base di due o più caratteri.

Nella ricerca ambientale, spesso la stratificazione è intesa in senso geografico: dopo aver prefissato il numero di unità da rilevare per ogni zona, l’estrazione dalla popolazione avviene per caso. Offre l’opportunità di ottenere risultati distinti per ogni area e quindi un miglioramento delle stime. In generale, la stratificazione aumenta la precisione delle stime, senza richiedere un aumento del numero totale di unità campionate

Si supponga di avere una popolazione in cui i maschi siano il 60% e le femmine il 40% e di voler esaminare l’altezza media. Poiché i maschi che sono più alti delle femmine, un campionamento totalmente casuale che non distingua a priori tra i sessi non permetterebbe di produrre campioni bilanciati e potrebbe determinare una media totale distorta, se la proporzione tra i sessi nel campione risultasse differente da quella della popolazione. Insieme con la stratificazione in sessi, se importanti per il parametro altezza, si potrebbero considerare anche altre stratificazioni, come quella per età.

Con n1 modalità del primo fattore (sesso) e n2 modalità del secondo (classe d’età), il numero di strati è n1 x n2.

Per suddividere le unità di campionamento in k strati, i criteri principali sono due

- il criterio proporzionale,

- il criterio costante o ottimale,

Il criterio proporzionale consiste nel fare in modo che i vari strati, ad esempio le classi d’età in una intervista, abbiano nel campione la stessa proporzione presente nella popolazione. Le medie calcolate  sugli intervistati possono essere riferite direttamente alla popolazione.

Il criterio costante, cioè quello di formare strati con lo stesso numero di unità, presenta il vantaggio di fornire medie dei vari strati che hanno tutte la stessa precisione. E’ vantaggioso in particolare quando i dati raccolti servono per test che confrontino le medie dei vari strati. Determina un vantaggio nella precisione complessiva, come evidenziato per i campioni bilanciati, da cui il termine di criterio ottimale. La media generale di questo campione ovviamente non coincide con quella della popolazione. Per ritornare alla media della popolazione, le medie dei vari strati devono essere  moltiplicate per la proporzione presente nella popolazione.

 

Il campionamento casuale a grappoli è utilizzato quando gli individui sono suddivisi, in modo naturale oppure artificiale, in gruppi legati da vincoli di contiguità. Caratteristica distintiva del metodo è che le unità non sono scelte in modo diretto, ma estratte in quanto appartenenti a un certo gruppo.

Ad esempio, per rispondere alle domande di un questionario sul traffico, si immagini di interrogare tutti gli abitanti di alcune vie, scelte in modo casuale o ragionato. Le domande sono rivolte agli individui, ma la scelta è avvenuta sulla base della strada in cui la persona risiede.

Per analisi dell’inquinamento idrico di una regione, si immagini di rilevare tutti i laghi o i fiumi ma solamente in alcune aree prestabilite, che sono scelte a caso.

Spesso il motivo principale di tale procedimento è la mancanza di un censimento completo delle unità da rilevare, per cui nel questionario si interrogano tutti coloro che abitano in alcune vie e nella ricerca dei laghi alcune zone sono battute a tappeto. Il metodo ha lo svantaggio di contenere un numero variabile di unità entro ogni gruppo e di omettere dei gruppi. Per tale motivo, in genere è meno efficiente del campionamento casuale semplice.

 

Il campionamento a due stadi, detto anche campionamento a grappoli con sotto-campionamento, è analogo a quello a grappoli in quanto le aree da campionare sono scelte come i grappoli. Questo metodo si differenzia dal precedente, in quanto solo una parte delle unità elementari contenute nei grappoli fanno parte del campione. Al primo stadio, o livello, si estraggono i grappoli, chiamati unità primarie; al secondo, si estraggono le unità secondarie o elementari. Utilizzando ancora l’esempio precedente, si scelgono dapprima le aree entro le quali misurare l’inquinamento dei laghi e successivamente entro esse i laghi, operando ad ogni livello sempre con campionamento puramente casuale oppure ragionato.

Il metodo può essere generalizzato con facilità e quindi essere esteso al caso di 3 o più stadi.

Ad esempio, per analizzare i laghi di una regione,

-  si scelgono dapprima due o tre province,

-  poi alcune zone entro le province prescelte,

- infine una certa percentuale di laghi entro le zone già stabilite,

- uguale per tutte le zone.

 

Il campionamento con probabilità variabili si differenzia dai precedenti, in quanto le unità sono scelte con probabilità differenti. Le modalità sono numerose. Per illustrare il metodo, può essere utile il concetto di scelta dei laghi:

- dopo aver fissato le aree,

- si formano gruppi di laghi, secondo le dimensioni o l’importanza ad essi attribuita;

- la proporzione di laghi può essere diversa per ogni gruppo, eventualmente una funzione delle loro dimensioni. Se una provincia è molto più grande delle altre, il numero di laghi da campionare in essa sarà maggiore.

Il vantaggio di tale procedimento è quello di una rappresentatività migliore ai fini del criterio di classificazione e attribuzione delle probabilità di estrazione: i laghi maggiori, quindi presumibilmente quelli più importanti dal punto di vista turistico, economico o di rifornimento idrico, hanno probabilità maggiori di essere estratti.

 

Nei vari tipi di campionamento, seppure a livelli differenti, compare quasi sempre il campionamento casuale o random. Il metodo appare semplice e intuitivo, con l’uso di tavole dei numeri casuali. Esse sono riportate su molti testi, anche se in quelli più recenti è raro; ma quasi mai sono spiegate le modalità corrette del loro impiego, nemmeno a livello iniziale

Le tavole di numeri casuali, di cui è allegato un esempio, sono costruite in modo da non avere vizi sistematici. Sono serie di numeri tra 0 e 9, disposti a caso e caratterizzati dall’avere una distribuzione rettangolare, cioè uniforme. Le serie possono essere utilizzate per estrarre a caso numeri di una o più cifre; a motivo delle dimensioni abituali di un esperimento, quelli utilizzati con frequenza maggiore sono di due cifre. Se servono numero di tre cifre, è sufficiente prendere i prime tre oppure gli ultimi tre di ogni serie (di 4  nella tabella riportata, ma spesso nei testi sono serie sono di 5 cifre).

Dalla tabella, che è sempre opportuno che sia di grande dimensioni, nettamente superiori a quelle del campione, i numeri possono essere scelti con un criterio qualsiasi. Ad esempio, procedendo

- dal basso verso l’alto oppure viceversa,

- da sinistra verso destra oppure nell’altra direzione,

- in modo continuo oppure a intervalli regolari,

 ma sempre rispettando la stessa regola, fissata prima della lettura dei dati e mai modificata sulla base dei primi numeri estratti.


 

ESEMPIO DI TAVOLA DI NUMERI CASUALI

 

8966           4502           4212           3823           9379           2769           4171           4532           4396           8245

7696           4571           2687           1746           1025           8219           3327           8770           4519           1141

2876           0813           3178           2656           0690           1574           5372           8523           7683           9302

5783           6711           4842           3206           7816           5713           3766           1089           1043           0481

3292           4223           2418           1250           9077           9677           2164           4339           8770           4653

5463           8195           5500           6858           4448           8753           4618           1394           4601           3757

2903           2172           4041           9143           8353           4025           5604           3510           5117           5264

7494           7119           2588           2651           3733           2718           1234           1368           5439           5009

1434           0441           2694           3474           6611           4083           9086           8908           9716           3892

9295           5133           8685           8077           6872           9474           9440           1248           8846           7883

5216           1653           2632           4104           3317           0636           2287           5567           3781           7634

7210           7101           6499           7741           0520           7367           0256           8041           0498           9314

3814           1620           0987           0790           7880           7792           4313           7298           1222           0109

3380           0481           3502           0650           9957           7314           7622           1329           6934           1790

1395           7128           9993           5948           0286           4253           8044           7892           5201           2015

8872           7536           5521           5924           8138           4187           1175           6661           2001           5994

0430           8098           6550           4087           4176           6572           3950           3516           4675           2575

3597           5707           3074           1896           8046           2543           2263           2986           9237           6778

0818           9956           6957           1284           0081           9964           5646           0660           4944           8640

3373           9282           7235           4210           1741           0742           4511           8366           0068           9776

6964           3121           4841           6236           8831           9451           8183           7345           0157           9003

4371           7758           6077           2547           8225           7870           1970           7895           3709           0506

9800           7785           8421           4210           9565           2771           3204           9465           8525           1429

0289           3665           7507           3552           1248           1417           7133           7661           8910           7826


 

Ad esempio, se da una disponibilità di 80 cavie precedentemente numerate devono esserne scelte 15 per un esperimento, è possibile partire dalla quinta riga e procedere in orizzontale muovendosi poi verso il basso, leggendo le prime due cifre di ogni serie. Sono scelti i primi 15 numeri di due cifre, escludendo quelli maggiori di 80 e quelli già sorteggiati.

 

Applicando a un caso i numeri random della tabella a partire dalla quinta riga e procedendo verso destra e poi verso il basso, risulterebbero estratti i numeri riportati nella prima riga sottostante.

 

 

32

42

24

12

90

96

21

43

87

46

54

81

55

68

44

87

46

13

46

37

29

21

40

 

 

 

 

X

X

 

 

X

 

 

X

 

 

 

X

X

 

X

 

 

X

 

 

 

Tra essi sarebbero poi esclusi quelli indicati con X nella seconda riga, in quanto superiori a 80 oppure già estratti.

 

Una applicazione leggermente più complessa può essere l’estrazione di un campione con assegnazione casuale a più gruppi, come nell’analisi della varianza totalmente randomizzata. Ad esempio, sempre da un gruppo di 80 cavie disponibili, scegliere 15 elementi da assegnare a tre trattamenti, ognuno di 5 unità.

Per attribuire i numeri estratti ai vari trattamenti, i metodi sono numerosi. Uno abbastanza diffuso è

- dividere il numero estratto (esempio 32) per il numero di gruppi (in questo caso 3):

32/3 = 10 con resto 2

- utilizzare il resto della divisione (2), che potrà variare da 0 a k, per assegnare il numero estratto a uno dei tre gruppi (indicati con A, B e C). Ad esempio,

- con resto = 0, assegnare l’individuo al gruppo A

- con resto = 1, assegnare l’individuo al gruppo B

- con resto = 2, assegnare l’individuo al gruppo C

- e procedere fino a quando tutti i k gruppi hanno il numero di unità prestabilite.

Ad esempio, con gli stessi dati dell’esperimento precedente, si ottiene l’assegnazione riportata nwlla tabella successiva:

- il calcolo dei resti, riportati nella terza riga,

- determina l’assegnazione al gruppo riportata nella quarta riga.


 

 

32

42

24

12

90

96

21

43

87

46

54

81

55

68

44

87

46

13

46

37

29

21

40

 

 

 

 

X

X

 

 

X

 

 

X

 

 

 

X

X

 

X

 

 

X

 

2

0

0

0

X

X

0

1

X

1

0

X

1

2

2

X

X

1

X

1

2

X

1

C

A

A

A

X

X

A

B

X

B

A

X

B

C

C

X

X

B

X

B

C

X

X

 

 

Risultano scelti

-  per il gruppo A i numeri:  42,  24,  12,  21,  54;

- per il gruppo B i numeri:   43, 46, 55,  13,  37; il successivo numero 40 è scartato poiché il gruppo B è già completo;

- per il gruppo C i numeri:  32,  68,  44, 29. Questo gruppo ha solamente 4 unità.

Pertanto di deve proseguire l’estrazione con le stesse regole, fino all’individuazione del quinto numero per il gruppo C.

Proseguendo nella tabella dei numeri casuali a partire dall’ultimo estratto in precedenza (quindi dalla 7 riga 4 colonna), risultano estratti

 

 

91

83

40

56

--

--

X

X

X

 

--

--

X

X

X

2

--

--

X

X

X

C

--

--

 

 

 i numeri riportati nella prima riga di questa tabella (91, 83, 40, 56).

Dopo aver scartato i primi tre numeri, in quanto

- i primi due sono maggiori di 80

- e il terzo è già stato estratto,

 il gruppo C risulta completato con il numero 56, il cui resto è 2.

Ovviamente, se il resto fosse stato differente, anche questo numero sarebbe stato scartato e si sarebbe dovuto continuare sino a trovare un individuo che permettesse di completare anche il gruppo C.


 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007