VERIFICA DELLE IPOTESI

TEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTA

E TEST SULLA VARIANZA

CON INTERVALLI DI CONFIDENZA

4.6. STIMA APPROSSIMATA DELLLA VARIANZA DELLA POPOLAZIONE; IL CRITERIO DI COHEN PER LA SCELTA DI b; L’EFFETTO DELLA MEDIA SULLA POTENZA

Nella ricerca ambientale, biologica e farmacologica, in molte situazioni sperimentali la varianza vera o della popolazione (s²) è ignota. E’ il caso in cui si studia una variabile nuova, che nelle discipline ambientali può essere un nuovo inquinante, nella ricerca farmacologica gli effetti di un principio attivo non ancora sperimentato. Un metodo molto semplice ma approssimato per stimare s² è fondato sulla conoscenza del campo di variazione o range, definito come la differenza tra il valore massimo e il valore minimo presenti nella popolazione.

Anche quando la varianza è ignota, tale differenza è quasi sempre nota, sia a qualsiasi ricercatore con un minimo di esperienza per i fattori che studia quotidianamente, sia ai responsabili del controllo di qualità di una azienda per il processo di cui è responsabile. Per esempio, con esclusione di pochi esperti di biometria, a quasi tutti è ignota la varianza dell’altezza in ragazze ventenni; ma quasi tutti sanno che, per la quasi totalità di esse, l’altezza potrà variare approssimativamente tra 155 e 185 centimetri.

Disponendo di questa semplice indicazione del campo di variazione (x_max - x_min), è possibile dedurre

- un valore massimo della varianza, attraverso la disuguaglianza

s² £ (X_max - X_min.)² / 4

presentata, in altri testi, anche come

- stima della deviazione standard massima

s £ (X_max - X_min.) / 2

Questo computo del valore massimo determina stime prudenziali

- sia di , poiché nei calcoli risulterà maggiore di quanto effettivamente necessario,

- sia della potenza , che nei calcoli risulterà minore di quella reale.

Con i dati dell’esempio,

si ottiene che la varianza dell’altezza in donne ventenni è approssimativamente s² = 225.

E’ una base spesso sufficiente, per una prima stima di b, d, nella programmazione di un test.

La scelta di a e di b sono soggettive.

Ma alcuni esperti di statistica applicata hanno fornito indicazioni operative, giustificate della loro esperienza e delle loro conoscenze teoriche. Come già illustrato nei primi paragrafi di questo capitolo, per il valore da attribuire ad a il criterio è il costo del rifiuto dell’ipotesi nulla, quando essa è vera.

Per b, quindi per la probabilità di non trovare una differenza che effettivamente esiste, è conveniente utilizzare il criterio di Jacob Cohen, proposto nel 1969 nel volume Statistical Power Analysis for the Behavioral Sciences (New York, Academic Press a pag. 54).

(Per un approfondimento di tutti i temi relativi alla potenza dei test si suggerisce, dello stesso autore Jacob Cohen e con lo stesso titolo, la seconda edizione pubblicata nel 1988 da Lawrence Erlbaum Associates, Hillsdale, New Jersey.)

Il criterio di Cohen

- è una indicazione che ha il solo pregio di apparire ragionevole;

- è basata sul buon senso pratico, ma che non ha nessuna base teorica.

Secondo tale proposta,

- il valore di b è legato alla scelta di a, secondo la relazione:

b = 4a

- che, tradotto in rapporto alla potenza, diventa

1 - b = 1 - 4a

Così, se l’errore di primo tipo è a = 0.01, è ragionevole scegliere l’errore di secondo tipo b = 0.05.

Oltre al precedente, i rapporti utilizzati con frequenza maggiore sono:

- a = 0.02 e b = 0.10

- a = 0.05 e b = 0.20

- a > 0.05 e b = 0.25.

L’unica giustificazione della proposta di Cohen è che, scegliendo un valore di b minore di quelli da lui indicati, si ha un forte incremento delle dimensioni () del campione richiesto. La sua proposta offre quindi il vantaggio di un ottimo rapporto

- tra i costi della ricerca, che sono fortemente influenzati da ,

- e la probabilità di trovare con l'esperimento il risultato atteso, che è valutata dalla potenza .

Inoltre, sulla base dell’esperienza di ricercatori esperti e noti come ottimi conoscitori della statistica, il rischio b indicato appare un buon compromesso con il rischio a predeterminato.

Ma è solamente una indicazione.

Il ricercatore può ignorarla, se nell’esperimento che sta programmando vuole che il rischio b sia piccolo. Ad esempio, può essere il caso in cui in azienda egli deve dimostrare che il prodotto che ha proposto è migliore del precedente. Ovviamente è interessato a ridurre al minimo la probabilità che, per solo affetto delle variazione casuali del campione, l’esperimento fallisca. Tanto più che il costo dell’esperimento è a carico dell’azienda, mentre il vantaggio di una potenza elevata () ricade su di lui.

Nella terminologia statistica, si usano anche i termini di potenza a posteriori e potenza a priori.

- L’indice è chiamato anche potenza a posteriori, in quanto è prassi valutarla dopo il test, quando il risultato non si è dimostrato significativo. Infatti, nella discussione conclusiva, diventa logico chiedersi: “Ma quale era la probabilità che il test non risultasse significativo?”

- Il numero minimo di osservazioni o repliche da raccogliere è chiamato anche potenza a priori, poiché quasi sempre è all’inizio di una ricerca che ci si pone la domanda: “Quanti dati è necessario raccogliere?”

Un altro aspetto pratico e concettuale molto importante è che le dimensioni delle medie campionarie e quelle delle medie della popolazione sono del tutto ininfluenti sulle stime della potenza di un test. Tale concetto è insito nelle formule utilizzate, che sono fondate sui 5 parametri ripetutamente citati, ma spesso sfugge al ricercatore che non abbia sufficiente familiarità con la statistica.

Infatti, negli esempi utilizzati nei paragrafi precedenti per stimare l’errore la potenza del test nel caso di un campione, è stata utilizzata una differenza di 3 punti tra le media dell’ipotesi nulla m₀ = 100 e la media dell’ipotesi alternativa m₁ = 103. Se un nuovo confronto fosse tra m₀ = 10 e m₁ = 13 potrebbe apparire che il test abbia una potenza maggiore del precedente, in quanto

- mentre nel primo si verificava la significatività di una differenza del 3%,

- nel secondo si verifica la significatività di una differenza pari al 30%.

E’ una valutazione errata. Il confronto non è tra percentuali. Poiché i parametri d e a restano invariati, se anche la varianza resta inalterata si mantengono uguali sia l’errore b sia il numero di dati necessari .