VERIFICA DELLE IPOTESI

TEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTA

E TEST SULLA VARIANZA

CON INTERVALLI DI CONFIDENZA

4.2 PERCHE’ P < 0.05 ? E’ UN RITO OPPURE UNA SCELTA RAZIONALE?

Un concetto importante per i suoi aspetti pratici, più volte enunciato nel paragrafo precedente e applicato negli esempi di test già svolti, è il livello di significatività dei test, convenzionalmente fissato in P = 0.05. Dagli anni ’60, il termine statisticamente significativo (statistically significant) è sinonimo di . Gli altri limiti convenzionali sono e .

Perché è stato universalmente accettato il valore ?

Ha un effettivo valore dirimente, per separare il vero dal falso, il probabile dall’improbabile, oppure le stesse conclusioni possono essere raggiunte con valori di probabilità leggermente inferiori o superiori al rischio ?

Questo limite è un rito oppure una scelta razionale?

Sono domande che molti si pongono all'inizio di un corso di statistica, per decidere se un test è risultato effettivamente significativo. Per rispondere, è utile conoscere le vicende storiche che hanno portato la comunità scientifica ad adottare questa prassi.

All'inizio del '900, dopo aver calcolato un valore Z o il oppure un coefficiente di correlazione (il test di Student e il test per l'ANOVA verranno dopo l’anno 1925 e sranno presentati da Fisher nel suo testo), si potevano utilizzare le tabelle pubblicate da Karl Pearson nel 1914 Tables for Statisticians & Biometricians.

In esse erano riportate in dettaglio lunghe serie di valori di probabilità .

Nella pratica degli statistici applicati e dei biometristi, il volume Karl Pearson è sostituito nel 1925 dalla prima edizione del testo di R. A. Fisher Statistical Methods for Research Workers, nel quale sono presentati i test noti in quegli anni e sono riportate le tabelle dei valori critici. Resterà il testo più importante fino agli anni ‘50, appaiato più tardi dal volume di Snedercor e Cochran intitolato Statistical methods, che ha la prima edizione nel 1937 e proseguirà fino alla fine degli anni’80.

Il testo di Fisher è progressivamente aggiornato, senza un aumento rilevante del numero di pagine, fino alla 14^a edizione (con varie ristampe) del 1970. In questo volume, Fisher riporta sempre una selezione limitata dei valori di probabilità, abbreviando notevolmente la serie dei valori già pubblicati da Pearson.

Nel 1938, insieme con Frank Yates, Fisher stampa un volume di sole tabelle Statistical Tables for Biological, Agricultural, and Medical Research, che ancora oggi sono riprodotte su molti testi di statistica. Anche in esse è riportata solamente una selezione dei valori di probabilità.

Perché; partendo dal lungo elenco di probabilità di Pearson, Fisher arriva alla riduzione ad alcuni valori, che pertanto diventano più importanti degli altri? Secondo i testi di storia della statistica, esistono motivi determinati da fattori contingenti e altri generati da scelte motivate tecnicamente.

Le scelte contingenti sono lo spazio ridotto che nel volume poteva essere dedicato alle tabelle e il fatto che per pubblicarle Fisher doveva ottenere il permesso di Pearson, ma da tempo si trovava in forte contrasto con lui. Nel capitolo di I. D. J. Bross intitolato Critical Levels, Statistical Language and Scientific Inference (nel volume del 1971 di V. P. Godambe and Sprott (eds.) Foundations of Statistical Inference, Toronto, Holt, Rinehart & Winston of Canada), Jack Good nella sezione discussion (pag. 513) scrive:

- Kendall mentioned that Fisher produced the tables of significance levels to save space and to avoid copyright problems with Karl Pearson, whom he disliked.

La sintesi operata da Fisher ha anche motivazioni suggerite dall’uso del suo testo. Come dice il titolo, è scritto per gli addetti alla ricerca, non per studiosi di statistica. Pertanto ha uno scopo eminentemente pratico: fornisce una selezione di probabilità, che semplifica la scelta e aiuta nella decisione.

Le giustificazioni di logica statistica per attribuire a = 0.05 uno status speciale sono riportate in alcune pubblicazioni di Fisher. Già nell’articolo del 1926 The arrangement of field experiments (su Journal of the Ministry of Agriculture of Great Britain Vol. 33, pp.: 503 – 513), scrive

- (a pag. 504 ) … it is convenient to draw the line at about the level at which we can say: ”Either there is something in the treatment, or a coincidence has occurred such as does occur more than once in twenty trials.” …

- (a pag. 504) Personally, the writer prefers to set a low standard of significance at the 5 per cent point, and ignore enterily all results wich fail to reach this level. A scientific fact should be regarded as experimentally established only if a properly designed experiment rarely fails to give this level of significance.

E ancora, nella 13^a edizione (1956) del suo testo Statistical Methods for Research Workers (New York, Hafner), descrivendo l’uso della distribuzione normale:

- (a pag. 44) The value for which = 0.05, or 1 in 20, is 1.96 or nearly 2; it is convenient to take this point as a limit in judging whether a deviation ought to be considered significant or not.

Pure definendo i limiti in modo così preciso e netto, Fisher applica anche un uso più elastico delle probabilità P, in funzione degli scopi della ricerca, della distribuzione dei dati e delle dimensioni del campione. Sempre nel testo del 1956, scrive:

- (a pag. 80) In preparating this table we have borne in mind that in practice we do not want to know the exact value of P for any observed , but, in the first place, whether or not the observed value is open to suspicion. If P is between 0.1 and 0.9 there are certainly no reason to suspect the hypothesis tested. If it is below 0.02 it is strongly indicated that the hypothesis fails to account for the whole of the facts.

L’interpretazione deve essere collegata alla conoscenza della disciplina e lasciare spazio alla presenza di dubbi, quando il risultato del test non appare del tutto logico.

In un test , Fisher stima una probabilità che cade tra 0.05 e 0.02. Nella interpretazione del risultato, egli non giunge ad affermazioni categoriche:

- (a pag. 137) The result must be judged significant, though barely so; in view of the data we cannot ignore the possibility that on this field, and in conjunction with the other manures used, nitrate of soda has conserved the fertility better than sulphate of ammonia; the data do not, however, demonstrate this point beyond the possibilty of doubt.

Anche un campione piccolo ( = 14) diventa un fattore di incertezza, nella interpretazione di una probabilità relativamente alta, compresa tra 0.05 e 0.10. Le conclusioni sono sfumate:

- (a pag. 139-140) We find ... t =1.844 (con df 13 e P = 0.088) …though relatively large, cannot be regarded as significant. There is not sufficient evidence to assert that culture B was growing more rapidly than culture A.

Questo approccio di Fisher e della sua scuola (Yates fu suo assistente presso l’Istituto di ricerca in Agricoltura di Londra) a una interpretazione spesso attenuata e problematica, che alcuni definiscono di apparent inconsistency, è in forte contrasto con Jerzy Neyman (1894-1981), che in collaborazione con Egon Sharpe Pearson (1896-1980, figlio di Karl) tra il 1928 e il 1933 propone la teoria del test d’ipotesi. Secondo questo approccio, il valore di deve essere prefissato e utilizzato per una decisione netta, derivante dal concetto che il risultato del test può essere solamente significativo oppure non significativo. (When Neyman and Pearson proposed using P value as absolute cutoff in their style of fixed-level testing, Fisher disagreed strenuously).

La scelta meccanica di accettazione/rifiuto (acceptance/rejection) dell’ipotesi nulla assume un ruolo fondamentale nella teoria di Neyman-Pearson. All’opposto Fisher ritiene corretto

- riportare il valore di

- e interpretarne scientificamente l’evidenza.

La diversa opinione deriva anche dal fatto che Neyman e Pearson si rifanno alla statistica bayesiana, mentre Fisher alla inferenza frequentista.

I due differenti approcci può essere entrambi corretti, ma in situazioni differenti. La teoria di Neyman-Pearson è ritenta appropriata con campioni grandi e ripetuti. Il caso classico può essere il controllo di qualità, nel quale la proporzione di difetti può essere prefissata a priori, sulla base di calcoli di convenienza. Una macchina deve essere senza dubbio fermata, se la quantità di scarti da essa prodotti supera il limite prefissato.

Nel caso di campioni piccoli, con l'uso della distribuzione binomiale, quella ipergeometrica e dati di rango, la distribuzione delle probabilità è discreta. Il suo valore può passare da probabilità piccole, vicine a 0.01 a probabilità maggiori di 0.05, modificando solamente un risultato del campione. Fissare il valore critico a 0.05 (come indica l'approccio di Neyman e Pearson) secondo Yates è un comportamento illogico, che determina una perdita informazione. La scelta di un valore prefissato può essere corretto solamente in una distribuzione asintotica, che è possibile ricavare solamente quando il campione è grande.

Questo problema è ora da tempo superato con l’uso di programmi informatici. Disponendo di una memoria molto ampia e utilizzando procedimenti diversi per stimare la tabella dei valori critici, si ottiene una stime di probabilità molto precisa, non solo l’indicazione se essa è maggiore o minore di 0.05.

Nella interpretazione della significatività di un test statistico, come evidenziato in un esempio di Fisher, si pone il problema della sua rilevanza disciplinare. Ad esempio, un test statistico sulla quantità di farmaco, emesso da una bomboletta spray tarata per emettere ogni volta 55 milligrammi e condotto su un campione di 2000 unità, evidenzia che una differenza di 2 milligrammi risulta significativa, con una probabilità <0.001. Quindi, senza dubbio, la quantità media emessa da due bombolette con questa differenza è staticamente rilevante. Tuttavia, sotto l’aspetto medico o clinico, un errore di 2 milligrammi appare insignificante, per un farmaco che deve essere emesso con media uguale a 55 milligrammi. La conclusione sul test deve prendere in considerazione gli aspetti disciplinare, non limitarsi al solo risultato statistico.

D. J. Bross nel volume del 1971 Critical Levels, Statistical Language and Scientific Inference (V. P. Godambe and Sprott (eds.) Foundations of Statistical Inference, Toronto, Holt, Rinehart & Winston of Canada) evidenzia che ogni disciplina studia fenomeni che hanno una variabilità più o meno grande e quindi i test forniscono probabilità molto differenti. Ad esempio, nella ricerca medica e ancor più in quella psicologica, dove la variabilità individuale è alta, molto raramente si ottiene una probabilità < 0.001. Rispetto all’epoca di Fisher, nella pratica corrente attuale, il valore 0.02 è stato sostituito da 0.01. However, science has seen fit to continue letting 0.05 retain its special status denoting statistical significance.