PROPORZIONI E PERCENTUALI, RISCHI, ODDS E TASSI

5.14. POTENZA A POSTERIORI (1-b) E A PRIORI (n) DEI TEST SULLA DIFFERENZA TRA DUE PROPORZIONI; BILANCIAMENTO DI DUE CAMPIONI.

Anche nel confronto tra le proporzioni (p₁ e p₂) di due campioni indipendenti, per valutare la significatività della loro differenza (p₁ – p₂), è possibile commettere errori di due tipi.

Il primo, chiamato errore di I Tipo (Type I error) o di prima specie, consiste nel

- dichiarare che la differenza tra le due proporzioni è significativa, quando in realtà è nulla.

E’ l'errore che ha avuto l’attenzione maggiore nelle pubblicazioni di statistica e nello studio dell’inferenza.

Ma, secondo vari autori di testi di statistica applicata, è un punto di vista puramente teorico. Nella realtà della ricerca, è una preoccupazione eccessiva, in quanto

- tale errore non è mai commesso nella pratica sperimentale.

Come già sottolineava Joseph L. Fleiss nel 1973 (nel cap. 3 del volume Statistical Methods for Rates and Proportion, John Wiley & Sons, New York), molti autori di testi di statistica applicata mettono in evidenza che

- quasi mai due popolazioni sono identiche, poiché inevitabilmente esiste sempre una differenza, per quanto piccola e insignificante essa possa essere.

Nella programmazione di un esperimento e nella analisi statistica dei dati, quando si cerca di dimostrare che una differenza è necessario non sbagliare neppure nell’altra direzione. Con questo non intendendo l’errore b o di II Tipo, ma

l'errore di ricercare la significatività di qualsiasi differenza, per quanto piccola possa essere.

E’ perciò indispensabile saper distinguere e combinare i concetti di significatività statistica e significatività biologica: è utile

- ricercare la significatività statistica solamente per differenze che hanno rilevanza biologica, ambientale od ecologica.

Nella programmazione di un esperimento, un ricercatore dovrebbe evidenziare solo le differenze d che assumono una importanza reale nella sua disciplina, non astrattamente una differenza di qualsiasi entità, anche trascurabile agli effetti pratici e inutile nella interpretazione dei risultati

Di conseguenza, nella programmazione dell’esperimento si deve evitare di raccogliere un campione molto più grande di quanto sia necessario per non commettere l’errore di II tipo, ma solo in rapporto al valore d predeterminato. Con un aumento ingiustificato del campione, si avrebbe un incremento dei costi e dei tempi oltre quanto è utile per conseguire il risultato con la significatività desiderata.

Per non commettere un errore di I tipo alla probabilità a,

- in un test bilaterale occorre che il valore critico di Z per la probabilità a/2 sia superiore al valore calcolato.

Il concetto è scritto come

|z| > C_a/2

e in un test unilaterale

|z| > C_a

dove C

è il valore critico riportato nella tabella della distribuzione Z.

Quando a = 0.05 tale valore è

- Z = 1,96 per un test bilaterale,

- Z = 1,645 per un test unilaterale.

Nello stesso tempo, quando si raccolgono i dati del campione, per non commettere un errore di II tipo alla probabilità b, che è sempre unilaterale, il valore critico di Z deve essere inferiore a quello corrispondente alla probabilità b

|Z| < C_b

Da questi concetti deriva la stima della potenza (1- b).

Secondo quanto proposto da L. A. Marascuilo e M. McSweeney nel loro testo di statistica non parametrica del 1977 (vedi: Nonparametric and Distribution-free Methods for the Social Sciences, edito da Brooks/Cole, Monterey, California, pp. 556),

- nel caso di un test bilaterale quindi con

H₀: p₁ = p₂ contro H₁: p₁ ¹ p₂

la potenza 1-b è ottenuta con

- nel caso di un test unilaterale, dipende dalla direzionalità:

a) per l’ipotesi nulla H₀: p₁ £ p₂ contro l’ipotesi alternativa H₁: p₁ > p₂

la potenza 1-b è ottenuta con

b) per l’ipotesi nulla H₀: p₁ ³ p₂ contro l’ipotesi alternativa H₁: H₀: p₁ < p₂

è ottenuta con

Nel suo testo del 1999 più volte citato (Biostatistical Analysis, fourth ed. edito da Prentice Hall, Upper Saddler River, New Jersey, pp. 663 + App. pp. 212), Jerrold H. Zar scrive: questo calcolo della potenza è basato sull’approssimazione al test esatto di Fisher e tende a produrre un risultato conservativo: la potenza reale è maggiore di quella calcolata con questa formula.

ESEMPIO 1 (APPLICAZIONE A UN TEST BILATERALE). In un quartiere con forte intensità di traffico veicolare, su 50 rilevazioni il 50% hanno superato i livelli di attenzione per NO₂.

In un periodo successivo, sono state effettuate 45 osservazioni. Quale è la potenza del test, perché una differenza di 0,15 risulti significativa alla probabilità a = 0.05?

Risposta. Per verificare l’ipotesi nulla

H₀: p₁ = p₂ contro l’ipotesi alternativa bilaterale H₁: p₁ ¹ p₂

è necessario dapprima calcolare p* con p₁ = 0,5 e p₂ supposto uguale a 0,35 (oppure uguale a 0,65).

Con n₁ = 50 e n₂ = 45

P* =

si ricava che il valore medio delle due frequenze è p* = 0,439.

Poiché

si ottiene

un valore della potenza (1-b)

uguale a Z = -3,48 nella coda sinistra e Z = 0,497 nella coda destra.

Al valore nella coda sinistra corrisponde una probabilità b uguale a P < 0.0001.

Al valore (arrotondato a +0,50) nella coda destra della distribuzione corrisponde una probabilità b uguale a P = 0.309.

Di conseguenza, la potenza 1-b del test è uguale a 0.3091 (0.309 + 0.0001).

ESEMPIO 2 (APPLICAZIONE A UN TEST UNILATERALE). In un quartiere con forte intensità di traffico automobilistico, su 50 rilevazioni esattamente il 50% hanno superato i livelli di attenzione per NO₂.

In un periodo successivo, sono state effettuate 45 osservazioni. Quale è la potenza del test, per dimostrare che una riduzione della proporzione di 0,15 risulta significativa alla probabilità a = 0.05?

Risposta. E’ un test unilaterale, con ipotesi nulla

H₀: p₁ £ p₂ contro l’ipotesi alternativa H₁: p₁ > p₂

Con

- p₁ = 0,5 e n₁ = 50

- p₂ = 0,35 e n₂ = 45

- p* = 0,439 e

mediante

si ottiene

un valore di .

Al valore nella coda destra della distribuzione corrisponde una probabilità P uguale a 0.429.

E’ la potenza 1-b del test.

Anche per stimare la potenza a priori, cioè per calcolare n, il numero minimo di dati da raccogliere per ognuno dei due campioni in un esperimento bilanciato (in quanto fornisce la potenza maggiore), le proposte sono numerose.

E’ possibile, come dimostrato per una sola proporzione, utilizzare le formule appena presentate per la potenza, procedendo per tentativi, in modo iterativo.

Con una presentazione più dettagliata di questo metodo,

- dopo aver scelto i valore di p₁, p₂ e Z_a per un test unilaterale oppure bilaterale

- si fissa un valore di n e si calcola la potenza (1-b),

- utilizzando una delle tre ultime formule presentate, in rapporto all’ipotesi da verificare.

Se la potenza risulta inferiore a quella prefissata, si aumenta n; se la potenza risulta maggiore, si può abbassare n.

Con la stessa logica, invece di modificare la potenza, si può cercare il numero di dati necessari in funzione di a oppure dei valori di p₁ e p₂ e della loro differenza, tenendo in considerazione anche la direzionalità dell’ipotesi. E’ un metodo che può servire per stimare ognuno degli altri parametri che entrano nella funzione, dopo aver predeterminato gli altri.

Un problema che si pone con frequenza è la necessità di raccogliere un campione di dati per il confronto con un campione già raccolto in precedenza: avendo già a disposizione il campione con n₁ e p₁ fissati, si vuole determinare il numero di dati da raccogliere nel secondo campione(n₂), affinché una determinata proporzione p₂ risulti significativa alla probabilità a e con il rischio b, in un test unilaterale o bilaterale. E’ il caso di un controllo a distanza di tempo dopo una prima analisi, per verificare un abbassamento significativo dei livelli d’inquinamento, conseguente a un’azione di risanamento; oppure un aumento, dopo l’attivazione di una potenziale sorgente d’inquinamento, quale un forno inceneritore per l’aria, una discarica per le falde acquifere, un deposito di idrocarburi per il suolo.

Ritornando alla stima del numero minimo di dati (n) per il confronto di due proporzioni (p₁ e p₂) in campioni indipendenti, in modo che la loro differenza (p₁ - p₂) risulti significativa alla probabilità a con un certo rischio b, sono state proposte varie formule abbreviate. Tra quelle ricorrenti con frequenza maggiore nei testi di statistica applicata, è possibile ricordare le proposte di J. L. Fleiss del 1981 (vedi testo di edizione più recente, rispetto alle citazioni precedenti: Statistical Methods for Rates and Proportions. John Wiley and Sons , New York. 677 pp.)

Con 2 campioni bilanciati, quindi

dopo aver determinato

- p₁ e p₂ e calcolato la loro media p*

- la probabilità a (errore di I Tipo) e la probabilità b (errore di II Tipo) oppure la potenza 1-b,

- in un test con bilaterale

la formula è

n =

- in un test unilaterale

è sufficiente nella formula sostituire Z_a/2 con Z_a.

n =

ESEMPIO 3 (TEST BILATERALE, CON FORMULA ABBREVIATA). Due serie di analisi campionarie sulla qualità dell'aria hanno dimostrato che nella zona A il 50% delle rilevazioni supera i limiti di attenzione per SO₂, mentre nella zona B esse sono il 35%.

Quanti dati occorre raccogliere affinché questa differenza risulti significativa alla probabilità a = 0.05 e il test abbia una potenza 1-b = 0.90?

Risposta. Con

- per la probabilità a bilaterale,

- per la probabilità b unilaterale,

- p₁ = 0,5 p₂ = 0,35 p* = 0,425

si ottiene

n =

un numero minimo pari a 225 misure per gruppo.

ESEMPIO 4 (TEST UNILATERALE, CON FORMULA ABBREVIATA). Due serie di analisi campionarie sulla qualità dell'aria hanno dimostrato che nella zona A il 50% delle rilevazioni supera i limiti di attenzione per SO₂, mentre nella zona B esse sono il 35%.

Quanti dati occorre raccogliere perché la proporzione della zona B risulti inferiore a quella della zona A alla probabilità a = 0.05 e il test abbia una potenza 1-b = 0.90?

Risposta. Con

- per la probabilità a unilaterale,

- per la probabilità b unilaterale,

- p₁ = 0,5 p₂ = 0,35 p* = 0,425

si ottiene

n =

un numero minimo pari a 184 misure per gruppo.

Stimato il numero minimo (n) di osservazioni per ognuno dei due gruppi, affinché il test abbia la potenza desiderata, sorgono due problemi:

A) quando il campione richiesto non è di grandi dimensioni, ma rimane inferiore alle duecento osservazioni, la stima effettuata (n) dovrebbe essere corretta, in quanto il test successivo dovrebbe utilizzare formule con la correzione per la continuità, che alzano il valore della probabilità a;

B) il numero n calcolato è la quantità minima di osservazioni necessarie in ognuno dei due gruppi a confronto; ma non sempre è possibile o conveniente effettuare un esperimento bilanciato.

A) Quando, con queste formule, si stima che sono sufficienti alcune decine di osservazioni o un numero di poco superiore al centinaio, sorge un problema. Con un campione di piccole dimensioni, come possono essere definiti questi, nel test di verifica dell’ipotesi nulla con il test c² o con il corrispondente test Z, si apporta la correzione per la continuità o correzione di Yates.

Ad esempio, una formula corretta utilizzando la distribuzione Z, già presentata in questo capitolo e nel precedente, è

Essa ha uno scopo cautelativo: abbassa la significatività del test, appunto perché con pochi dati le conclusioni sono meno attendibili e nella logica statistica non si vuole rifiutare l’ipotesi nulla quando la risposta è incerta.

Nella stima della dimensione n del campione da raccogliere, per rendere il test significativo alla stessa probabilità, è quindi necessario aumentare la quantità n, calcolata con la formula generale già descritta.

Nel 1959, M. Kramer e S. W. Greenhouse (nell’articolo Determination of sample size in treatment-control comparison for chronic disease studies in which drop-out or non-adherence in a problem, pubblicato dalla rivista J. Chronic. Dis., n. 20, pp. 233-239) hanno proposto

- n’ = stima corretta di n,

che tiene appunto presente la correzione per la continuità.

Dopo avere stimato n, per considerare la correzione per la continuità di Yates, si perviene ad una sua valutazione corretta n’ mediante la relazione

n’ =

ESEMPIO 5. (TEST BILATERALE, CON CORREZIONE PER LA CONTINUITA’). Calcolare le dimensioni minime (n) del campione, affinché la differenza tra le proporzioni p₂ = 0,28 e p₁ = 0,12 risulti significativa alla probabilità a = 0.05 con un rischio b = 0.10.

Successivamente, apportare la correzione se il campione non è grande (inferiore a 200).

Risposta

1 - Dapprima si calcola n, ricavando dal problema che è un test bilaterale,

in cui Z_a/2 = 1,96 e Z_b = 1,28 con = (0,28 + 0,12)/2 = 0,2

Il numero minimo n di dati per ognuno dei due gruppi è

n =

n = = 128,9

uguale a 128,9. In ognuno dei due gruppi a confronto sono necessari 129 osservazioni.

2 - Trattandosi di campioni inferiori a 200 osservazioni, si deve apportare una correzione al numero n calcolato, stimando n’; in questo caso, esso risulta

uguale a 142.

Vari programmi informatici, insieme con la stima di n (il valore della potenza a priori), nell'output forniscono anche la significatività del test a posteriori, qualora si realizzassero esattamente le condizioni supposte per la stima di n.

Se prima della raccolta dei dati il valore di a poteva essere uguale a 0.05, una volta raccolti i dati (quindi a posteriori) la significatività del test è di gran lunga superiore e perciò avrà un valore di a nettamente minore. Infatti, il calcolo a priori di inglobava il rischio che la differenza ipotizzata tra le due proporzioni fosse, per variazione casuale, minore dell’atteso.

Nella stima a priori di n è compresa la probabilità b di commettere un errore di II Tipo; a posteriori questo rischio non esiste più.

B) Stimato n, è conveniente formare due campioni bilanciati: garantisce la potenza massima del test, con un numero totale di dati uguale a 2n.

Ma non sempre è possibile o conveniente. Un gruppo di dati potrebbe essere già stato raccolto; le osservazioni dei due gruppi potrebbero non avere gli stessi costi morali, quali esperimenti con il placebo o il farmaco su due gruppi di ammalati; più semplicemente, potrebbero avere costi economici diversi, quale la somministrazione di un nuovo farmaco, di prezzo più elevato rispetto al precedente già sul mercato e da tempo in produzione (questo argomento è trattato in modo più ampio nel capitolo 5, illustrando il test t di Student per due campioni indipendenti).

Si pone quindi il problema di formare due campioni non bilanciati, ricercando la convenienza massima, senza che il test perda in potenza.

Sulla base dei principi succintamente enunciati,

affinché

dove è il campione minore, si deve

1 - dapprima calcolare r

e p*

2 - successivamente stimare n

3 - infine calcolare

4 - da quale derivare anche

ESEMPIO 6 (DIMENSIONI DEI CAMPIONI, SENZA BILANCIAMENTO – Prima parte). Un ricercatore deve verificare la differenza della qualità delle falde idriche di due aree. Analisi preliminari hanno dimostrato che nella zona 1 il 45% dei prelievi supera i limiti di attenzione per almeno un parametro; mentre nella zona 2 tali limiti sono superati solo dal 25% dei prelievi.

Quanti dati deve raccogliere in ognuna delle due zone, per dimostrare che tale differenza è significativa alla probabilità a = 0.05 con un rischio b = 0.10?

Risposta. Con

- per la probabilità a bilaterale,

- per la probabilità b unilaterale,

- p₁ = 0,45 p₂ = 0,25 p* = 0,35

si ottiene

n =

un numero minimo pari a 118 rilevazioni per gruppo.

Trattandosi di due campioni non grandi, per cui nel test si dovrebbe utilizzare la correzione per la continuità, è conveniente raccogliere un numero di dati più alto.

La stima corretta n'

diventa

uguale 127,75.

Servono almeno 128 osservazioni per gruppo.

ESEMPIO 6 (DIMENSIONI DEI CAMPIONI, SENZA BILANCIAMENTO - Seconda parte). Si supponga che la zona 2 sia vicina al laboratorio di analisi, mentre la zona 1 sia distante e quindi con costi maggiori per i prelievi. Una stima più precisa quantifica in circa 10mila lire il costo di ogni prelievo nella zona 2 e di 30mila nella zona 1. Con gli stessi dati della prima parte, quanti prelievi occorre effettuare nella zona 1 e quanti nella zona 2?

Risposta. Dopo aver supposto r = 3

- si stima dapprima p*

che risulta uguale a 0,3

e successivamente n

che risulta 76,5.

Infine da esso si ricava

che risulta uguale a 83,06.

Per il campione 1 servono almeno 84 prelievi e quindi per il campione 2 (3 x 83,06 = 249,18) almeno 250 prelievi.

E' importante osservare che, con due campioni sbilanciati, il numero totale di osservazioni aumenta:

- è diventato uguale a 334 (84 + 250),

- mentre con due campioni bilanciati era uguale a 256 (128 + 128).

Ma è diminuito il costo totale delle analisi, anche se in questo caso in modo molto limitato.

Con due campioni bilanciati era

(128 x 10.000) + (128 x 30.000) = 1.280.000 + 3.840.000 = 5.120.000

uguale a lire 5.120.000

mentre con la nuova programmazione il costo

(84 x 30.000) + (250 x 10.000) = 2.520.000 + 2.500.000 = 5.020.000

risulta uguale a 5.020.000.

Ma esistono soluzioni migliori?

La soluzione è cercata nell’esempio successivo.

ESEMPIO 6 (DIMENSIONI DEI CAMPIONI, SENZA BILANCIAMENTO - Terza parte). Con gli stessi dati della prima e della seconda parte dell'esercizio 6, verificare i costi con r = 2,2.

Risposta. Con r = 2,2

- si stima dapprima p*

che risulta uguale a 0,3125

- e successivamente n

che risulta 84,07.

- Infine si stima

che risulta uguale a 91,19.

Per il campione 1 servono almeno 92 osservazioni.

Quindi per il campione 2 ne sono necessarie almeno 201 (ricavato da 2,2 x 91,19 = 200,6).

E' importante osservare che,

- mentre con due campioni bilanciati il numero totale di osservazioni era uguale a 256 (128 + 128) e

- con due campioni sbilanciati con un rapporto di 3 a 1 tale numero era aumentato a 334 (84 + 250),

- ora con un rapporto di 2,2 a 1 il numero minimo richiesto è 293 (92 + 201).

Lo sbilanciamento tra i due campioni è minore e quindi il numero complessivo di dati richiesti per un test che abbia la stessa potenza è inferiore.

In questo caso, il costo totale delle analisi è

(92 x 30.000) + (201 x 10.000) = 2.760.000 + 2.010.000 = 4.770.000

risulta uguale a 4.770.000.

E' più conveniente dei due precedenti.

Un altro aspetto interessante nella programmazione di un esperimento è la curva dei costi.

In rapporto ai costi per la rilevazione dei dati in un esperimento con due campioni, la funzione quasi sempre è a U:

- diminuisce allontanandosi dal rapporto di 1 a 1 fino ad un livello minimo,

- per aumentare successivamente con lo "sbilanciamento" sempre più accentuato dei due campioni, che inevitabilmente porta a richiedere un numero totale di osservazioni sempre maggiore.

Per ridurre al minimo i costi complessivi, è necessario trovare

- il punto ottimale di rapporto numerico tra i due campioni,

eventualmente per tentativi e in modo iterativo, anche se esistono funzioni che abbreviano i calcoli.

Un altro modo per stimare le dimensioni del campione 2, fissate quelle del campione 1, è il ricorso alla formula già presentata:

A causa delle relazioni esistenti tra i parametri implicati nella formula,

- è possibile stimare un parametro, dopo aver fissato tutti gli altri.

E’ un metodo che si rivela utile in molti casi, per risolvere altri problemi di bilanciamento. Un caso classico è quando si deve confrontare la situazione del passato con quella attuale.

Ma i dati del passato sono già stati raccolti. Si vuole quindi sapere quanti nuovi dati è necessari raccogliere.

Ad esempio, questa ultima formula permette di calcolare quanti nuovi dati è necessario raccogliere se, con gli stessi dati dell'esempio 6, il confronto dovesse avvenire tra la situazione attuale (tempo 2) e una situazione precedente (tempo 1), per la quale furono raccolte 80 osservazioni.