Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

LA REGRESSIONE LINEARE MODELLO II E LEAST-PRODUCTS.

IL CONFRONTO TRA DUE METODI QUANTITATIVI.

24.3. IL PLOT DELLE DIFFERENZE E DELLE MEDIE; IL TEST DI BLAND-ALTMAN, PER IL CONFRONTO TRA METODI E PER LA RIPETIBILITA’ DI UN METODO.

Con due modi differenti di analisi o di determinazione quantitativa, vengono effettuate le misure

- su campioni o casi indipendenti,

- per verificare se esista una relazione di tipo lineare tra le coppie di risultati ottenuti su gli stessi campioni.

Quasi sempre, a questo scopo in letteratura è utilizzata la regressione lineare semplice. Ma le critiche sono numerose, in quanto non sono rispettate almeno due condizioni di validità della regressione parametrica:

1 - è del tutto arbitrario e ingiustificato identificare un metodo come variabile indipendente e l’altro come variabile dipendente

2 - le due misure presentano lo stesso tipo di errore e quindi non è vero che la X sia fissa, poiché entrambe le variabili sono di tipo random.

Ad esse, spesso deve essere aggiunta una terza e un quarta condizione che non rispettano quanto richiesto dal modello matematico:

3 – L’errore commesso nella misura della variabile scelta come dipendente non è costante, poiché spesso è proporzionale rispetto al suo valore o a quello della , anche quando i dati del campione (quasi sempre pochi) non risultano significativamente eteroscedastici ai test specifici.

In termini più tecnici, questo concetto può essere espresso in due modi: la varianza non è costante, poiché ad essere costante è

- il coefficiente di variazione

- il rapporto tra le due varianze

che (a) non è infinito e (b) non è zero, lungo il campo di variazione dei dati.

4 – La presenza di punti cosiddetti

- dispersi o spuri (stragglers o spurious data), definiti come misure o risultati analitici classificabili come sospetti al livello di fiducia del 95%, ma non al livello fiduciale del 99%),

- anche se essi non possono essere chiamati dati anomali (outliers), definiti come le misure o i risultati analitici che sono anormalmente diversi dai valori plausibili e che con un test statistico possono essere rigettati a un certo livello fiduciale.

E’ possibile, ma dovrebbe essere evitata, anche la presenza di errori grossolani (gross error o blunder), un termine che identifica l’errore inaccettabile, quello che impone l’abbandono dell’analisi oppure di essere eliminato per mezzo di un controllo di qualità che sia efficiente.

Sono accettati solamente gli errori casuali (random error), quelli determinati da variazioni indefinite dei parametri sperimentali, quelli che sono caratterizzati quel livello di incertezza che è sempre collegata agli strumenti di misura. Gli errori casuali hanno una dispersione intorno al valore medio che è tanto più simmetrica quanto maggiore è il numero di osservazioni. Il livello di errore può essere ridotto, con strumenti più precisi e operazioni più accurate; ma non può mai essere totalmente azzerato.

Con il metodo classico dei minimi quadrati (least-squares regression analysis), nella regressione i dati spuri e gli outliers generano quadrati degli errori molto grandi. Quindi la retta calcolata è fortemente attratta verso di essi, allontanandosi sensibilmente dall’insieme di tutti gli altri punti.

Quando si deve decidere se un metodo di misurazione è migliore di un altro, è possibile utilizzare sia test, sia metodi grafici per la descrizione e l’analisi dei dati.

Tuttavia, l’indicazione fondamentale di James O. Westgard (attualmente ritenuto il maggior esperto di metodi clinici), nell’articolo del 1988 Points of care in using statistics in methods comparisons studies (editoriale della rivista Clinical Chemistry, Vol. 44, No. 11, pp.: 2240-2242) è:

- Chi decide è l’individuo esperto della disciplina; la statistica con i metodi grafici e i test d’inferenza aiuta a decidere, ma non può mai sostituirsi all’esperto.

Per chiarire ulteriormente questi concetti, è utile leggere quanto (a pag. 2240) scrive: The statistics do not directly tell you whether the method is acceptable; rather they provide estimates of errors that allow you to judge the acceptabilility of a method. You do this by comparing the amount of error observed with the amount of error that be allowable without compromising the medical use and interpretation of the test result. Methods performance is judged acceptable when the observed error is smaller than the defined allowable error. Method performance is not acceptable when the observed error is larger the allowable error. The decision-making process can be facilitated by mathematical criteria or by graphic tools.

IL TEST DI BLAND-ALTMAN

Per confrontare due metodi di misurazione, nei programmi informatici da alcuni anni è diffuso il metodo di J. M. Bland e D. G. Altman,

- proposto sinteticamente nell’articolo del 1986 Statistical methods for assessing agreement between two methods of clinical measurement (su Lancet, i, pp.: 307-310),

- successivamente ampliato nella lunga review del 1999 Measuring agreement in method comparison studies (su Statistical Methods in Medical Research Vol. 8, pp.: 135-169).

Su supponga di aver misurato campioni, ottenendo per ognuno due dati quantitavi:

- la misura con il sistema 1 (),

- la misura con il sistema 2 ().

Bland e Altman propongono:

A – dapprima di ricavare da queste coppie di misure altre due quantità:

- la media () delle due misure per ognuno degli campioni (),

- la differenza () tra le due misure per ognuno degli campioni ();

B – successivamente, di costruire un grafico dei punti identificati da queste nuove coppie di valori, nel quale

- sull’asse delle ascisse è riportata la media di ogni coppia,

- sull’asse delle ordinate la differenza tra i valori della stessa coppia.

Questo metodo risulta appropriato quando le differenze restano costanti. Ma spesso non lo sono.

Questa proposta è stata quindi integrata da altre due varianti, che cambiano il valore da riportare sull’asse delle ordinate. Con esse è diventato possibile scegliere tra tre opzioni, per il valore da riportare nelle ordinate:

1 - le differenze tra le coppie di misure:

2 - le differenze trasformate in percentuale delle medie:

3 - il rapporto tra le due misure, trasformato in log:

Questa ultima formula richiede che non siano presenti valori uguali a zero, in nessuno dei due sistemi di misurazione. Se sono presenti, è necessario che nella trasformazione sia aggiunta una costante (il concetto è sviluppato nel capitolo sulle trasformazioni dei dati univariati).

La figura successiva rappresenta un esempio con = 46.

Nel diagramma

Caso 1

- sull’asse delle ascisse è riportata la media ,

- sull’asse delle ordinate è riportata la differenza

L’analisi descrittiva dei dati richiede che per le differenze siano calcolate:

1 - il numero : = 46

2 - la media aritmetica delle differenze: = 1,565

3 - la deviazione standard: = 8,661

4 - l’errore standard:

5 - l’intervallo di confidenza al 95% della media delle differenze: .

Con i dati della figura, l’intervallo di confidenza della media delle differenze è

quindi come

- limite inferiore (lower limit) ha

- limite superiore (upper limit) ha

6 – l’intervallo di confidenza delle differenze: .

Con i dati della figura, l’intervallo di confidenza delle differenze è

quindi come

- limite inferiore (lower limit) ha

- limite superiore (upper limit) ha

L’informazione più importante del grafico è fornita congiuntamente

- dal valore medio e

- dall’intervallo di confidenza delle differenze al 95% che varia tra + 18,5 e –15,4.

Il test di Bland-Altman consiste nel giudizio del ricercatore: se la variazione della media entro l’intervallo di confidenza non è clinicamente importante, i due metodi possono essere considerati intercambiabili.

Non è quindi fondato su valori critici, ma sul giudizio dell’esperto della disciplina, come per la significatività della capacità predittiva di nella regressione least-squares.

Caso 2

Caso 3

Caso 4

Altre informazioni importanti sulla corrispondenza tra i due metodi di misurazione sono fornite dalla disposizione dei punti intorno alla media ed entro i limiti dell’intervallo di confidenza.

Le quattro figure riportate nel paragrafo sono rappresentative di altrettanti casi tipici.

- Nel caso 1, la disposizione dei punti è casuale: i due metodi possono essere ritenuti equivalenti, se l’analisi precedente sull’intervallo di variazione della media è positivo.

- Nel caso 2, i punti presentano un alternarsi periodico sopra e sotto la media: gli errori hanno una distribuzione non casuale, ma sistematica in valore assoluto, per cui i due metodi forniscono misure differenti.

- Nel caso 3, si ha un errore proporzionale: le differenze sono negative per valori piccoli, e positive per valori grandi.

- Nel caso 4, le differenze tra i due metodi non sono costanti, ma dipendono dal valore. Questo ultimo è un caso classico di non uniformità della varianza (heteroscedasticity).

Ne consegue che l’errore standard è una misura inadeguata o errata (bias) della variabilità, poiché è un valore medio di tutti gli errori e quindi sovrastima la variabilità quando i valori sono piccoli e la sottostima quando i valori sono grandi.

In questa situazione, è conveniente verificare sperimentalmente se si ottengono risultati migliori, modificando i valori da porre sull’asse delle ordinate. Le trasformazioni che con frequenza maggiore si dimostrano adeguate sono

- le differenze trasformate in percentuale delle medie,

- il rapporto tra le due misure, trasformato in log.

Il test di Bland e Altman, sia come proposto nella formula originaria, sia nelle sue varianti, può essere utilizzato anche quando si valuta

- la ripetibilità (repeatability) di un metodo.

Per repeatability (in italiano chiamata anche ripetibilità ristretta) si intende la bontà dell’accordo tra i risultati di misurazioni successive dello stesso misurando, condotte nelle stesse condizioni di misurazione. L’analisi dovrebbe essere condotta nello stesso laboratorio, dal medesimo operatore, con l’identico strumento, su campioni uguali, nelle stesse medesime operative e a breve distanza di tempo.

Quando uno o più di queste condizioni sono volutamente modificate, allo scopo di valutarne gli effetti mediante le differenze che determinano, si parla di ripetibilità intermedia.

Nel linguaggio internazionale, si adopera il termine intermediate precision, tradotto in italiano anche con precisione intermedia.

Quando si impiega lo stesso metodo su una serie di campioni, la media delle differenze dovrebbe essere zero.

E’ possibile calcolare anche un Coefficiente di Ripetibilità (Coefficient of Repeatability)

dove

- e sono le due misure ottenute nelle due condizioni sullo stesso campione,

- è il valore di alla probabilità bilaterale.

Benché i metodi proposti da Bland e Altman risultino generalmente più adatti dei metodi fondati sulla correlazione e sulla regressione dei minimi quadrati (least-squares regression), anche essi in alcune situazioni presentano limiti. Attualmente sono giudicate soluzioni ottimali quelle ottenute con

- la regressione dei minimi prodotti (least-products regression).

Il test di Bland e Altman è spesso impiegato in associazione alla stima della regressione lineare, ottenuta con il metodo least-squares oppure con il metodo least-products, illustrato nei paragrafi successivi, per valutare se due metodi analitici sono intercambiabili.

Confrontare il plot di Bland-Altman con il diagramma di dispersione dei dati, ottenuto con le misure originarie forniti dai due metodi a confronto, permette di meglio comprendere le relazioni presenti tra essi.

Le due figure rappresentate nella pagina successiva sono tratte dall’articolo dell’anno 2000 Erythrocyte Sedimentation Rate by the Test-1 Analyzer (pubblicato su Clinical Chemistry Vol. 46, No.6, pp.: 881 - 882). In esse sono riportati i risultati di 105 misure campionarie del tasso di sedimentazione degli eritrociti misurato in mm/h (indicato con ESR da Erythrocyte Sedimentation Rate) ottenute su campioni di sangue con

- l’automated Westergren method (Starrsed, Charles Goffin Mwdical System), che rappresenta il metodo di confronto, già riconosciuto come valido,

- il metodo Test-1, tripotassium ADTA-anticoagulated, che rappresenta il metodo nuovo, di cui si vuole verificare la validità o l’intercambialità con il precedente.

La figura A rappresenta l’analisi della regressione di Passing-Bablock (illustrata in un paragrafo successivo).

Come in tutti i diagrammi di dispersione, costruiti con i valori ottenuti nel confronto tra due metodi,

- sull’asse delle ascisse () sono riportati i valori ottenuti con il metodo storico, la cui validità è già riconosciuta,

- sull’asse delle ordinate () sono riportati i valori ottenuti con il metodo nuovo, di cui si vuole verificare la validità o intercambialità con il precedente, a motivo dei vantaggi che può offrire (ad esempio: costi minori, tempi più brevi, prodotto nuovo di altra ditta, ecc. …)

La figura B rappresenta il plot di Bland-Altman degli stessi dati. L’intervallo di confidenza è 2SD e non 1,96SD come in precedenza. E’ una approssimazione impiegata in molte pubblicazioni e molti test in cui si usa la distribuzione normale.