Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

TEST NON PARAMETRICI PER IL TREND

19.1. LA MEDIA MOBILE E LA SCELTA DEL TEST PER LA TENDENZA

Anche nella ricerca biologica e ambientale e farmacologica, sono frequenti i casi in cui l’interesse è rivolto all’analisi di serie temporali di dati. In medicina può essere l’esame di un parametro rilevato varie volte nel tempo a un paziente; nella ricerca ambientale, il monitoraggio di un inquinante o di un indice generico di inquinamento; in agraria la quantità di una vitamina presente in un alimento, in funzione del tempo trascorso dalla produzione.

Gli stessi metodi in molti casi possono essere utilizzati anche per analizzare una serie spaziale, territoriale o geografica, cioè di rilevazioni effettuate a distanza crescente da un’origine convenzionale o da un punto qualsiasi. In geologia può essere la presenza di una sostanza in carote di terreno o di roccia, prelevate a profondità differente; nella ricerca ambientale la quantità di polveri in funzione della distanza dal camino che le emette oppure il livello d’inquinamento di un fiume lungo il percorso.

Per l’analisi statistica di una serie temporale o spaziale di dati, sono già stati presentati

- il test delle successioni, che valuta la casualità del susseguirsi di eventi binari,

- il test di Kolmororov-Smirnov sia per uno che per due campioni, che permette di valutare la differenza per un parametro qualsiasi tra due distribuzioni oppure tra una distribuzione osservata e quella teorica o attesa.

I test presentati in questo capitolo verificano tutti ipotesi sulle variazioni sistematiche della tendenza centrale, misurata di solito con la mediana trattandosi di test non parametrici; ma può essere l’evoluzione della media, della moda o un quantile qualsiasi. Per il test di Cox e Stuart è presentato anche il metodo per testare variazioni sistematiche nella variabilità o dispersione.

Disponendo di una serie di dati rilevati in successione temporale oppure a partire da un’origine spaziale, il primo problema che si pone è l’individuazione dell’ipotetico andamento “normale”, cioè delle quantità che dovrebbero aversi in un determinato momento o luogo, in assenza di eventi straordinari o di valori comunque distanti dal comportamento normale.

Una soluzione utilizzata da molti ricercatori è l’uso di una interpolazione analitica, consistente spesso in una retta oppure in una curva di secondo o di terzo grado. Ma essa, soprattutto se ricavata con metodi parametrici, richiede condizioni di validità che la distribuzione dei dati non sempre rispetta o che il tipo di scala utilizzato non permette. Inoltre, fondati su tutta la serie di osservazioni, questi metodi tendono ad eliminare in maniera troppo drastica sia i massimi che i minimi della curva reale, cioè proprio quei valori che caratterizzano una zona o un periodo e che di norma lasciano tracce del loro effetto su un intervallo maggiore.

La soluzione può essere l’uso di campioni mobili (moving sample). Ad esempio, un sequenza campionaria di 80 dati può essere scomposta in un primo sottocampione, formato dai primi 10 dati. Il secondo sottocampione è sempre formato da 10 dati, ma iniziando dal secondo valore e terminando con l’undicesimo del campione; il terzo, prendendo i dati dal terzo al dodicesimo. Si prosegue fino a quando è possibile avere l’ultimo sottocampione di 10 dati, che ovviamente sarà quello formato dagli ultimi 10 dati del campione totale.

Ogni volta si ottiene un sottocampione diverso, seppure solo in parte minima rispetto a quelli vicini, che si muove lungo la sequenza e ha sempre dimensioni costanti. Di ogni sottocampione si calcola la media aritmetica. La successione delle medie di questo moving sample è la moving average o media mobile.

La perequazione di una curva mediante la media mobile ha il vantaggio, rispetto all’adattamento di una curva analitica di tipo matematico, di una minore rigidità: in genere, la curva perequata con la media mobile si adatta meglio alle particolarità della curva reale.

La media mobile

- diminuisce sensibilmente la variabilità casuale dei singoli dati

- e quindi evidenzia la tendenza di fondo, determinata appunto dalle variazioni sistematiche della quantità media,

- mantenendo la variabilità delle medie di k dati, quindi senza eliminarla totalmente.

Inoltre, è semplice statistica descrittiva; pertanto non richiede che siano realizzate le condizioni necessarie alla validità di una retta o una curva di regressione, quando calcolata con metodi parametrici.

Il punto fondamentale, per mantenere la variabilità più utile, è la scelta del numero k di dati, che formano ogni sottocampione mobile. Poiché il metodo è applicato in particolare quando esistono fenomeni ciclici, ma con una grande variabilità tra osservazioni contigue, il numero k è scelto in funzione del periodo o ciclo la cui variabilità si vuole mantenere, eliminando o riducendo molto quella entro il ciclo, spesso determinata dalle singole osservazioni.

A causa del metodo, per un’analisi dettagliata che evidenzi queste regolarità, occorre disporre di una serie abbastanza lunga di dati, comprendente più cicli.

Si supponga di disporre dei consumi giornalieri di acqua per uso domestico, rilevati per 4 settimane, in una località di villeggiatura, al fine di una valutazione corretta dell’incremento avvenuto nel periodo:

1°

2°

3°

4°

5°

6°

7°

8°

9°

10°

11°

12°

13°

14°

I Settimana

II Settimana

15°

16°

17°

18°

19°

20°

21°

22°

23°

24°

25°

26°

27°

28°

III Settimana

IV Settimana

Le semplice lettura dei dati dei 28 gironi, organizzati in settimane, evidenzia massimi ciclici nei giorni di sabato e domenica, con minimi nei primi giorni della settimana.

La procedura di calcolo della media mobile è semplice:

- dopo individuato il numero (k) di elementi che caratterizzano il ciclo, si prendono i primi k dati e si calcola la media centrata sul dato collocato esattamente a metà del periodo ciclico; per questo, di regola, il numero k di elementi da considerare è dispari;

- la media successiva è stimata spostando di una unità tutto il gruppo di dati, in pratica eliminando il primo valore del sottocampione e aggiungendo il primo a destra: la media è centrata sul dato immediatamente successivo a quello precedente;

- si prosegue fino al valore che sta al centro dell’ultimo ciclo che è possibile stimare.

Ovviamente la serie totale raccolta deve comprendere più di un ciclo.

Ad esempio, i dati riportati nelle due tabelle successive evidenziano una fase settimanale entro la durata quasi mensile della rilevazione. E’ quindi conveniente utilizzare una media mobile a 7 elementi, detta anche centrata su 7 elementi:

- il calcolo può iniziare solo dal 4° giorno:

(21 + 23 + 22 + 24 + 27 + 35 + 30) / 7 = 182 / 7 = 26,0

- si passa al calcolo della media mobile centrata sul 5° giorno:

(23 + 22 + 24 + 27 + 35 + 30 + 23) / 7 = 184 / 7 = 26,3

- e si prosegue fino al 25° giorno, l’ultimo possibile,

(25 + 24 + 25 + 25 + 29 + 43 + 41) = 212 / 7 = 30,3

Riportati in tabella, le medie calcolate determinano la serie seguente

1°

2°

3°

4°

5°

6°

7°

8°

9°

10°

11°

12°

13°

14°

---

26,0

26,3

26,1

26,4

26,6

26,7

26,9

27,1

27,3

28,0

28,3

15°

16°

17°

18°

19°

20°

21°

22°

23°

24°

25°

26°

27°

28°

28,7

29,1

29,4

30,6

30,7

30,3

30,1

29,7

29,4

30,1

30,3

---

La loro rappresentazione grafica, sovrapposta a quella dei dati giornalieri, evidenzia come i picchi siano stati attenuati

Il trend di fondo è reso più evidente.

A differenza di quanto può evidenziare una retta, si nota come i consumi massimi siano avvenuti non alla fine del mese, ma nelle settimane centrate sul 18° (30,6) e sul 19° giorno (30,7).

Ma per rispondere alla domanda se durante il mese esaminato è stata rilevato una variazione significativa in aumento oppure in diminuzione, si deve ricorrere a test d’inferenza.

Essi possono essere

- unilaterali, quando il trend è ipotizzato a priori sulla base della conoscenza teorica del fenomeno o di esperienze precedenti, non sulla base delle variazioni indicate dai dati rilevati,

- bilaterali, quando si intende scoprire una non stazionarietà, cioè un aumento oppure una diminuzione, senza ipotesi più specifiche su uno dei due o ritenere un trend più logico o probabile dell’altro.

Tra i test di maggiore utilità sono da ricordare quelli chiamati test di tendenza o per la significatività del trend.

La loro applicazione classica è la verifica, ad esempio, dell’ipotesi che

- lungo il corso di un fiume si abbia una tendenza monotona all’aumento (o alla diminuzione ) dei livelli d’inquinamento;

- in un periodo di cura, i parametri biologici di una o più persone aumentino o diminuiscano;

- la somministrazione di un farmaco o di un tossico determini effetti in crescita o in calo.

La raccolta dei dati può essere fatta, schematicamente, in tre modi diversi, ai quali corrispondono tre tipi di test diversi, per verificare le stesse ipotesi:

- il primo caso è quando sono stati fatte più di una decina di rilevazioni in tempi differenti: si applica il test di Cox e Stuart;

- il secondo gruppo di casi è quando sono state individuati stazioni o periodi, in ognuno dei quali sono state fatte alcune rilevazioni, riportate in una tabella come nell’analisi della varianza ad un criterio: si applica il test di Jonckheere se il trend può essere schematizzato in una regressione monotonica oppure il test di Mack-Wolfe se può essere rappresentato da una parabola;

- il terzo, quando nelle stazioni prefissate le analisi sono state condotte in modo ordinato, tali da poter essere rappresentate in una tabella come per l’analisi della varianza a due criteri di classificazione: si applica il test di Page.

Altri test non parametrici che è possibile utilizzare per la verifica del trend, quando i dati sono raccolti singolarmente, sono riportati nel capitolo sulla correlazione e sulla regressione non parametrica. Quando un parametro è il tempo oppure lo spazio, sono applicabili

- il test di Daniel, che ricorre alla correlazione sui ranghi e quindi dimostra una regressione monotonica,

- la regressione lineare non parametrica, quando si cerca una variazione lineare,

- la regressione monotonica, quando la variazione non è necessariamente lineare o costante.