Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

COEFFICIENTI DI ASSOCIAZIONE, DI COGRADUAZIONE E DELL’ACCORDO

RISCHIO RELATIVO E ODDS RATIO

20.3. CLASSIFICAZIONE DEI COEFFICIENTI D'ASSOCIAZIONE O D’INDIPENDENZA

Quando i dati sono classificate sulla base di due variabili categoriali o qualitative, le frequenze sono riportate in una tabella di contingenza.

Di solito si utilizzano frequenze assolute, sia per facilitare i calcoli, sia perché le dimensioni del campione hanno un effetto rilevante sulla significatività del test e quindi è conveniente conoscerle esattamente. Ma è possibile utilizzare anche le frequenze relative, in particolare quando si vuole facilitare il confronto tra due o più rilevazioni, che ovviamente solo di rado hanno campioni con lo stesso numero di osservazioni.

Le tabelle hanno dimensioni minime 2 x 2; ma possono essere molto più ampie, indicate genericamente con r x c (r righe x c colonne).

I valori che quantificano le relazioni tra le due variabili qualitative sono chiamati coefficienti di associazione; si parla di correlazione, quando le variabili sono quantitative.

Il test del c² serve per verificare le ipotesi sulla indipendenza (corrispondente a una associazione nulla),

- tra le modalità della variabile riportata nelle righe

- e le modalità della variabile riportata nelle colonne.

E’ prassi che la dimensione delle righe, per analogia con l’asse delle ascisse nella regressione, corrisponda alla variabile classificatoria che dovrebbe essere esplicativa (come la dose di un farmaco oppure la località nella quale si è raccolto un campione di alcune specie animali o vegetali) e l’altra dimensione, quella delle colonne, sia una risposta o variabile dipendente (come l’effetto del farmaco che può essere nullo, moderato o forte oppure le varie specie raccolte), analogamente all’asse delle ordinate.

Per le due variabili, i gruppi possono essere formati sulla base di dati misurati su scale differenti:

1 - qualitativi o nominali, come l’elenco delle località e quello delle specie;

2 - ordinali o di rango, come l’intensità della risposta al farmaco (nulla, moderata, forte) o la classificazione delle specie in classi d’età (giovani, adulti, vecchi) o livelli di sviluppo;

3 - di intervalli e/o di rapporti (come l’età o le dimensioni) raggruppati in classi, con intervalli differenti oppure costanti (nelle tabelle di contingenza, di solito non sono fatte distinzioni tra questi due tipi di scala, per i quali possono essere applicati i test parametrici).

Da queste tre classificazioni del tipo delle due variabili, derivano tabelle a due entrate che utilizzano scale differenti, quali

- nominale per ambedue le variabili,

- nominale per una e ordinale per l’altra,

- ordinale per ambedue le variabili,

- nominale per una e intervallare per l’altra,

- in tutte le combinazioni di scala possibili, fino a intervallare per entrambe.

Per ognuna di queste differenti combinazioni delle scale di misura sono state proposte indici di associazione differenti, perché diverse sono le proprietà e le informazioni contenute nei vari tipi di dati raccolti.

Non esiste una misura ideale dell’associazione o concordanza tra le due variabili, che sia valida per tutte le situazioni.

Una classificazione scolastica, utile per ordinare la presentazione degli indici più frequentemente utilizzati, propone

- una suddivisione per misure nominali, ordinali e in classi d’intervalli, come quella illustrata, ma

- abbinata a quelle delle dimensioni in tabelle 2 x 2 e in tabelle r x c.

E’ lo schema seguito nel testo di Graham J. G. Upton del 1978 The Analysis of Cross-Tabuled Data (John Wiley & Sons, Chichester – New York, reprinted April 1980). Tuttavia,

- per vari indici non esiste una differenza determinata dalle dimensioni della tabella,

in quanto l’indice valido per tabelle r x c molto spesso è solo una generalizzazione dell’indice proposto per la tabella 2 x 2.

Ne consegue una prerogativa importante:

- gli indici di associazione possono servire per confronti tra tabelle di dimensioni differenti.