| PROPORZIONI E PERCENTUALI, RISCHI, ODDS E TASSI
 
 5.3. PERCHE’ LA VARIANZA DI P E’ PQ E SUE CONSEGUENZE; VARIANZA E ERRORE STANDARD DI UNA FREQUENZA RELATIVA O ASSOLUTA, IN UNA POPOLAZIONE INFINITA E FINITA 
 
 Dopo la presentazione di alcuni termini del linguaggio tecnico, per l’analisi statistica di una proporzione è necessario riprendere i concetti presentati nella distribuzione binomiale. Nei fenomeni binari, quindi con risposte Si-No, Vivo-Morto, che per l’analisi statistica sono tradotti in numeri con 1 – 0, in una popolazione di N individui nella quale X presentano la caratteristica A (indicata con 1), per essa la proporzione p nella popolazione è 
   
 Quando da questa
  popolazione si estrae un campione di dimensione 
   la proporzione campionaria p è 
   
 e la proporzione q della caratteristica alternativa B (indicata con 0) è 
   
 All’infuori dei
  due casi estremi, in cui 
   -  se dalla
  popolazione si estraggono casualmente vari campioni di dimensione 
   -  si hanno
  altrettante stime campionarie 
   La proporzione 
   La sua varianza è la varianza di una media e può essere ricavata rapidamente con le due formule abbreviate seguenti: -  per la
  popolazione di 
   
   -  per un
  campione di 
   
   
 Quando 
   Per comprendere in modo semplice che queste formule sono equivalenti a quelle classiche per il calcolo della varianza, è utile una dimostrazione elementare. Si supponga di avere somministrato un tossico ad un gruppo di 20 cavie e che tra esse 5 abbiano presentato sintomi di intossicazione. La proporzione di individui intossicati 
 
    è 
   e con la formula abbreviata  la sua varianza 
   
    è 
   (sono utilizzati più decimali, solo per dimostrare empiricamente l'uguaglianza dei due risultati). 
 Se a ognuno dei 5 soggetti intossicati si attribuisce convenzionalmente valore 1 e a ognuno degli altri 15 non intossicati valore 0, - la media 
   
   è uguale a 0,25 - la sua devianza SQ 
 
   
 è uguale a 3,75 - e, da questa, la sua varianza 
   
   è uguale a 0,197368. Ma questa è la varianza dei dati (0 e 1), mentre nel caso della proporzione p la varianza prima calcolata con la formula abbreviata è riferita alla media. Poiché la deviazione standard della media (quindi l'errore standard), è 
    e la varianza di una media 
   
   con i dati del problema, si ottiene che la varianza della proporzione media p 
    è 
   Il risultato ( Evidenziando nuovamente i concetti principali, questo risultato mostra che - la varianza 
   
   è la varianza di una media p. Nello stesso modo, - la sua deviazione standard ( 
   in realtà è l'errore standard di p  e misura la
  dispersione delle medie 
   
 Questi stessi concetti sono dimostrati in modo più scolastico, con una serie di passaggi logici e matematici da George W. Snedecor e William G. Cochran nel loro testo del 1974 Statistical Methods (6th ed., The Iowa State University Press, Ames, Iowa, XIV + 593, vedi pag. 208). 
 
 
 
 
 La loro successione può essere schematizzata in 6 punti, riportati nelle colonne. 1) In una scala a intervalli o di rapporti la misura è continua e viene indicata con X; in una classificazione binaria in cui si misura la assenza - presenza del fattore, i valori possono essere tradotti in numeri con 0 e 1. 
 2)  
  Raggruppando i dati per gli stessi valori, la frequenza relativa per la
  variabile continua 
   
 3)   La
  media 
   Quindi la prima
  conclusione è che 
   
 4) Per calcolare
  la varianza, si deve partire dagli scarti: per la variabile continua sono 
   
 5) Questi valori devono essere elevati al quadrato, ottenendo rispettivamente -  per la variabile continua 
   -  per la variabile binaria 
   
 6) 
  Considerato che 
   E’ la seconda conclusione, che si voleva dimostrare. 
 La varianza
  della popolazione e quella campionaria della proporzione q
  (con 
   sono identiche a quelle di p 
   
 Ne deriva che anche la deviazione standard di una proporzione p o q, 
 
   
 è totalmente determinata dal suo valore medio. I calcoli sono semplici: 
 
 
 
 In una rappresentazione grafica, la corrispondenza risulta visivamente molto chiara. Se in un diagramma cartesiano si riportano - la media p sull’asse delle ascisse -  la sua
  deviazione standard  s = 
     è evidente
  il loro rapporto in campioni costanti di dimensioni 
   
 
 
   
   
 
 Questa relazione
  pone problemi rilevanti, quando alle proporzioni o percentuali sono applicati
  test parametrici per il confronto tra le medie quali 
   - i vari gruppi a confronto devono avere la stessa varianza, anche quando le loro medie sono differenti. Per confrontare la significatività della differenza tra medie diverse, si dovrà quindi - nella statistica parametrica, ricorrere a trasformazioni dei dati, come quella in arcoseno; - in altri casi, che saranno discussi in seguito, sarà più conveniente utilizzare test non parametrici; 
 Più recentemente, diffusi in particolare dai programmi informatici, ma spesso criticati nella letteratura statistica, sono proposti test t tra due medie e test ANOVA tra due o più medie, che possono essere utilizzati anche quando le varianze sono differenti, sulla base della proposta di Beherens-Fisher. 
 Un’altra conseguenza molto importante di questa relazione nelle proporzioni o frequenze relative -  
  tra la media 
   -  
  e la sua varianza 
   che nel caso di conteggi o frequenze assolute diventa la relazione -  
  tra la media 
   -  
  e la sua varianza 
   è che non è necessario avere misure ripetute per calcolare la varianza di un campione, ma è sufficiente conoscere la sua media. 
 
 CORREZIONE PER UNA POPOLAZIONE FINITA Già diffusa da W. G. Cochran nel 1977 nel volume Sampling Techniques (3rd ed., John Wiley, New York, p. 428) e, fra i testi internazionali di statistica applicata a maggior diffusione, riportata da Jerrold H. Zar nel volume del 1999 Biostatistical Analysis (4th ed., Prentice Hall, Upper Saddle River, New Jersey, XII + 663 p. + App. 212 ) - quando la proporzione è stimata con un campione, che è una parte non trascurabile della popolazione intera, la varianza deve essere corretta utilizzando 1 - per la frequenza relativa p - la varianza 
   - l’errore standard 
   
 2 – per la frequenza assoluta F con 
   - la varianza 
   
 - l’errore standard 
   dove -  
   -  
   
 Il concetto è semplice:  - 
  Se si calcola una proporzione 
   - utilizzando tutti gli elementi di una popolazione finita (quindi p), - non esiste l’errore di campionamento. Ad
  esempio, se una popolazione è composta solo di 
   La
  varianza della proporzione 
   Ma
  se, per stimare la proporzione 
   Nella formule precedenti, - 
  
   -
  
   
 Dalle
  formule precedenti è  ovvio dedurre che, quando 
   - la varianza e l’errore standard diventano uguali a 0, - sia nella frequenza relativa che nella frequenza assoluta. 
 ESEMPIO 1. In una popolazione di 350 pazienti sottoposti a una operazione all'anca presso la stessa clinica, si vuole valutare dopo 6 mesi dall'operazione quale è la proporzione di individui che presentano ancora difficoltà di deambulazione. Dato il costo dell’indagine, è stato utilizzato un campione più ridotto. Dall’elenco completo, sono stati estratti casualmente 160 individui e sottoposti a controllo; tra essi 28 presentavano ancora difficoltà. Calcolare la varianza e l’errore standard -  (a) della proporzione
  
   -  (b) della frequenza
  assoluta 
   Risposta.   Prima di tutto,
  con 
   
    ottenendo 
  
   Con i dati dell’esperimento, si stima che nella popolazione di 350 pazienti -  la frequenza
  relativa di persone ancora non guarite è 
   -  la frequenza
  assoluta di persone ancora non guarite è 
   Sono stime; quindi hanno un errore o meglio una variabilità, che dipende da chi erano i 160 individui controllati. 
 A)  Per la frequenza
  relativa stimata 
   - la varianza è 
     - l’errore standard è 
   
 
 (B) Per la frequenza
  assoluta stimata 
   - la varianza è 
     - l’errore standard è 
     Nel caso di conteggi e proporzioni, la
  distribuzione
  normale è un approssimazione asintotica (per 
   - 
  della distribuzione
  binomiale, quando 
   -  della distribuzione
  poissoniana, quando 
   -
  della distribuzione
  ipergeometrica che, come in questo caso, si applica
  a una popolazione di dimensione 
 
 
 | |||||||||||||||||||||||||||||||||||||||||
| Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 | |||||||||||||||||||||||||||||||||||||||||