TEST STATISTICI PER DATI NOMINALI - APPUNTI Per gli specializzandi e per i partecipanti ai Corsi AIRM

Pagina creata da Veronica Giusti
 
CONTINUA A LEGGERE
TEST STATISTICI PER DATI NOMINALI - APPUNTI Per gli specializzandi e per i partecipanti ai Corsi AIRM
Guido Galli

TEST STATISTICI PER DATI NOMINALI

               APPUNTI
               Per gli specializzandi
               e per i partecipanti ai Corsi AIRM
INDICE

INTRODUZIONE	
                                                                                                                                             4	
  
       LE	
  VARIABILI	
  CHE	
  PIÙ	
  CI	
  INTERESSANO	
                                                                                                4	
  
       LA	
  STATISTICA	
  NON	
  PARAMETRICA	
                                                                                                            5	
  
       QUESTI	
  APPUNTI	
                                                                                                                                 6	
  

CAPITOLO	
  I	
  -­‐	
  FREQUENZA	
  E	
  PROBABILITÀ	
                                                                                                    7	
  
DISTRIBUZIONE	
  BINOMIALE	
                                                                                                                               7	
  
       CAPITOLO	
  II	
  -­‐	
  STATISTICA	
  DELLE	
  FREQUENZE	
  RELATIVE	
  (PROPORZIONI)	
                                                            9	
  
A)	
   LIMITI	
  FIDUCIALI	
  DI	
  UNA	
  PROPORZIONE	
                                                                                                  9	
  
           - Metodo	
                                                                                                                                    10	
  
           - Insegnamenti	
  dell’esempio	
                                                                                                              11	
  
B)	
   CONFRONTO	
  FRA	
  DUE	
  PROPORZIONI	
                                                                                                          12	
  
          - Premessa	
  generale	
  da	
  leggere	
  assolutamente	
                                                                                     12	
  
                Quattro	
  importanti	
  punti	
  sui	
  confronti	
  statistici	
                                                                       12	
  
C)	
   QUANTI	
  CASI	
  RACCOGLIERE	
  PER	
  UN	
  CONFRONTO	
  FRA	
  PROPORZIONI?	
                                                                  16	
  

CAPITOLO	
  	
  III	
  -­‐	
  TABELLE	
  DI	
  CONTINGENZA	
  E	
  CONFRONTI	
  DI	
  FREQUENZE	
                                                        17	
  
A)	
   ORDINAMENTO	
  DELLE	
  FREQUENZE	
                                                                                                               17	
  
B)	
   TEST	
  PER	
  I	
  CONFRONTI	
                                                                                                                   17	
  
       1)	
   TABELLE	
  2	
  X	
  2:	
  CONFRONTO	
  FRA	
  	
  DATI	
  INDIPENDENTI	
                                                                  17	
  
                                                                    2
              - Metodo	
  del	
  chi	
  quadrato	
  ( χ )	
                                                                                              17	
  
              - Correzione	
  per	
  la	
  continuità	
  di	
  Yates	
                                                                                   18	
  
                         Programma	
  in	
  Basic	
  per	
  il	
  calcolo	
  del	
  Chi	
  Quadrato	
  per	
  Tab.	
  2x2	
  con	
  vari	
  metodi	
     20	
  
              - Il	
  test	
  	
  esatto	
  di	
  Fisher	
                                                                                               21	
  
              - Importanti	
  consigli	
  pratici	
  	
  per	
  i	
  confronti	
  in	
  Tab.	
  2	
  x	
  2	
                                            22	
  
       2)	
   TABELLE	
  2	
  X	
  2:	
  	
  CONFRONTO	
  FRA	
  DATI	
  APPAIATI	
                                                                      23	
  
              - Test	
  di	
  Mc	
  Nemar	
                                                                                                              23	
  
              - Test	
  	
  esatto	
  per	
  il	
  confronto	
  di	
  dati	
  appaiati	
  in	
  Tab.	
  2	
  x	
  2	
                                    24	
  
C)	
   TABELLE	
  M	
  X	
  N	
                                                                                                                          25	
  
       1)	
   CONFRONTO	
  FRA	
  DATI	
  INDIPENDENTI	
                                                                                                 25	
  
              - Estensione	
  del	
  test	
  del	
  Chi	
  Quadrato	
                                                                                    25	
  
                    Programma	
  in	
  Basic	
  ESTENCHI	
  Chi	
  Quadrato	
  per	
  confronti	
  multipli	
                                            27	
  
       2)	
   CONFRONTO	
  FRA	
  DATI	
  ASSOCIATI	
                                                                                                    27	
  
              - Test	
  Q	
  di	
  Cochran	
                                                                                                             27	
  

CAPITOLO	
  IV	
  -­‐	
  REGRESSIONE	
  E	
  ODDS	
  RATIO	
  (OR)	
                                                                                     30	
  
ODDS	
  E	
  ODDS	
  RATIO	
  (OR)	
                                                                                                                     30	
  
APPLICAZIONI	
  DI	
  OR	
                                                                                                                               31	
  
       - Un	
  problema	
  per	
  i	
  confronti:	
  la	
  standardizzazione	
                                                                           34	
  
FATTORI	
  SECONDARI	
  E	
  DI	
  CONFONDIMENTO.	
  STRATIFICAZIONE.	
                                                                                  36	
  
       - Test	
  di	
  	
  Mantel-­‐Haenszel	
                                                                                                           37	
  
                Programma	
  in	
  Basic	
  MH	
  per	
  il	
  test	
  di	
  Mantel-­‐Haenzsel	
                                                         38	
  

CAPITOLO	
  V	
  -­‐	
  COMBINAZIONE	
  DI	
  RISULTATI	
  E	
  TABELLE.	
  	
  META-­‐ANALISI.	
                                                        40	
  
                         Programma	
  in	
  Basic	
  AGGREG	
  per	
  aggregare	
  tabelle	
  2	
  x	
  2	
                                              43	
  

Guido Galli – Test Statistici per dati nominali                                                                                                             2
CAPITOLO	
  VI	
  -­‐	
  ALTRI	
  IMPORTANTI	
  TIPI	
  DI	
  REGRESSIONE	
                                                    44	
  
A)	
   REGRESSIONE	
  DI	
  VARIABILE	
  NOMINALE	
  BINARIA	
  CON	
  VARIABILE	
  ORDINALE:	
  TABELLA	
  M	
  X	
  2.	
     44	
  
                Programma	
  in	
  Basic	
  REGM2	
  per	
  regressione	
  variab.	
  binaria/var.	
  ordinale	
               46	
  
B)	
   REGRESSIONE	
  DI	
  VARIABILE	
  NOMINALE	
  BINARIA	
  CON	
  VARIABILE	
  NUMERICA	
  CONTINUA	
                     46	
  
C)	
   REGRESSIONE	
  DI	
  VARIABILE	
  NOMINALE	
  BINARIA	
  CON	
  VARIABILI	
  MULTIPLE	
  DI	
  OGNI	
  TIPO	
           48	
  
      -­‐	
  REGRESSIONE	
  LOGISTICA	
                                                                                        48	
  

CAPITOLO	
  VII	
  -­‐	
  INDICI	
  DI	
  ASSOCIAZIONE	
  E	
  CONCORDANZA	
                                                   52	
  
1)	
   ASSOCIAZIONE	
  IN	
  TABELLE	
  2	
  X	
  2	
                                                                          52	
  
      COEFFICIENTE	
  DI	
  ASSOCIAZIONE	
  R ϕ 	
                                                                             52	
  
2)	
   ASSOCIAZIONE	
  IN	
  TABELLE	
  M	
  X	
  N	
                                                                          53	
  
      COEFFICIENTE	
  DI	
  CRAMÉR	
                                                                                           53	
  
3)	
   CONCORDANZA	
  FRA	
  OSSERVATORI	
  ED	
  AFFIDABILITÀ	
  DELLE	
  OSSERVAZIONI	
                                      54	
  
      A)	
   DUE	
  OSSERVATORI,	
  DUE	
  CATEGORIE	
  DI	
  GIUDIZIO	
                                                       54	
  
      B)	
   DUE	
  	
  OSSERVATORI	
  E	
  PIÙ	
  CATEGORIE	
                                                                 56	
  
             - Statistica	
  K	
  di	
  Cohen	
                                                                                56	
  
                         Programma	
  in	
  Basic	
  K	
  -­‐	
  per	
  statistica	
  K	
  di	
  Cohen	
                       58	
  
      C)	
   DUE	
  OSSERVATORI,	
  	
  PIÙ	
  	
  CATEGORIE	
  “ORDINATE”	
                                                   59	
  
             - Il	
  K	
  	
  di	
  Cohen	
  “pesato”	
                                                                        59	
  
                              Programma	
  in	
  Basic	
  KW	
  -­‐	
  per	
  il	
  K	
  di	
  Cohen	
  “pesato”	
  (Kw)	
     61	
  
      D)	
   PIÙ	
  OSSERVATORI	
  E	
  PIÙ	
  CATEGORIE	
                                                                     61	
  
             - La	
  statistica	
  K	
  di	
  Fleiss	
                                                                         61	
  
                       Programma	
  in	
  Basic	
  KF	
  -­‐	
  per	
  il	
  K	
  di	
  Fleiss	
                               63	
  

RACCOMANDAZIONE	
  FINALE	
                                                                                                    64	
  

APPENDICE	
                                                                                                                    65	
  
TAVOLA	
  DEI	
  VALORI	
  CRITICI	
  DI	
  CHI	
  QUADRO	
  (FINO	
  A	
  20	
  GRADI	
  DI	
  LIBERTÀ)	
                     65	
  

Guido Galli – Test Statistici per dati nominali                                                                                   3
Introduzione

Le variabili che più ci interessano
Per variabile si intende, nell’accezione più ampia, tutto ciò che può essere osservato, misurato,
classificato dando così luogo a dati trattabili con metodi statistici.
Le variabili possono essere quantitative o qualitative.
Le variabili quantitative sono quelle che danno luogo a dati di tipo numerico, frutto di misurazioni (non
accennerò qui al problema delle scale di misura). I metodi statistici più noti anche ai medici d’area
radiologica, come il t di Student o l’analisi della varianza, riguardano le variabili quantitative ed in
particolare i dati che si suppone abbiano una distribuzione normale (gaussiana). Il trattamento dei dati di
questo tipo è oggetto della cosiddetta Statistica parametrica, alla quale è riservato lo spazio di gran
lunga maggiore nei libri di statistica, anche quando dedicati alla Medicina. La Statistica parametrica è
quella che, storicamente, è stata sviluppata per prima; è quella nella quale Statistici e Biometristi sono più
ferrati e che quindi preferenzialmente trattano quando chiamati ad insegnare nelle nostre scuole di
specialità.
Tuttavia dati di questo tipo non sono molto frequenti in Diagnostica per Immagini. Lo sono di più nel
settore della Medicina Nucleare (risultati di prove funzionali, di dosaggi, ecc.); in campo nucleare è
impiegato anche un tipo particolare di statistica dei dati numerici: la statistica dei conteggi (basata sulla
distribuzione di Poisson).
In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si è più spesso di fronte a variabili
qualitative, dal momento che si ha a che fare con l’interpretazione “qualitativa” di immagini. I dati di
queste variabili non sono caratterizzati da quantità numeriche, ma risultano da una identificazione
(classificazione) in categorie di particolari oggetti o particolari caratteristiche (aspetti) di un oggetto. In
rapporto alla variabile “colore” una cosa può essere identificata come bianca, rossa, verde, ecc. In
rapporto alla sua morfologia, una opacità polmonare può essere identificata come “tumore”, “processo
flogistico” od altro. In rapporto alla sua evoluzione un tumore può essere classificato come appartenente
al I, II, III o IV stadio.
Già questi esempi ci mostrano che vi sono due tipi di variabili qualitativei:
   - Nominali, per le quali tutto quello che si può fare è identificare la categoria, o il carattere, con un
     nome, senza che ciò corrisponda ad un ordine naturale delle categorie o stabilisca fra loro particolari
     rapporti. Le variabili nominali possono essere multicategoriali (come nell’esempio del “colore”,
     per il quale vi sono varie categorie: giallo, verde, azzurro, ecc.), ma un tipo particolarmente
     importante nella nostra area professionale è quello in cui una certa caratteristica è presente od
     assente, per cui l’osservazione cade soltanto in una di due possibili categorie: ad esempio
     deceduto/sopravvivente, positivo/negativo, patologico/non patologico ecc. Queste variabili
     nominali sono dette anche quantali, binarie o dicotomiche. Si noti che possono essere ricondotte a
     variabili dicotomiche, trattabili con test statistici ad hoc, anche variabili qualitative multicategoriali
     (per es. se si decide di classificare i vari colori soltanto come bianco o non bianco) e perfino
     variabili numeriche continue: per es. se si decide di classificare come “positivo” il risultato di un
     dosaggio quando supera una certa soglia e “negativo” se rimane al di sotto. Si noti anche che una
     variabile nominale può essere costituita da numeri, che in questo caso hanno solo funzione di
     “nome” od “etichetta”: una targa automobilistica numerica non è altro che il “nome” assegnato dal
     Registro alla automobile di un particolare Tizio; altro esempio sono i codici numerici che
     contraddistinguono le patologie nelle classificazioni sanitarie e nei tariffari.

Guido Galli – Test Statistici per dati nominali                                                               4
- Ordinali: in queste le categorie hanno un ordine naturale non ambiguo, che stabilisce “precedenze”
       o “priorità”: prendendo come esempio la stadiazione di un tumore, l’ordine di precedenza è stabilito
       dall’evoluzione della neoplasia; al II stadio è più avanzata che al I, al III più avanzata che al
       secondo e così via. Sovente, come in questo caso, i nomi sono numeri (ordinali, appunto): si pensi,
       come altro esempio, all’ordine di arrivo dei partecipanti ad una corsa: primo, secondo, terzo,ecc.
       Anche se vi è un ordine, non è detto che le “distanze”, od “intervalli” fra le categorie siano uniformi
       e costanti (per lo più non lo sono: il distacco fra il primo e il secondo arrivato in una corsa può
       essere minimo, ed invece grande il distacco fra il secondo e il terzo).

La statistica non parametrica
Le variabili qualitative non sono in genere trattabili con i metodi della statistica classica cosiddetta
“parametrica”, perché basata sui parametri della distribuzione normale . Occorrono i test della “Statistica
non parametrica”, che, da un punto di vista pratico, hanno alcuni svantaggi:
    - sono per lo più meno efficienti dei test parametrici;
    - sono poco conosciuti dai medici e quindi poco o male applicati;
    - non è facile trovarli ampiamente e bene descritti in libri di base di Statistica. A proposito: a chi
       volesse approfondire a notevole livello parte degli argomenti trattati in questi appunti posso
       consigliare: Peter Armitage, Geoffrey Berry Statistica medica: metodi statistici per la ricerca in
       medicina McGraw-Hill Libri Italia srl e, per la Statistica non parametrica prevalente in questi
       Appunti, Sidney Siegel, N. John Castellan Statistica non parametrica (Ed. italiana a cura di Ettore
       Caracciolo) McGraw-Hill Libri Italia srl. Per chi ama l’inglese, un buon libro è: Douglas G.
       Altman Practical statistics for medical research Chapman & Hall/CRC. Alcuni degli argomenti qui
       trattati sono approfonditi ad alto livello nel libro di Stephen C. Newman Biostatistical methods in
       epidemiology John Wiley &Sons.Inc.
    - Alcuni test, anche utili, non sono disponibili nei consueti packages statistici per personal computer.
       Si trova invece anche troppo materiale se ne digitiamo il nome in Google: così da confondere chi
       non è già pratico dell’argomento. Anche per questo ho ritenuto utile semplificare l’argomento
       scegliendo i test più importanti e chiarendone l’impiego pratico con questi Appunti.
Per contro i test non parametrici hanno il vantaggio di essere sovente di esecuzione piuttosto semplice e di
non presentare particolari difficoltà di calcolo: serve una calcolatrice tascabile solo perché ci siamo
dimenticati come si fanno a mano le quattro operazioni aritmetiche e come si estrae una radice quadrata.
E non è neppure necessario comprarla. Tutti hanno un PC con Windows, ma forse pochi si siano accorti
che seguendo il percorso Start-Programmi-Accessori compare, fra gli Accessori, anche la scritta
“Calcolatrice”. Cliccando su di essa compare sul display una calcolatrice della quale con l’opzione
“Visualizza” si può avere una versione standard (simile alle macchinette tascabili da quattro soldi) o una
versione scientifica: quest’ultima consente, con poca fatica di effettuare quasi tutti i calcoli presenti in
questi Appunti, anche quelli con fattoriali, logaritmi, esponenziali, ecc.
Inoltre, avendo Office di Windows, molte funzioni statistiche utili in pratica si trovano nel programma
Excel e verrà mostrato, nel corso degli Appunti, come far uso di alcune di esse. A questo proposito va
installato, prendendolo dal disco di Office o dalla rete, anche il modulo aggiuntivo “Analisi dati” che
contiene molte importanti funzioni, come, ad esempio, i vari tipi di ANOVA. Da Internet potete anche
scaricare un ottimo testo di Maria Garetto, dell’Università di Torino, “Laboratorio di Statistica con
Excel”, con 78 Esercizi ben spiegati che vi renderanno facilmente padroni della materia. Il che è utile,
perché il problema dei software professionali statistici in commercio (tipo SPPS, BMPD, STATA ecc.)
non è tanto il prezzo, quanto la difficoltà per un medico ad imparare ad usarli per la dimensione dei
manuali d’uso e l’impegno necessario a comprenderli. Excel è ubiquitario e facile: perché non usarlo? A

Guido Galli – Test Statistici per dati nominali                                                              5
mio parere l’unica difficoltà dell’impiego di Excel per la statistica sta nel fatto che la descrizione delle
funzioni nella Guida in Linea dell’edizione italiana è scritta in un gergo totalmente incomprensibile.

Questi Appunti
Questi Appunti riguardano i test per il trattamento statistico dei dati nominali – con qualche necessaria
incursione in quelli ordinali . Illustreremo quanto verremo dicendo con esempi tratti da Riviste o, se di
fantasia, pertinenti al nostro ambito di attività professionale e di ricerca.
Preghiamo chi legge di seguire attentamente gli esempi (è attraverso quelli che spesso imparerà quanto ad
una prima lettura gli apparirà oscuro) e di ripercorrerli, dopo averli letti, provvedendo personalmente ai
calcoli. E’ utile e comodo usare il computer ed i relativi programmi statistici: ma i test statistici si
imparano veramente soltanto facendoli, almeno una volta. Se poi, dopo averli imparati, si dovessero usare
nella pratica sarebbe assurdo fare i calcoli a mano: è molto utile il computer. Vi sono in commercio molti
programmi statistici per PC a prezzo accessibile ed altri si possono scaricare anche gratuitamente da
Internet. Alcuni importanti test trattati in questi appunti (dal χ 2 alla regressione logistica) sono presenti in
quasi tutti i programmi. Altri invece, importanti per la nostra specifica area di attività professionale, sono
di difficile reperibilità, oppure la loro esecuzione non dà tutte le informazioni che potrebbe dare. Per
questi ultimi ho ritenuto opportuno redigere, ed inserire nel testo perché siano a disposizione dei lettori,
semplici e brevi programmi scritti in GW-Basic 3.23.
Per i numeri che compaiono in questo testo sarà usato il punto, anziché la virgola, per separare l’intero dai
decimali. Nella scia del costume anglosassone, questo è ormai l’uso comune. Ma ricordiamoci che Excel,
edizione italiana, vuole la virgola.

Guido Galli – Test Statistici per dati nominali                                                                6
CAPITOLO I - Frequenza e probabilità

 Distribuzione binomiale
 Un evento classificabile con un nome dà luogo ad un dato nominale e tutto quel che possiamo fare, come
 già si è detto, è contare -e registrare- la frequenza di questi eventi.
 Ma quale è la probabilità del singolo evento? Dipende dall’attesa che di esso abbiamo e questa, a sua
 volta, dipende dalla nostra conoscenza della distribuzione degli eventi di quel tipo nel mondo reale. Se
 sappiamo che quel tipo di evento è comune, ci sembra verosimile che esso giunga alla nostra
 osservazione; cosa che riteniamo invece improbabile se sappiamo che è raro. Non penso che sia
 probabile che la prima ragazza che incontro abbia gli occhi verdi proprio perché so che quelli castani sono
 molto più frequenti nella realtà e mi sembra quindi più verosimile che la ragazza debba avere gli occhi di
 quel colore. Se sapessi che nella popolazione italiana il 6 % delle giovani donne ha gli occhi verdi,
 riterrei di avere un 6 % di probabilità di incontrare una giovane con gli occhi di quell’affascinante colore.
 Quel che è frequenza nella popolazione diviene probabilità per il singolo caso.
 Supponiamo ora che io conosca esattamente come è la distribuzione del carattere “nominale” nella
 popolazione. So, per esempio (avendo consultato le Tavole Geigy) che nella popolazione europea il
 44.42 % delle persone hanno sangue di gruppo A (A1 36.7%, A2 7.72%), il 40.4 % ha sangue del gruppo
 0, il 10.65 % del gruppo B, il 4.65% del gruppo AB (A1B 3.58 %, A2B 0.92 %).
 10% vuol dire 1 su 10: posso perciò attendermi che se prelevo il sangue a 10 persone ve ne sia una del
 gruppo B. Ma l’attesa può andare delusa: può non esserci nessuno, o magari, per caso, essercene due o
 perfino più di due. Diviene allora importante la domanda: quale è la probabilità di avere 0, 1, 2, 3, 4…10
 risultati (campioni di sangue) di tipo B su 10 prove (prelievi)? La soluzione è stata data da J.Bernouilli nel
 diciassettesimo secolo (ed è incredibile quel che sapessero già fare in quei tempi antichi) con la teoria
 della distribuzione binomiale.
 La formula matematica che governa la distribuzione permette di rispondere alla domanda: se conosco che
 nella popolazione un evento (o caratteristica, ecc.) di tipo A si presenta con probabilità P (chiamiamo con
 P maiuscolo la frequenza relativa, conosciuta, che l’evento ha nella realtà), quale probabilità p (minuscolo)
 ho di trovarlo X volte in un campione di dimensione N? Espresso con questo gergo –che è quello familiare
 ai libri di statistica- il concetto è quasi incomprensibile, ma diviene solare con questo esempio: se so che
 lanciando una moneta la probabilità che venga testa è, come è ovvio, P = 0,5 (cioè il 50%, ed identica è la
 probabilità che venga croce), quale probabilità p vi è che su 7 (N) lanci si ottenga 5 (X) volte il risultato
 “testa”? Applicando la formula della distribuzione binomiale so che la probabilità di ottenere 5 teste su 7
 lanci è il 16,4%. Ecco la formula:
                                                  N!
                                   p( X ) =               ⋅ P X ⋅ (1 − P) N − X
                                            X !( N − X )!
Dove p = probabilità da determinare; X = previsione ( o speranza) di un certo risultato numerico ( nel
nostro caso 5 “teste”); N numero delle prove ( nel nostro caso 7 lanci della moneta); P = frequenza del
risultato atteso nella realtà ( nel nostro caso 0.5 cioè 50 %).
Questo risultato è di modesto interesse per un medico, ma se uno fosse il responsabile di un centro
emotrasfusionale che ha esaurito il sangue di gruppo A1B e per rifarne una scorta gli servissero al minimo
tre donatori di quel gruppo, potrebbe chiedersi con una certa ansia: che probabilità ho che tra i prossimi 10
donatori che si presenteranno ve ne siano 3 del gruppo A1B? Egli sa che il gruppo A1B è presente all’incirca
nel 3% della popolazione e può quindi applicare la formula:

 Guido Galli – Test Statistici per dati nominali                                                              7
10!
                                                   p(3) =          x0.033 x0.97 7
                                                            3! x7!
Cioè: (3628800 / 30240) x 0,000027 x 0,808 = 0.0026 (0.26%)
 Ahimè1 Egli constata con sconforto che la probabilità di trovare tre persone del gruppo A1B nei 10 donatori
che si presenteranno è solo del 0.26 %. Era meglio non lasciare esaurire la scorta.
Lo stesso risultato viene ottenuto se, per risparmiare fatica, si utilizza DISTRIB.BINOM delle Funzioni
Statistiche di Excel (VEDI Nota). A voi, freschi di liceo, è inutile ricordare che il punto esclamativo indica il
fattoriale di un numero: 5! è uguale a 1x2x3x4x5 = 120. 3! = 1x2x3 = 6. Per convenzione 0! = 1. Però, se
volete applicare la formula, non illudetevi di facilmente calcolare a mano i fattoriali. Per fortuna troverete
una funzione “FATTORIALE” fra quelle Matematiche di Excel: introducendovi, ad es., il numero 36
apprenderete con terrore che il suo fattoriale è 3.72 x1041.
Lasciatemi dire che quel responsabile del Centro Trasfusionale, pur commendevole per il fatto che conosce
la distribuzione binomiale, poteva fare meglio dal punto di vista statistico. Se invece che tre donatori di tipo
A1B se ne presentassero quattro (evento che ovviamente ha una probabilità minore di 0.26%) sarebbe
dispiaciuto? No, sarebbe felice! E anche nel caso fossero 5 o più. Forse solamente se tutti i 10 prossimi
donatori fossero A1B, evento estremamente improbabile ma teoricamente non impossibile, direbbe “Troppa
grazia Sant’Antonio!” senza peraltro rifiutare il Suo dono.
Quindi la probabilità che realmente gli interessa non è solo quella dell’evento sperato (3 donatori A1B), ma
quella di almeno 3 : cioè la probabilità di 3 donatori più quella di eventi ancor più estremi (4 donatori, 5
donatori…10 donatori); deve quindi calcolarle e farne la somma (o risparmiarsi la fatica usando Excel).
Ricordiamoci che così viene applicata, di solito, la formula della distribuzione binomiale.
Nota per l’uso di Excel. La funzione statistica DISTRIB.BINOM chiede il numero dei successi (cioè, nel
ns. esempio, il numero dei donatori del gruppo A1B), il numero delle prove (10, nel nostro caso), la
probabilità nota del singolo evento (0,03 per noi; attenti alla virgola!) e se la probabilità calcolata è
cumulativa (VERO) o no (FALSO). Per calcolare la probabilità che vengano 3 donatori del gruppo A1B su
10 prossimi venturi la cosa più semplice è scrivere in una casella del foglio di lavoro (per esempio la A1) il
numero delle prove (10), e in un’altra (A2) la probabilità nota (0,03). Poi in una terza casella (supponiamo
l’A3) scriviamo: =DISTRIB.BINOM(3;A1;A2;FALSO). Premendo “Invio” nella casella A3 comparirà il
risultato: 0,002618. Se scrivessimo =DISTRIB.BINOM(3;A1;A2;VERO) avremmo la probabilità –
cumulativa- che vengano più di tre soggetti del gruppo A1B (cioè che ne vengano 4, o 5, o 6 ecc.). E’ molto
piccola: 0,000147. Quindi la probabilità che ne vengano 3 o più di 3 è 0,002618 + 0.000147 = 0,001765.
Non è un risultato che conforti molto il responsabile del Centro.

 Guido Galli – Test Statistici per dati nominali                                                               8
CAPITOLO II - Statistica delle frequenze relative (proporzioni)

Siccome quel che si può fare con i dati nominali è contarli, rilevando quindi delle frequenze, la logica
vorrebbe che cominciassimo con la statistica delle frequenze, raccolte in Tabelle di contingenza. Ma noi
siamo troppo abituati, nella nostra pratica, ad utilizzare frequenze relative, ovvero proporzioni, spesso
espresse come percentuali. Voglio quindi iniziare con queste: il lettore si accorgerà, nel successivo
Capitolo, che molte delle cose imparate si possono fare, ed anche meglio, lavorando direttamente sulle
frequenze.
Cosa faccio contando le osservazioni? Stabilisco la frequenza della caratteristica che interessa. Se dico:
“In questo gruppo di oggetti 15 sono bianchi” è perché ho rilevato con un conteggio che il carattere
denominato “bianco” è 15 volte frequente nella mia osservazione. Le frequenze possono venire utilizzate
tal quali in molti test statistici; ma un passo che spesso viene compiuto è rapportare la frequenza al totale
delle osservazioni, trasformandola così in proporzione o frequenza relativa. Come esempio di
proporzioni ne riportiamo due usatissime nella letteratura radiologica. La sensibilità è la proporzione che
deriva dal rapportare il numero (frequenza) dei risultati “veri positivi” al numero dei malati esaminati; la
specificità deriva dal rapporto fra la frequenza dei “veri negativi” e il numero dei soggetti non malati. Se
una indagine diagnostica, mettiamo la TC, correttamente identifica una particolare patologia in 20
soggetti su 25 che ne sono affetti, noi diciamo che quella indagine ha una sensibilità: 20 / 25 = 0.8 = 80%
e diciamo che ha una specificità del 90% se esclude la malattia in 27 su 30 soggetti non patologici
esaminati (27 / 30 = 0.9 = 90%). Si noti che i rapporti danno luogo a frazioni dell’unità, spesso
trasformate in percentuali per miglior comprensione. Ai fini statistici è bene che le proporzioni rimangano
espresse in frazioni dell’unità.
                                                               a
In simbologia matematica la proporzione è perciò: p =             , dove p (minuscolo) è la proporzione nel
                                                               n
campione studiato, a la frequenza osservata del carattere e n la numerosità del campione. Con la lettera q
si usa designare la quantità 1 – p; perciò se p (la sensibilità, nel precedente esempio) è 0.8 , q sarà: 1 – 0.8
= 0.2 .

A) Limiti fiduciali di una proporzione
Raramente qualcuno osserva un campione per affermare qualcosa che riguarda soltanto il campione
stesso. Quello che in realtà si vuol fare è inferire dal campione qualcosa che riguarda, più generalmente,
la popolazione da cui il campione è tratto. Quando il radiologo che ha usato la TC nel precedente
esempio, afferma: “La specificità della TC è del 90%” in realtà non sta pensando: “E’ del 90% in questi
trenta soggetti, ma potrebbe avere un valore completamente diverso in un altro gruppo”; egli invece, in
base alla sua osservazione, si attende che l’impiego generalizzato della TC per quella indicazione dia una
specificità se non proprio del 90%, almeno nell’attorno del 90%.
                                           a
Quando però si vuole inferire da p =          (cioè la proporzione osservata nel campione) qualcosa che
                                           n
               A
riguarda P =     (dove le lettere maiuscole indicano che si tratta della proporzione nella popolazione e non
               N
nel campione) una cosa è molto importante e viene spesso trascurata: stabilire i limiti fiduciali della
proporzione osservata nel campione studiato. I limiti fiduciali sono quei due valori entro i quali si può
ritenere che stia, con il 95% (o 99%) di confidenza (si usa dire “di probabilità”, ma non è
correttissimo), il valore “vero” della proporzione P nella popolazione.

Guido Galli – Test Statistici per dati nominali                                                                9
Purtroppo per avere i limiti esatti o si deve effettuare un laborioso calcolo (proprio basato sulla
distribuzione binomiale di cui abbiamo parlato) o bisogna consultare tabelle reperibili nella letteratura
statistica specialistica. Tabelle ottime e complete per i limiti fiduciali si trovano a pag. 89-102 delle
Tavole Geigy 1982, Volume II.
Diamo tuttavia qui un semplicissimo metodo di calcolo che fornisce un risultato approssimato, ma
sufficiente:
- a renderci conto subito della bontà, o meno, dei nostri risultati;
- a confrontare i nostri risultati con dati della letteratura.

Metodo
                                                           p⋅q
-    Si determina l’Errore Standard di p che è:      ES =
                                                            n
-    I limiti di confidenza (al 95%) sono: L.C. = p ± 1.96 x ES

Attenzione! Questo metodo è buono se moltiplicando n sia per p che per q (e ricordiamo che q è 1-p) si
ha, in entrambi i casi, un risultato maggiore di 10; non si può usare se uno dei due è minore di 5.

Esempio operativo n. 1
In una pubblicazione di qualche anno fa (Torricelli et al. La RM con bobina endorettale nel Ca. del retto
Radiol.Med 1, 74-83, 2002) vi sono dati che permettono di stimare l’efficacia della RM endorettale per la
rilevazione delle metastasi linfonodali da Ca. rettale. Su 11 pazienti con metastasi linfonodali
istologicamente accertate (Linfonodi+), il reperto RM fu positivo in 9 (“veri positivi”), mentre fu
negativo (“veri negativi”) in 15 su 27 pazienti con linfonodi indenni (Linfonodi -). Possiamo ordinare i
dati in una tabella e procedere al calcolo (per la sensibilità e la specificità abbiamo già visto come si fa;
l’accuratezza è la somma dei risultati “veri” fratta il totale dei casi, cioè (9 + 15) / (11 + 27) = 0.63):

             Linfonodi +          Linfonodi –       Sensibilità = 0.82 (82%)

RM +               9                    12          Specificità = 0.55 (55%)
RM -               2                    15
  Totale          11                    27          Accuratezza = 0.63 (63%)

Domanda: potremmo dedurre da questi dati che la RM endorettale ha, quando estesamente applicata per
la ricerca delle metastasi linfonodali, una sensibilità nell’attorno dell’ 80% ?
Applichiamo il semplice metodo che abbiamo imparato per trovare i limiti di confidenza:
                          p⋅q      0.82 ⋅ 0.18
ES della proporzione:         =                = 0.116
                           n           11
Quindi la proporzione nel campione è: Sensibilità = 0.82 ± 0.116

L.C. = 0.82 ± 1.96 x 0.116 Limite superiore = 0.82 + 0.227 = 1.047 (104.7%)
                           Limite inferiore = 0.82 - 0.227 = 0.593 (59.3%)

Il risultato 104.7 % è assurdo (va oltre il 100% !) perché non avevamo controllato se il metodo è
applicabile. Ma non è correttamente applicabile: infatti 0.82 x 11 (p x n) dà 9.02 e va bene; però 0.18 x 11
(q x n) dà 1.98 (
Qualcuno afferma che in casi come questo non sia illecito troncare l’eccedenza: si potrebbe perciò dire
che i limiti di confidenza vadano dal 59.3 % al 100%.
Ma è certamente più appropriato accertare nelle Tavole Geigy il risultato esatto:
Limite inferiore = 0.482 (48.2 %) Limite superiore = 0.977 (97.7%)

Insegnamenti dell’esempio
1) L’intervallo di confidenza è troppo ampio: i casi studiati sono pochi per trarre attendibili
   indicazioni;
2) Nella discussione riportata nella pubblicazione citata, gli Autori sembrano sorpresi che un altro
   autore, Chan, abbia trovato una sensibilità solo del 57%, apparentemente lontana dall’82 % da
   loro determinato. In realtà il dato di Chan non è affatto incompatibile con i loro (abbiamo visto
   che la sensibilità “vera” può infatti stare fra il 48.2 e il 97.7 %);
3) Se si considera l’ampiezza dell’intervallo di confidenza è molto dubbio che la presenza di metastasi
   linfonodali sia efficacemente rivelata dalla RM endorettale (o, per lo meno, la pubblicazione citata
   non lo dimostra)

Uno degli errori che ho visto più frequentemente commettere in relazioni e comunicazioni a Congressi e
Raduni è il riportare in diapositive i valori di Sensibilità, Specificità ed Accuratezza senza i rispettivi
limiti di confidenza.
Se dovete pubblicare dati di vostre ricerche è doveroso che forniate i limiti di confidenza esatti. E’
opportuno ricordare che quelli forniti da parecchi programmi statistici per PC sono proprio basati sul
metodo approssimato che abbiamo descritto: è bene quindi non fidarsi e controllare sulle Tavole. Non
sempre è facile trovarle: ma in tal caso…
Pochi sanno che…
…. se si dispone di Windows Office si possono calcolare con non molta fatica i limiti esatti. Fra le
funzioni statistiche preprogrammate di Excel vi è infatti INV.F che può essere utilizzata allo scopo nel
modo che qui illustriamo, calcolando il limite inferiore per il nostro esempio (e ricordando, beninteso, che
    a
p=     ):
    n
                                a                          9
Limite inferiore (LI) =                     Cioè: LI =
                        a + (n − a + 1) ⋅ F            9 + 3⋅ F
A questo punto aprite Excel e, senza stare a digitare nulla nel foglio di lavoro, cercate le funzioni
preprogrammate (freccetta vicino al simbolo ∑ ); nel menù selezionate Altre funzioni e cercate nella
categoria Statistiche cliccando poi su INV.F Apparirà una finestra che vi chiede: Probabilità e qui dovete
inserire 0,025 se volete l’intervallo di confidenza al 95 % come è usuale. La seconda domanda è: Grado
di libertà 1. Per il limite inferiore GL1 = 2n – 2a +2 il che, per il nostro esempio, è pari a 6, che inserite.
Terza domanda: Grado di libertà 2 ; esso è GL2 = 2a, cioè nel nostro caso 18. Inseritelo e già nella
finestra, in basso, apparirà il risultato F = 3,2209. Se cliccate su OK, verrà trasportato sul foglio di
lavoro..
                                                 9
 Completiamo quindi la formula: LI =                      = 0. 4822 (48.22%)
                                         9 + (3 ⋅ 3.2209)
Ci vuol molto più tempo a descrivere l’operazione che a farla ed è certamente più comodo che andare in
Biblioteca a cercare le Tavole Geigy.

Guido Galli – Test Statistici per dati nominali                                                              11
Divertitevi (!) a calcolare il limite superiore tenendo conto che per esso è :
              a +1
LS =                          con GL1 = 2a + 2 e GL2 = 2n – a
      a + 1 + (n − a) ⋅ 1 / F

B) Confronto fra due proporzioni
Premessa generale da leggere assolutamente
Quattro importanti punti sui confronti statistici
 1. Ricordiamo, anche se noto, che quando si procede ad un confronto statistico per testare una differenza
– e questo vale non solo per i dati categoriali, ma sempre- si parte dall’ipotesi H0 (detta anche “ipotesi
nulla”): cioè quella che una differenza in realtà non vi sia e che quella osservata sia soltanto casuale,
dal momento che i campioni che si confrontano si presumono tratti dalla stessa popolazione. Quando
diciamo: “Il risultato di questo test ci indica che vi è una differenza significativa con p
dimostrarne in via statistica l'utilità a causa di errori del II tipo: per la ridotta potenza non sono emerse
differenze che in realtà c’erano.
Per la potenza si è meno esigenti che per la significatività: ci si accontenta in genere di potenze
nell’attorno di 0.8 (80 % invece di 95 %).

3. Una domanda che è sempre necessario porsi allorché ci si accinge ad un confronto è: i dati sono stati
raccolti in individui differenti o negli stessi soggetti? Per fare un esempio: voglio verificare se la glicemia
di 10 soggetti abituali consumatori di dolciumi è diversa, in media, da quella di 10 vegetariani. I due
campioni sono composti da individui differenti: siamo di fronte, in tal caso, a dati indipendenti. Ma
quando voglio verificare se la glicemia misurata in 10 soggetti si modifica a seguito di un certo
trattamento farmacologico, determinerò la glicemia in ciascun soggetto prima e dopo il trattamento:
ottenendo così due campioni, ciascuno di 10 osservazioni raccolte negli stessi individui. Si parla, in tal
caso, di dati appaiati, perché per ogni soggetto al dato “prima” corrisponde uno, ed uno soltanto, dei dati
“dopo”. Lo schema “prima e dopo” rappresenta la più frequente occasione, in medicina, di avere dati
appaiati; ma vi sono anche altre circostanze. Per esempio se voglio confrontare, utilizzando i soliti 10
soggetti, i risultati della misurazione della glicemia ottenibili con il metodo A, con quelli ottenibili con il
metodo B. Anche in questo caso i dati delle 10 osservazioni compiute con il metodo A saranno di
necessità appaiati con quelli delle 10 misurazioni effettuate con B sugli stessi campioni di sangue. Gli
studi con “dati appaiati” sono frequenti nell’area radiologica, perché spesso si vuole esaminare la resa di
una metodica in confronto con altre metodiche applicate agli stessi soggetti per le stesse patologie.
I test per dati indipendenti sono diversi da quelli per i dati appaiati: ed uno dei più frequenti errori nella
pratica è di utilizzare i test per dati indipendenti (che sono più conosciuti), quando si dovrebbero
utilizzare test per dati appaiati. I quali sono più efficaci: e quindi adatti a mettere in evidenza come
significative differenze che verrebbero ignorate dai test per dati indipendenti. Dal fatto che i dati siano
indipendenti od associati dipende quindi la scelta del test adatto; e anticipiamo qui che nel Capitolo che
seguirà, dedicato al confronto di dati nominali raccolti in tabelle di contingenza, saranno illustrati i
seguenti test:
- Chi quadro e test di Fisher per i dati raccolti in due gruppi di soggetti diversi (è il caso, nella pratica, più
frequente);
- Test di McNemar e Test esatto per dati appaiati per il confronto di due gruppi di dati raccolti negli stessi
soggetti ;
- Estensione del Chi quadro per l’analisi di più di due gruppi di dati raccolti in soggetti diversi;
- Test di Cochran per il confronto di più di due gruppi di dati affiancati negli stessi soggetti.

 4. Effettuando un test per confronti ci si dovrebbe infine chiedere: intendo effettuare un test “a due code”
o un test “a una coda” ? Si effettua un test “a due code” se si vuole esaminare che sia significativa una
differenza comunque orientata (e cioè, allorché si confronta A con B, tanto nel senso che A sia maggiore
di B, quanto nel senso che B sia maggiore di A). Si effettua un test a “una coda” se si hanno buone
ragioni per pensare che la differenza, se c’è, sia orientata in un particolare modo: per es. che A debba
essere maggiore di B e si vuole la prova che ciò sia vero. Per affermare una differenza a “una coda”
bastano risultati dei test per il confronto che non sarebbero significativi “a due code”. Ciò è allettante
(soprattutto quando si testano dati propri e la differenza la si vuol proprio vedere!), ma pericoloso per la
correttezza della ricerca: perciò i risultati di test a una coda vanno valutati con prudenza, ed è in genere
consigliabile utilizzare come significativi i valori del test “a due code”. E’ la ragione per cui d’ora in poi
forniremo solo questi (come del resto per lo più è nelle tavole dei testi di statistica).

Guido Galli – Test Statistici per dati nominali                                                                13
Metodo per il confronto di due proporzioni
Capita spesso di chiedersi: ma la differenza fra queste due proporzioni (osservate, per esempio, in soggetti
diversi) è significativa oppure no? In genere si preferisce confrontare, con i metodi che vedremo nel
Capitolo II, le frequenze dalle quali le proporzioni sono tratte, ma può essere praticamente utile disporre
di un semplice metodo (anche se subisce qualche critica nella letteratura statistica) per confrontare
direttamente due proporzioni fra loro.
Consideriamo la proporzione p1, determinata su un primo gruppo di N1 individui (q1 è il complemento ad
1 di p1) per confrontarla con la proporzione p2 ( q2 sarà 1 – p2 ) determinata su un secondo gruppo di N2
individui.
Si calcola Z:
                                               p1 − p2
                                      Z=
                                                 1     1
                                             pq     +
                                                 N1 N 2

Z è significativo con p
Nota II: Il metodo tende a sopravalutare le differenze. Perciò se Z calcolato è inferiore a 1.96, come
nell’esempio, possiamo tranquillamente affermare che “la differenza non è significativa”. Ma se Z supera
1.96 solo di poco la significatività della differenza dovrebbe venire verificata, per esempio con la formula
riportata nella Nota a pag. 23.

La differenza fra proporzioni: importanza dell’intervallo di confidenza
Nelle applicazioni mediche quello che di solito interessa è la entità della differenza fra due proporzioni.
Supponiamo, ad esempio, che un nuovo farmaco A abbia dato una risposta soddisfacente in 30 su 40
pazienti (il 75%; p =0.75) mentre il tradizionale farmaco B è risultato efficace in 12 su 30 (p = 0.4, 40%)
soggetti affetti dalla stessa malattia. Il medico che ha osservato questi risultati si chiede: “Che il farmaco
A sembri più efficace si vede ad occhio, ma la differenza d’effetto a favore di A (cioè 75 – 40 = 35%) è
realmente significativa o no? Perché se non lo fosse, nonostante l’apparenza, non prescriverei A, che è più
costoso, e mi atterrei ancora a B”.
A questa e ad altre consimili domande si può rispondere determinando l’Intervallo di confidenza (IC)
della differenza: che stabilisce i due limiti entro i quali può stare la differenza “vera” fra le due
proporzioni. L’intervallo è dato da:
                                                              p1 (1 − p1 ) p 2 (1 − p 2 )
                              IC = (p1 – p2 ) ± 1.96 x                    +
                                                                   n1           n2
Dove p1 e p2 sono le proporzioni determinate sui gruppi di cui n1 e rispettivamente n2 indicano la
numerosità dei campioni.
Applichiamola al caso di cui sopra:
                                                                     0.75 x0.25 0.4 x0.6
                                   IC = (0.75 – 0.40) ± 1.96 x                 +         =
                                                                         40        30
                                                  0.35 ± 1.96 x 0.0047 + 0.008 =
                                                      = 0.35 ± 1.96 x 0.113 =
                                                           0.35 ± 0.22.
Il limite inferiore dell’intervallo sarà quindi: 0.35 -0.22 = 0.129 (12.9 %).
Il limite superiore sarà: 0.35 + 0.22 = 0.57 (57 %).
Possiamo quindi ritenere che la differenza, indicata come 35 % dalle osservazioni compiute, possa in
realtà stare fra 13% (arrotondiamo) e 57 %. E nutriamo una fiducia (confidenza) del 95 % che questo sia
vero. Al 95 % perché nella formula c’è 1.96: se ci servisse una fiducia maggiore (al 99 %) metteremmo
2.58 al posto di 1.96; se ci accontentassimo di una minore (al 90 %: sufficiente in parecchi studi clinici)
useremmo 1.645.
Perché la differenza sia significativa, l’IC non deve comprendere lo 0 (come è ovvio: differenza 0
significa che non c’è differenza). L’intervallo calcolato dal medico è lontano da 0 anche con il suo limite
inferiore. Il nostro medico si persuade quindi che vi è una differenza significativa e che vale la pena di
prescrivere A, nonostante il costo (facendo felice la Ditta produttrice).
La semplice formula qui presentata funziona bene se ogni gruppo è composto da 20 o più soggetti; meno
bene per gruppi più piccoli.
Applichiamo ora la formula ai dati dell’esempio operativo 2. I calcoli li farà, per esercizio, il lettore:
troverà che l’intervallo di confidenza (al 95 %) della differenza può andare da -0.099 (-9.9 %) a 0.533
(53.3 %). La differenza fra le proporzioni non è significativa in quanto comprende lo 0, come è
testimoniato dal segno negativo apposto al limite di confidenza inferiore. Che non fosse significativa già
lo sapevamo avendo effettuato il test Z, ma ora sappiamo una cosa in più: vi sono meno di 10 punti (9.9)

Guido Galli – Test Statistici per dati nominali                                                             15
percentuali a favore dell’ipotesi che la scintigrafia sia più efficace nel rilevare le metastasi da Ca. tiroideo,
contro più di 53 (53.3) punti percentuali a favore dell’ipotesi che essa sia più efficace nelle metastasi da
ca. polmonare. Diventa quindi probabile che la maggior efficacia non sia stata dimostrata solo perché i
casi studiati erano pochi, e siamo indotti a continuare la ricerca, raccogliendo un maggior numero di
pazienti.
L’importanza di non limitarsi ai test di significatività quando si fanno dei confronti, ma di considerare
anche attentamente gli intervalli di confidenza delle differenze è sottolineata da molti Autori: e la cosa
non vale solo per le proporzioni, ma per ogni confronto statistico.

C) Quanti casi raccogliere per un confronto fra proporzioni?
Abbiamo visto, nell’esempio 2, che la proporzione di reperti positivi ottenuti con la scintigrafia nelle
metastasi ossee da ca, tiroideo (0.533 cioè 53.3%) e quella nelle metastasi da ca. polmonare (0.75, il 75%)
non era statisticamente significativa. Però la considerazione dell’intervallo di confidenza della differenza
ci aveva incoraggiato a proseguire, raccogliendo più casi.
Sì, ma quanti pazienti dovrò esaminare per dimostrare bene quella differenza?
Per rispondere a questa domanda (che rientra nel problema, più generale, del dimensionamento del
campione) vi sono formule abbastanza complesse e tavole reperibili in letteratura. Ma siccome di solito si
assume una significatività con p = 0.05 e una Potenza dell’80% c’è una semplicissima formula chiamata
“regola del 16” (di Lehr) che ci risparmia di dover scartabellare:
                                                          p ⋅ (1 − p )
                                          n. casi = 16 ⋅
                                                         ( p1 − p2 ) 2
dove p1 è la proporzione nel I gruppo (0.533 per l’esempio), p2 quella del secondo gruppo (0.75). Quanto
a p, se i due gruppi hanno lo stesso numero di casi è semplicemente la media fra p1 e p2.
Questo però non è vero per l’esempio perché in un gruppo ci sono 15 casi e nell’altro 20. Quando i due
gruppi hanno diversa numerosità, bisogna sommare le frequenze e rapportarle alla somma dei casi dei due
gruppi. Quindi p = (8+15)/(15+20) = 23/35 = 0.657. Proprio la stessa cosa che abbiamo fatto per trovare p
da applicare nella formula per il test Z.
Di conseguenza la regola del 16 ci dice.
                                                      0.657 ⋅ 0.343
                                      n. casi = 16 ⋅                  = 76
                                                     (0.533 − 0.75) 2
Il programma di statistica che ho nel mio PC (oltre Excel uso Statistix 9, più completo e molto “friendly”)
dà esattamente lo stesso numero.
Dovremo quindi raccogliere 76 pazienti per ciascuno dei due gruppi. Non è certo poco, anche se già
abbiamo 15 casi in un gruppo e 20 nell’altro: dobbiamo riflettere se convenga, o no, proseguire la ricerca.

Guido Galli – Test Statistici per dati nominali                                                                16
CAPITOLO III - Tabelle di contingenza e confronti di frequenze

A) Ordinamento delle frequenze
La tabellina riportata nell’esempio operativo n.1 è un esempio di tabella di contingenza. Le tabelle di
contingenza sono un modo di ordinare le frequenze quando vi sono più gruppi (di soggetti o di
osservazioni) e gli elementi che compongono tali gruppi vengono classificati in rapporto a più categorie
di appartenenza. Il caso più semplice e più frequente nella pratica è quello di due gruppi e due categorie
(tabelle 2 x 2 , con due colonne e due righe). Nell’esempio n. 1 il I gruppo è quello dei pazienti con
linfonodi metastatici (risultati tali all’accertamento istologico); il II gruppo è quello dei pazienti con
linfonodi esenti da metastasi; i soggetti appartenenti ai due gruppi sono suddivisi a seconda che la RM
endorettale abbia evidenziato un quadro “positivo” o “negativo” per la metastatizzazione.
Ovviamente se i gruppi sono parecchi e/o sono parecchie le categorie, la tabella non sarà 2 x 2 , ma
comprenderà più righe e più colonne: sarà cioè una tabella cosiddetta m x n , dove m sono le righe e n le
colonne.
Per evitare confusioni ed un uso improprio dei test, quando si costruisce una tabella di contingenza
bisogna porre cura a riportare nelle colonne la variabile indipendente e nelle righe la variabile
dipendente (come nell’esempio n.1, nel quale la caratteristica indipendente è che i linfonodi siano, o no,
sede di metastasi, mentre il risultato RM è quello che dipende dalle condizioni dei linfonodi).
Sulle frequenze raccolte in tabelle di contingenza si possono effettuare test di confronto (per evidenziare
differenze significative) e test di associazione (per studiare correlazioni fra le variabili).
Nelle formule che si usano per effettuare i test statistici, gli elementi della tabella di contingenza sono
indicati con lettere. Una tabella 2 x 2 assume di conseguenza l’aspetto che segue (al quale fare riferimento
per interpretare le formule; le lettere nelle formule possono essere anche maiuscole):

                                                   GRUPPO
                              Variabile            I    II   Totali
                                  +                a    b    a+b
                                  -                c    d    c+d
                                  Totali          a+c  b+d    n
I totali vengono chiamati totali marginali.
Per la tabella dell’esempio n. 1: a = 9; b = 12; c = 2; d = 15 con i totali marginali a+b = 21; c+d = 17;
a+c = 11; b+d = 27; n = 38 .

B) Test per i confronti
1) Tabelle 2 x 2: confronto fra dati indipendenti
Il test più impiegato nella pratica è il test del Chi Quadrato: lo esamineremo pertanto in dettaglio. Vi sono
però casi (campioni di piccole dimensioni ) nei quali questo test non è correttamente applicabile e bisogna
ricorrere al test di Fisher (che è in ogni caso il più esatto, ma ha il difetto di rendere indispensabile l’uso
del computer).
                                          2
Metodo del chi quadrato ( χ )
Principio: si confrontano le frequenze osservate nei due campioni con quelle che ci potremmo attendere
se fosse vera l’ipotesi H0; maggiore è la divergenza fra valori osservati e valori attesi (attesi nell’ipotesi

Guido Galli – Test Statistici per dati nominali                                                              17
che differenze non ci siano), maggiore è la significatività della differenza. Per capire il principio e il
procedimento, applichiamo il metodo allo:

Esempio operativo n. 3
Riprendiamo i dati che ci servirono per l’esempio operativo n. 1. Questa volta ci chiederemo: la
proporzione di reperti “veri” (cioè confermati come positivi o come negativi dall’esame istologico) è
significativamente diversa nello studio con RM endorettale dei linfonodi patologici da quel che è nello
studio dei linfonodi esenti da metastasi ? Ciò equivale a chiedersi: la frazione dei “veri positivi” è
significativamente diversa dalla frazione dei “veri negativi” ovvero: la sensibilità è significativamente
diversa dalla specificità?
 Poniamo (in grassetto) le frequenze osservate (O) in questo modo:
                               I gruppo (metastasi)       II gruppo (linf. indenni)      Totali
                 Veri                 9(a)                          15 ( b )               24
                 Falsi                2(c)                          12 ( d )               14
                       Totali        11                             27                     38
Quindi ora ci proponiamo di vedere se è significativa la differenza fra 9 risultati “veri positivi” su 11
malati (linfonodi metastatici), con una proporzione di 9/11 = 0.818 (81.8%), e 15 “veri negativi” su 27
soggetti senza metastasi linfonodali, con una proporzione di 0.555 (55.5%). Cioè di esaminare se la
sensibilità è significativamente differente dalla specificità.
Se si assume che non vi siano differenze fra i due gruppi (ipotesi H0 ), i due campioni possono venire
considerati come uno solo e la proporzione di risultati “veri” attesa nell’ipotesi H0 è: 24/38, cioè p = 0.63
(q = 0.37).
Questa proporzione ci permette di calcolare le frequenze “attese” se non ci fosse differenza fra i due
gruppi. Infatti:
a = 0.63 x 11 = 6.95 b = 0.63 x 27 = 17 c = 0.37 x 11 = 4.07 d = 0.37 x 27 = 10
Più semplicemente e praticamente: le frequenze “attese” (E) si trovano per ogni casella moltiplicando i
due totali marginali corrispondenti alla casella e dividendoli per N totale.
Ad es. per la casella a, E = 24 x 11 /38 = 6.95. Vedremo che questo servirà anche per tabelle più
complesse della 2x2 (Tabelle m x n).
Scriviamole fra parentesi le frequenze attese E, accanto a quelle osservate O:
                               Veri 9 ( 6.95 )       15 ( 17 )
                               Falsi 2 ( 4.07 )      12 ( 10 )
     2
Il χ (di Pearson) si calcola:
     - facendo la differenza fra il valore osservato e quello atteso per ogni elemento della tabella;
     - mettendo la differenza al quadrato (serve a eliminare i segni negativi);
     - dividendola per il valore “atteso.
     Perciò:
        2   (9 − 6.95) 2 (15 − 17)2 (2 − 4.07)2 (12 − 10)2
      χ =               +          +           +           = 0.695 +0.235+1.053+0.4 = 2.3
               6.95          17        4.07         10
     (arrotondando il risultato)
Correzione per la continuità di Yates

Per le tabelle 2x2 è stato consigliato da Yates (e ormai da quasi tutti adottato) una correzione al metodo
sopradescritto consistente nell’aggiustare i valori osservati di 0.5 punti più vicino ai valori “attesi” (ciò
ovviamente diminuisce le differenze e quindi la significatività del valore calcolato di χ 2 ).

Guido Galli – Test Statistici per dati nominali                                                            18
(8.5 − 6.93) 2 (15.5 − 17) 2 (2.5 − 4.07) 2 (11.5 − 10) 2
            χ 2 (corretto) =        +               +              +                = 1.32
                          6.93              17           4.07             10
Importante: il χ 2 corretto secondo Yates può essere calcolato dalle frequenze originali di una tabella 2 x
2 con questa formula che rende il calcolo molto facile (ed è quella di solito usata anche nei programmi per
PC ), dove le barre verticali indicano “prendi il valore assoluto”:
                                 N
                  ( ad − bc − ) 2 N                              ( 9 x12 − 15 x 2 − 19) 2 x38
         2
        χ =                      2                            2
                                             Per l’esempio: χ =                               = 1.32
              (a + b)(c + d )(a + c)(b + d )                           24 x14 x11x 27

Quasi tutti i programmi statistici per PC forniscono sia il risultato non corretto che quello corretto. E’
bene quindi ricordare che il valore trovato senza la correzione di Yates è quello che fornisce il p meglio
adatto a valutare la significatività della differenza quando si intenda usare “ad una coda” il test.
Questo uso “ad una coda” non è infrequente nella ricerca medica. Mettiamo che si voglia valutare
l’effetto di un agente presumibilmente oncogeno (radiazioni, fumo, chemiotossici, ecc.). E’ difficile
pensare che negli esposti a questi fattori di rischio si verifichi una significativa diminuzione di tumori
rispetto ai non esposti! Quel che si vuol sapere è se l’aumento di neoplasie che probabilmente si osserverà
sia significativo o no; e per questo basta un test “a una coda”. Ciò avviene anche per altre applicazioni. Se
sperimento un trattamento dimagrante, quello che voglio vedere è se esso provoca una significativa
diminuzione di peso: non mi attendo (soprattutto dopo che è stato studiato su animali) che esso faccia
ingrassare!

Nota.- E’ interessante il calcolo del χ 2 a partire non dalle frequenze, ma dalla proporzione del carattere
che interessa :
                                                                             2

                                                      χ   2
                                                              =
                                                                ∑ n ⋅ ( p − P)
                                                                    i   i

                                                    P ⋅ (1 − P )
In essa pi indica la proporzione, in ogni gruppo i, dell’evento che interessa; ni il numero dei casi del
gruppo; P la proporzione generale che si ottiene riunendo i casi dei gruppi in un gruppo soltanto. Per
miglior chiarezza, ricalcoliamo con questa formula l’esempio di cui sopra, nel quale, ovviamente,
l’evento che interessa è il risultato “vero”:
    n1 = 11; p1 = 9/11 = 0.818
    n2 = 27; p2 = 15/27 = 0.555
    P = (9+15)/(11+27) = 0.3675; 1-P = 0.3625
                                                  2                              2
                      11 ⋅ (0.818 − 0.6375) + 27 ⋅ (0.555 − 0.6375)   0.3584 + 0.1838
                 χ =       2
                                                                    =                 = 2.3
                                       0.6375 ⋅ 0.3625                    0.2311
     Questa formula torna utile quando si trovano, magari in qualche pubblicazione, risultati espressi
     come proporzioni, o percentuali, e non come frequenze. Proviamo a calcolare il χ 2 per l’ Esempio
     operativo n. 2.
                                      2                        2
        215 ⋅ (0.533 − 0.657) + 20 ⋅ (0.75 − 0.657)   15 ⋅ 0.0154 + 20 ⋅ 0.00965
   χ =                                              =                            = 1.79
                         0.657 ⋅ 0.343                          0.2254
Che non è significativo per una differenza.

Guido Galli – Test Statistici per dati nominali                                                            19
Puoi anche leggere