TEST STATISTICI PER DATI NOMINALI - APPUNTI Per gli specializzandi e per i partecipanti ai Corsi AIRM
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Guido Galli TEST STATISTICI PER DATI NOMINALI APPUNTI Per gli specializzandi e per i partecipanti ai Corsi AIRM
INDICE INTRODUZIONE 4 LE VARIABILI CHE PIÙ CI INTERESSANO 4 LA STATISTICA NON PARAMETRICA 5 QUESTI APPUNTI 6 CAPITOLO I -‐ FREQUENZA E PROBABILITÀ 7 DISTRIBUZIONE BINOMIALE 7 CAPITOLO II -‐ STATISTICA DELLE FREQUENZE RELATIVE (PROPORZIONI) 9 A) LIMITI FIDUCIALI DI UNA PROPORZIONE 9 - Metodo 10 - Insegnamenti dell’esempio 11 B) CONFRONTO FRA DUE PROPORZIONI 12 - Premessa generale da leggere assolutamente 12 Quattro importanti punti sui confronti statistici 12 C) QUANTI CASI RACCOGLIERE PER UN CONFRONTO FRA PROPORZIONI? 16 CAPITOLO III -‐ TABELLE DI CONTINGENZA E CONFRONTI DI FREQUENZE 17 A) ORDINAMENTO DELLE FREQUENZE 17 B) TEST PER I CONFRONTI 17 1) TABELLE 2 X 2: CONFRONTO FRA DATI INDIPENDENTI 17 2 - Metodo del chi quadrato ( χ ) 17 - Correzione per la continuità di Yates 18 Programma in Basic per il calcolo del Chi Quadrato per Tab. 2x2 con vari metodi 20 - Il test esatto di Fisher 21 - Importanti consigli pratici per i confronti in Tab. 2 x 2 22 2) TABELLE 2 X 2: CONFRONTO FRA DATI APPAIATI 23 - Test di Mc Nemar 23 - Test esatto per il confronto di dati appaiati in Tab. 2 x 2 24 C) TABELLE M X N 25 1) CONFRONTO FRA DATI INDIPENDENTI 25 - Estensione del test del Chi Quadrato 25 Programma in Basic ESTENCHI Chi Quadrato per confronti multipli 27 2) CONFRONTO FRA DATI ASSOCIATI 27 - Test Q di Cochran 27 CAPITOLO IV -‐ REGRESSIONE E ODDS RATIO (OR) 30 ODDS E ODDS RATIO (OR) 30 APPLICAZIONI DI OR 31 - Un problema per i confronti: la standardizzazione 34 FATTORI SECONDARI E DI CONFONDIMENTO. STRATIFICAZIONE. 36 - Test di Mantel-‐Haenszel 37 Programma in Basic MH per il test di Mantel-‐Haenzsel 38 CAPITOLO V -‐ COMBINAZIONE DI RISULTATI E TABELLE. META-‐ANALISI. 40 Programma in Basic AGGREG per aggregare tabelle 2 x 2 43 Guido Galli – Test Statistici per dati nominali 2
CAPITOLO VI -‐ ALTRI IMPORTANTI TIPI DI REGRESSIONE 44 A) REGRESSIONE DI VARIABILE NOMINALE BINARIA CON VARIABILE ORDINALE: TABELLA M X 2. 44 Programma in Basic REGM2 per regressione variab. binaria/var. ordinale 46 B) REGRESSIONE DI VARIABILE NOMINALE BINARIA CON VARIABILE NUMERICA CONTINUA 46 C) REGRESSIONE DI VARIABILE NOMINALE BINARIA CON VARIABILI MULTIPLE DI OGNI TIPO 48 -‐ REGRESSIONE LOGISTICA 48 CAPITOLO VII -‐ INDICI DI ASSOCIAZIONE E CONCORDANZA 52 1) ASSOCIAZIONE IN TABELLE 2 X 2 52 COEFFICIENTE DI ASSOCIAZIONE R ϕ 52 2) ASSOCIAZIONE IN TABELLE M X N 53 COEFFICIENTE DI CRAMÉR 53 3) CONCORDANZA FRA OSSERVATORI ED AFFIDABILITÀ DELLE OSSERVAZIONI 54 A) DUE OSSERVATORI, DUE CATEGORIE DI GIUDIZIO 54 B) DUE OSSERVATORI E PIÙ CATEGORIE 56 - Statistica K di Cohen 56 Programma in Basic K -‐ per statistica K di Cohen 58 C) DUE OSSERVATORI, PIÙ CATEGORIE “ORDINATE” 59 - Il K di Cohen “pesato” 59 Programma in Basic KW -‐ per il K di Cohen “pesato” (Kw) 61 D) PIÙ OSSERVATORI E PIÙ CATEGORIE 61 - La statistica K di Fleiss 61 Programma in Basic KF -‐ per il K di Fleiss 63 RACCOMANDAZIONE FINALE 64 APPENDICE 65 TAVOLA DEI VALORI CRITICI DI CHI QUADRO (FINO A 20 GRADI DI LIBERTÀ) 65 Guido Galli – Test Statistici per dati nominali 3
Introduzione Le variabili che più ci interessano Per variabile si intende, nell’accezione più ampia, tutto ciò che può essere osservato, misurato, classificato dando così luogo a dati trattabili con metodi statistici. Le variabili possono essere quantitative o qualitative. Le variabili quantitative sono quelle che danno luogo a dati di tipo numerico, frutto di misurazioni (non accennerò qui al problema delle scale di misura). I metodi statistici più noti anche ai medici d’area radiologica, come il t di Student o l’analisi della varianza, riguardano le variabili quantitative ed in particolare i dati che si suppone abbiano una distribuzione normale (gaussiana). Il trattamento dei dati di questo tipo è oggetto della cosiddetta Statistica parametrica, alla quale è riservato lo spazio di gran lunga maggiore nei libri di statistica, anche quando dedicati alla Medicina. La Statistica parametrica è quella che, storicamente, è stata sviluppata per prima; è quella nella quale Statistici e Biometristi sono più ferrati e che quindi preferenzialmente trattano quando chiamati ad insegnare nelle nostre scuole di specialità. Tuttavia dati di questo tipo non sono molto frequenti in Diagnostica per Immagini. Lo sono di più nel settore della Medicina Nucleare (risultati di prove funzionali, di dosaggi, ecc.); in campo nucleare è impiegato anche un tipo particolare di statistica dei dati numerici: la statistica dei conteggi (basata sulla distribuzione di Poisson). In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si è più spesso di fronte a variabili qualitative, dal momento che si ha a che fare con l’interpretazione “qualitativa” di immagini. I dati di queste variabili non sono caratterizzati da quantità numeriche, ma risultano da una identificazione (classificazione) in categorie di particolari oggetti o particolari caratteristiche (aspetti) di un oggetto. In rapporto alla variabile “colore” una cosa può essere identificata come bianca, rossa, verde, ecc. In rapporto alla sua morfologia, una opacità polmonare può essere identificata come “tumore”, “processo flogistico” od altro. In rapporto alla sua evoluzione un tumore può essere classificato come appartenente al I, II, III o IV stadio. Già questi esempi ci mostrano che vi sono due tipi di variabili qualitativei: - Nominali, per le quali tutto quello che si può fare è identificare la categoria, o il carattere, con un nome, senza che ciò corrisponda ad un ordine naturale delle categorie o stabilisca fra loro particolari rapporti. Le variabili nominali possono essere multicategoriali (come nell’esempio del “colore”, per il quale vi sono varie categorie: giallo, verde, azzurro, ecc.), ma un tipo particolarmente importante nella nostra area professionale è quello in cui una certa caratteristica è presente od assente, per cui l’osservazione cade soltanto in una di due possibili categorie: ad esempio deceduto/sopravvivente, positivo/negativo, patologico/non patologico ecc. Queste variabili nominali sono dette anche quantali, binarie o dicotomiche. Si noti che possono essere ricondotte a variabili dicotomiche, trattabili con test statistici ad hoc, anche variabili qualitative multicategoriali (per es. se si decide di classificare i vari colori soltanto come bianco o non bianco) e perfino variabili numeriche continue: per es. se si decide di classificare come “positivo” il risultato di un dosaggio quando supera una certa soglia e “negativo” se rimane al di sotto. Si noti anche che una variabile nominale può essere costituita da numeri, che in questo caso hanno solo funzione di “nome” od “etichetta”: una targa automobilistica numerica non è altro che il “nome” assegnato dal Registro alla automobile di un particolare Tizio; altro esempio sono i codici numerici che contraddistinguono le patologie nelle classificazioni sanitarie e nei tariffari. Guido Galli – Test Statistici per dati nominali 4
- Ordinali: in queste le categorie hanno un ordine naturale non ambiguo, che stabilisce “precedenze” o “priorità”: prendendo come esempio la stadiazione di un tumore, l’ordine di precedenza è stabilito dall’evoluzione della neoplasia; al II stadio è più avanzata che al I, al III più avanzata che al secondo e così via. Sovente, come in questo caso, i nomi sono numeri (ordinali, appunto): si pensi, come altro esempio, all’ordine di arrivo dei partecipanti ad una corsa: primo, secondo, terzo,ecc. Anche se vi è un ordine, non è detto che le “distanze”, od “intervalli” fra le categorie siano uniformi e costanti (per lo più non lo sono: il distacco fra il primo e il secondo arrivato in una corsa può essere minimo, ed invece grande il distacco fra il secondo e il terzo). La statistica non parametrica Le variabili qualitative non sono in genere trattabili con i metodi della statistica classica cosiddetta “parametrica”, perché basata sui parametri della distribuzione normale . Occorrono i test della “Statistica non parametrica”, che, da un punto di vista pratico, hanno alcuni svantaggi: - sono per lo più meno efficienti dei test parametrici; - sono poco conosciuti dai medici e quindi poco o male applicati; - non è facile trovarli ampiamente e bene descritti in libri di base di Statistica. A proposito: a chi volesse approfondire a notevole livello parte degli argomenti trattati in questi appunti posso consigliare: Peter Armitage, Geoffrey Berry Statistica medica: metodi statistici per la ricerca in medicina McGraw-Hill Libri Italia srl e, per la Statistica non parametrica prevalente in questi Appunti, Sidney Siegel, N. John Castellan Statistica non parametrica (Ed. italiana a cura di Ettore Caracciolo) McGraw-Hill Libri Italia srl. Per chi ama l’inglese, un buon libro è: Douglas G. Altman Practical statistics for medical research Chapman & Hall/CRC. Alcuni degli argomenti qui trattati sono approfonditi ad alto livello nel libro di Stephen C. Newman Biostatistical methods in epidemiology John Wiley &Sons.Inc. - Alcuni test, anche utili, non sono disponibili nei consueti packages statistici per personal computer. Si trova invece anche troppo materiale se ne digitiamo il nome in Google: così da confondere chi non è già pratico dell’argomento. Anche per questo ho ritenuto utile semplificare l’argomento scegliendo i test più importanti e chiarendone l’impiego pratico con questi Appunti. Per contro i test non parametrici hanno il vantaggio di essere sovente di esecuzione piuttosto semplice e di non presentare particolari difficoltà di calcolo: serve una calcolatrice tascabile solo perché ci siamo dimenticati come si fanno a mano le quattro operazioni aritmetiche e come si estrae una radice quadrata. E non è neppure necessario comprarla. Tutti hanno un PC con Windows, ma forse pochi si siano accorti che seguendo il percorso Start-Programmi-Accessori compare, fra gli Accessori, anche la scritta “Calcolatrice”. Cliccando su di essa compare sul display una calcolatrice della quale con l’opzione “Visualizza” si può avere una versione standard (simile alle macchinette tascabili da quattro soldi) o una versione scientifica: quest’ultima consente, con poca fatica di effettuare quasi tutti i calcoli presenti in questi Appunti, anche quelli con fattoriali, logaritmi, esponenziali, ecc. Inoltre, avendo Office di Windows, molte funzioni statistiche utili in pratica si trovano nel programma Excel e verrà mostrato, nel corso degli Appunti, come far uso di alcune di esse. A questo proposito va installato, prendendolo dal disco di Office o dalla rete, anche il modulo aggiuntivo “Analisi dati” che contiene molte importanti funzioni, come, ad esempio, i vari tipi di ANOVA. Da Internet potete anche scaricare un ottimo testo di Maria Garetto, dell’Università di Torino, “Laboratorio di Statistica con Excel”, con 78 Esercizi ben spiegati che vi renderanno facilmente padroni della materia. Il che è utile, perché il problema dei software professionali statistici in commercio (tipo SPPS, BMPD, STATA ecc.) non è tanto il prezzo, quanto la difficoltà per un medico ad imparare ad usarli per la dimensione dei manuali d’uso e l’impegno necessario a comprenderli. Excel è ubiquitario e facile: perché non usarlo? A Guido Galli – Test Statistici per dati nominali 5
mio parere l’unica difficoltà dell’impiego di Excel per la statistica sta nel fatto che la descrizione delle funzioni nella Guida in Linea dell’edizione italiana è scritta in un gergo totalmente incomprensibile. Questi Appunti Questi Appunti riguardano i test per il trattamento statistico dei dati nominali – con qualche necessaria incursione in quelli ordinali . Illustreremo quanto verremo dicendo con esempi tratti da Riviste o, se di fantasia, pertinenti al nostro ambito di attività professionale e di ricerca. Preghiamo chi legge di seguire attentamente gli esempi (è attraverso quelli che spesso imparerà quanto ad una prima lettura gli apparirà oscuro) e di ripercorrerli, dopo averli letti, provvedendo personalmente ai calcoli. E’ utile e comodo usare il computer ed i relativi programmi statistici: ma i test statistici si imparano veramente soltanto facendoli, almeno una volta. Se poi, dopo averli imparati, si dovessero usare nella pratica sarebbe assurdo fare i calcoli a mano: è molto utile il computer. Vi sono in commercio molti programmi statistici per PC a prezzo accessibile ed altri si possono scaricare anche gratuitamente da Internet. Alcuni importanti test trattati in questi appunti (dal χ 2 alla regressione logistica) sono presenti in quasi tutti i programmi. Altri invece, importanti per la nostra specifica area di attività professionale, sono di difficile reperibilità, oppure la loro esecuzione non dà tutte le informazioni che potrebbe dare. Per questi ultimi ho ritenuto opportuno redigere, ed inserire nel testo perché siano a disposizione dei lettori, semplici e brevi programmi scritti in GW-Basic 3.23. Per i numeri che compaiono in questo testo sarà usato il punto, anziché la virgola, per separare l’intero dai decimali. Nella scia del costume anglosassone, questo è ormai l’uso comune. Ma ricordiamoci che Excel, edizione italiana, vuole la virgola. Guido Galli – Test Statistici per dati nominali 6
CAPITOLO I - Frequenza e probabilità Distribuzione binomiale Un evento classificabile con un nome dà luogo ad un dato nominale e tutto quel che possiamo fare, come già si è detto, è contare -e registrare- la frequenza di questi eventi. Ma quale è la probabilità del singolo evento? Dipende dall’attesa che di esso abbiamo e questa, a sua volta, dipende dalla nostra conoscenza della distribuzione degli eventi di quel tipo nel mondo reale. Se sappiamo che quel tipo di evento è comune, ci sembra verosimile che esso giunga alla nostra osservazione; cosa che riteniamo invece improbabile se sappiamo che è raro. Non penso che sia probabile che la prima ragazza che incontro abbia gli occhi verdi proprio perché so che quelli castani sono molto più frequenti nella realtà e mi sembra quindi più verosimile che la ragazza debba avere gli occhi di quel colore. Se sapessi che nella popolazione italiana il 6 % delle giovani donne ha gli occhi verdi, riterrei di avere un 6 % di probabilità di incontrare una giovane con gli occhi di quell’affascinante colore. Quel che è frequenza nella popolazione diviene probabilità per il singolo caso. Supponiamo ora che io conosca esattamente come è la distribuzione del carattere “nominale” nella popolazione. So, per esempio (avendo consultato le Tavole Geigy) che nella popolazione europea il 44.42 % delle persone hanno sangue di gruppo A (A1 36.7%, A2 7.72%), il 40.4 % ha sangue del gruppo 0, il 10.65 % del gruppo B, il 4.65% del gruppo AB (A1B 3.58 %, A2B 0.92 %). 10% vuol dire 1 su 10: posso perciò attendermi che se prelevo il sangue a 10 persone ve ne sia una del gruppo B. Ma l’attesa può andare delusa: può non esserci nessuno, o magari, per caso, essercene due o perfino più di due. Diviene allora importante la domanda: quale è la probabilità di avere 0, 1, 2, 3, 4…10 risultati (campioni di sangue) di tipo B su 10 prove (prelievi)? La soluzione è stata data da J.Bernouilli nel diciassettesimo secolo (ed è incredibile quel che sapessero già fare in quei tempi antichi) con la teoria della distribuzione binomiale. La formula matematica che governa la distribuzione permette di rispondere alla domanda: se conosco che nella popolazione un evento (o caratteristica, ecc.) di tipo A si presenta con probabilità P (chiamiamo con P maiuscolo la frequenza relativa, conosciuta, che l’evento ha nella realtà), quale probabilità p (minuscolo) ho di trovarlo X volte in un campione di dimensione N? Espresso con questo gergo –che è quello familiare ai libri di statistica- il concetto è quasi incomprensibile, ma diviene solare con questo esempio: se so che lanciando una moneta la probabilità che venga testa è, come è ovvio, P = 0,5 (cioè il 50%, ed identica è la probabilità che venga croce), quale probabilità p vi è che su 7 (N) lanci si ottenga 5 (X) volte il risultato “testa”? Applicando la formula della distribuzione binomiale so che la probabilità di ottenere 5 teste su 7 lanci è il 16,4%. Ecco la formula: N! p( X ) = ⋅ P X ⋅ (1 − P) N − X X !( N − X )! Dove p = probabilità da determinare; X = previsione ( o speranza) di un certo risultato numerico ( nel nostro caso 5 “teste”); N numero delle prove ( nel nostro caso 7 lanci della moneta); P = frequenza del risultato atteso nella realtà ( nel nostro caso 0.5 cioè 50 %). Questo risultato è di modesto interesse per un medico, ma se uno fosse il responsabile di un centro emotrasfusionale che ha esaurito il sangue di gruppo A1B e per rifarne una scorta gli servissero al minimo tre donatori di quel gruppo, potrebbe chiedersi con una certa ansia: che probabilità ho che tra i prossimi 10 donatori che si presenteranno ve ne siano 3 del gruppo A1B? Egli sa che il gruppo A1B è presente all’incirca nel 3% della popolazione e può quindi applicare la formula: Guido Galli – Test Statistici per dati nominali 7
10! p(3) = x0.033 x0.97 7 3! x7! Cioè: (3628800 / 30240) x 0,000027 x 0,808 = 0.0026 (0.26%) Ahimè1 Egli constata con sconforto che la probabilità di trovare tre persone del gruppo A1B nei 10 donatori che si presenteranno è solo del 0.26 %. Era meglio non lasciare esaurire la scorta. Lo stesso risultato viene ottenuto se, per risparmiare fatica, si utilizza DISTRIB.BINOM delle Funzioni Statistiche di Excel (VEDI Nota). A voi, freschi di liceo, è inutile ricordare che il punto esclamativo indica il fattoriale di un numero: 5! è uguale a 1x2x3x4x5 = 120. 3! = 1x2x3 = 6. Per convenzione 0! = 1. Però, se volete applicare la formula, non illudetevi di facilmente calcolare a mano i fattoriali. Per fortuna troverete una funzione “FATTORIALE” fra quelle Matematiche di Excel: introducendovi, ad es., il numero 36 apprenderete con terrore che il suo fattoriale è 3.72 x1041. Lasciatemi dire che quel responsabile del Centro Trasfusionale, pur commendevole per il fatto che conosce la distribuzione binomiale, poteva fare meglio dal punto di vista statistico. Se invece che tre donatori di tipo A1B se ne presentassero quattro (evento che ovviamente ha una probabilità minore di 0.26%) sarebbe dispiaciuto? No, sarebbe felice! E anche nel caso fossero 5 o più. Forse solamente se tutti i 10 prossimi donatori fossero A1B, evento estremamente improbabile ma teoricamente non impossibile, direbbe “Troppa grazia Sant’Antonio!” senza peraltro rifiutare il Suo dono. Quindi la probabilità che realmente gli interessa non è solo quella dell’evento sperato (3 donatori A1B), ma quella di almeno 3 : cioè la probabilità di 3 donatori più quella di eventi ancor più estremi (4 donatori, 5 donatori…10 donatori); deve quindi calcolarle e farne la somma (o risparmiarsi la fatica usando Excel). Ricordiamoci che così viene applicata, di solito, la formula della distribuzione binomiale. Nota per l’uso di Excel. La funzione statistica DISTRIB.BINOM chiede il numero dei successi (cioè, nel ns. esempio, il numero dei donatori del gruppo A1B), il numero delle prove (10, nel nostro caso), la probabilità nota del singolo evento (0,03 per noi; attenti alla virgola!) e se la probabilità calcolata è cumulativa (VERO) o no (FALSO). Per calcolare la probabilità che vengano 3 donatori del gruppo A1B su 10 prossimi venturi la cosa più semplice è scrivere in una casella del foglio di lavoro (per esempio la A1) il numero delle prove (10), e in un’altra (A2) la probabilità nota (0,03). Poi in una terza casella (supponiamo l’A3) scriviamo: =DISTRIB.BINOM(3;A1;A2;FALSO). Premendo “Invio” nella casella A3 comparirà il risultato: 0,002618. Se scrivessimo =DISTRIB.BINOM(3;A1;A2;VERO) avremmo la probabilità – cumulativa- che vengano più di tre soggetti del gruppo A1B (cioè che ne vengano 4, o 5, o 6 ecc.). E’ molto piccola: 0,000147. Quindi la probabilità che ne vengano 3 o più di 3 è 0,002618 + 0.000147 = 0,001765. Non è un risultato che conforti molto il responsabile del Centro. Guido Galli – Test Statistici per dati nominali 8
CAPITOLO II - Statistica delle frequenze relative (proporzioni) Siccome quel che si può fare con i dati nominali è contarli, rilevando quindi delle frequenze, la logica vorrebbe che cominciassimo con la statistica delle frequenze, raccolte in Tabelle di contingenza. Ma noi siamo troppo abituati, nella nostra pratica, ad utilizzare frequenze relative, ovvero proporzioni, spesso espresse come percentuali. Voglio quindi iniziare con queste: il lettore si accorgerà, nel successivo Capitolo, che molte delle cose imparate si possono fare, ed anche meglio, lavorando direttamente sulle frequenze. Cosa faccio contando le osservazioni? Stabilisco la frequenza della caratteristica che interessa. Se dico: “In questo gruppo di oggetti 15 sono bianchi” è perché ho rilevato con un conteggio che il carattere denominato “bianco” è 15 volte frequente nella mia osservazione. Le frequenze possono venire utilizzate tal quali in molti test statistici; ma un passo che spesso viene compiuto è rapportare la frequenza al totale delle osservazioni, trasformandola così in proporzione o frequenza relativa. Come esempio di proporzioni ne riportiamo due usatissime nella letteratura radiologica. La sensibilità è la proporzione che deriva dal rapportare il numero (frequenza) dei risultati “veri positivi” al numero dei malati esaminati; la specificità deriva dal rapporto fra la frequenza dei “veri negativi” e il numero dei soggetti non malati. Se una indagine diagnostica, mettiamo la TC, correttamente identifica una particolare patologia in 20 soggetti su 25 che ne sono affetti, noi diciamo che quella indagine ha una sensibilità: 20 / 25 = 0.8 = 80% e diciamo che ha una specificità del 90% se esclude la malattia in 27 su 30 soggetti non patologici esaminati (27 / 30 = 0.9 = 90%). Si noti che i rapporti danno luogo a frazioni dell’unità, spesso trasformate in percentuali per miglior comprensione. Ai fini statistici è bene che le proporzioni rimangano espresse in frazioni dell’unità. a In simbologia matematica la proporzione è perciò: p = , dove p (minuscolo) è la proporzione nel n campione studiato, a la frequenza osservata del carattere e n la numerosità del campione. Con la lettera q si usa designare la quantità 1 – p; perciò se p (la sensibilità, nel precedente esempio) è 0.8 , q sarà: 1 – 0.8 = 0.2 . A) Limiti fiduciali di una proporzione Raramente qualcuno osserva un campione per affermare qualcosa che riguarda soltanto il campione stesso. Quello che in realtà si vuol fare è inferire dal campione qualcosa che riguarda, più generalmente, la popolazione da cui il campione è tratto. Quando il radiologo che ha usato la TC nel precedente esempio, afferma: “La specificità della TC è del 90%” in realtà non sta pensando: “E’ del 90% in questi trenta soggetti, ma potrebbe avere un valore completamente diverso in un altro gruppo”; egli invece, in base alla sua osservazione, si attende che l’impiego generalizzato della TC per quella indicazione dia una specificità se non proprio del 90%, almeno nell’attorno del 90%. a Quando però si vuole inferire da p = (cioè la proporzione osservata nel campione) qualcosa che n A riguarda P = (dove le lettere maiuscole indicano che si tratta della proporzione nella popolazione e non N nel campione) una cosa è molto importante e viene spesso trascurata: stabilire i limiti fiduciali della proporzione osservata nel campione studiato. I limiti fiduciali sono quei due valori entro i quali si può ritenere che stia, con il 95% (o 99%) di confidenza (si usa dire “di probabilità”, ma non è correttissimo), il valore “vero” della proporzione P nella popolazione. Guido Galli – Test Statistici per dati nominali 9
Purtroppo per avere i limiti esatti o si deve effettuare un laborioso calcolo (proprio basato sulla distribuzione binomiale di cui abbiamo parlato) o bisogna consultare tabelle reperibili nella letteratura statistica specialistica. Tabelle ottime e complete per i limiti fiduciali si trovano a pag. 89-102 delle Tavole Geigy 1982, Volume II. Diamo tuttavia qui un semplicissimo metodo di calcolo che fornisce un risultato approssimato, ma sufficiente: - a renderci conto subito della bontà, o meno, dei nostri risultati; - a confrontare i nostri risultati con dati della letteratura. Metodo p⋅q - Si determina l’Errore Standard di p che è: ES = n - I limiti di confidenza (al 95%) sono: L.C. = p ± 1.96 x ES Attenzione! Questo metodo è buono se moltiplicando n sia per p che per q (e ricordiamo che q è 1-p) si ha, in entrambi i casi, un risultato maggiore di 10; non si può usare se uno dei due è minore di 5. Esempio operativo n. 1 In una pubblicazione di qualche anno fa (Torricelli et al. La RM con bobina endorettale nel Ca. del retto Radiol.Med 1, 74-83, 2002) vi sono dati che permettono di stimare l’efficacia della RM endorettale per la rilevazione delle metastasi linfonodali da Ca. rettale. Su 11 pazienti con metastasi linfonodali istologicamente accertate (Linfonodi+), il reperto RM fu positivo in 9 (“veri positivi”), mentre fu negativo (“veri negativi”) in 15 su 27 pazienti con linfonodi indenni (Linfonodi -). Possiamo ordinare i dati in una tabella e procedere al calcolo (per la sensibilità e la specificità abbiamo già visto come si fa; l’accuratezza è la somma dei risultati “veri” fratta il totale dei casi, cioè (9 + 15) / (11 + 27) = 0.63): Linfonodi + Linfonodi – Sensibilità = 0.82 (82%) RM + 9 12 Specificità = 0.55 (55%) RM - 2 15 Totale 11 27 Accuratezza = 0.63 (63%) Domanda: potremmo dedurre da questi dati che la RM endorettale ha, quando estesamente applicata per la ricerca delle metastasi linfonodali, una sensibilità nell’attorno dell’ 80% ? Applichiamo il semplice metodo che abbiamo imparato per trovare i limiti di confidenza: p⋅q 0.82 ⋅ 0.18 ES della proporzione: = = 0.116 n 11 Quindi la proporzione nel campione è: Sensibilità = 0.82 ± 0.116 L.C. = 0.82 ± 1.96 x 0.116 Limite superiore = 0.82 + 0.227 = 1.047 (104.7%) Limite inferiore = 0.82 - 0.227 = 0.593 (59.3%) Il risultato 104.7 % è assurdo (va oltre il 100% !) perché non avevamo controllato se il metodo è applicabile. Ma non è correttamente applicabile: infatti 0.82 x 11 (p x n) dà 9.02 e va bene; però 0.18 x 11 (q x n) dà 1.98 (
Qualcuno afferma che in casi come questo non sia illecito troncare l’eccedenza: si potrebbe perciò dire che i limiti di confidenza vadano dal 59.3 % al 100%. Ma è certamente più appropriato accertare nelle Tavole Geigy il risultato esatto: Limite inferiore = 0.482 (48.2 %) Limite superiore = 0.977 (97.7%) Insegnamenti dell’esempio 1) L’intervallo di confidenza è troppo ampio: i casi studiati sono pochi per trarre attendibili indicazioni; 2) Nella discussione riportata nella pubblicazione citata, gli Autori sembrano sorpresi che un altro autore, Chan, abbia trovato una sensibilità solo del 57%, apparentemente lontana dall’82 % da loro determinato. In realtà il dato di Chan non è affatto incompatibile con i loro (abbiamo visto che la sensibilità “vera” può infatti stare fra il 48.2 e il 97.7 %); 3) Se si considera l’ampiezza dell’intervallo di confidenza è molto dubbio che la presenza di metastasi linfonodali sia efficacemente rivelata dalla RM endorettale (o, per lo meno, la pubblicazione citata non lo dimostra) Uno degli errori che ho visto più frequentemente commettere in relazioni e comunicazioni a Congressi e Raduni è il riportare in diapositive i valori di Sensibilità, Specificità ed Accuratezza senza i rispettivi limiti di confidenza. Se dovete pubblicare dati di vostre ricerche è doveroso che forniate i limiti di confidenza esatti. E’ opportuno ricordare che quelli forniti da parecchi programmi statistici per PC sono proprio basati sul metodo approssimato che abbiamo descritto: è bene quindi non fidarsi e controllare sulle Tavole. Non sempre è facile trovarle: ma in tal caso… Pochi sanno che… …. se si dispone di Windows Office si possono calcolare con non molta fatica i limiti esatti. Fra le funzioni statistiche preprogrammate di Excel vi è infatti INV.F che può essere utilizzata allo scopo nel modo che qui illustriamo, calcolando il limite inferiore per il nostro esempio (e ricordando, beninteso, che a p= ): n a 9 Limite inferiore (LI) = Cioè: LI = a + (n − a + 1) ⋅ F 9 + 3⋅ F A questo punto aprite Excel e, senza stare a digitare nulla nel foglio di lavoro, cercate le funzioni preprogrammate (freccetta vicino al simbolo ∑ ); nel menù selezionate Altre funzioni e cercate nella categoria Statistiche cliccando poi su INV.F Apparirà una finestra che vi chiede: Probabilità e qui dovete inserire 0,025 se volete l’intervallo di confidenza al 95 % come è usuale. La seconda domanda è: Grado di libertà 1. Per il limite inferiore GL1 = 2n – 2a +2 il che, per il nostro esempio, è pari a 6, che inserite. Terza domanda: Grado di libertà 2 ; esso è GL2 = 2a, cioè nel nostro caso 18. Inseritelo e già nella finestra, in basso, apparirà il risultato F = 3,2209. Se cliccate su OK, verrà trasportato sul foglio di lavoro.. 9 Completiamo quindi la formula: LI = = 0. 4822 (48.22%) 9 + (3 ⋅ 3.2209) Ci vuol molto più tempo a descrivere l’operazione che a farla ed è certamente più comodo che andare in Biblioteca a cercare le Tavole Geigy. Guido Galli – Test Statistici per dati nominali 11
Divertitevi (!) a calcolare il limite superiore tenendo conto che per esso è : a +1 LS = con GL1 = 2a + 2 e GL2 = 2n – a a + 1 + (n − a) ⋅ 1 / F B) Confronto fra due proporzioni Premessa generale da leggere assolutamente Quattro importanti punti sui confronti statistici 1. Ricordiamo, anche se noto, che quando si procede ad un confronto statistico per testare una differenza – e questo vale non solo per i dati categoriali, ma sempre- si parte dall’ipotesi H0 (detta anche “ipotesi nulla”): cioè quella che una differenza in realtà non vi sia e che quella osservata sia soltanto casuale, dal momento che i campioni che si confrontano si presumono tratti dalla stessa popolazione. Quando diciamo: “Il risultato di questo test ci indica che vi è una differenza significativa con p
dimostrarne in via statistica l'utilità a causa di errori del II tipo: per la ridotta potenza non sono emerse differenze che in realtà c’erano. Per la potenza si è meno esigenti che per la significatività: ci si accontenta in genere di potenze nell’attorno di 0.8 (80 % invece di 95 %). 3. Una domanda che è sempre necessario porsi allorché ci si accinge ad un confronto è: i dati sono stati raccolti in individui differenti o negli stessi soggetti? Per fare un esempio: voglio verificare se la glicemia di 10 soggetti abituali consumatori di dolciumi è diversa, in media, da quella di 10 vegetariani. I due campioni sono composti da individui differenti: siamo di fronte, in tal caso, a dati indipendenti. Ma quando voglio verificare se la glicemia misurata in 10 soggetti si modifica a seguito di un certo trattamento farmacologico, determinerò la glicemia in ciascun soggetto prima e dopo il trattamento: ottenendo così due campioni, ciascuno di 10 osservazioni raccolte negli stessi individui. Si parla, in tal caso, di dati appaiati, perché per ogni soggetto al dato “prima” corrisponde uno, ed uno soltanto, dei dati “dopo”. Lo schema “prima e dopo” rappresenta la più frequente occasione, in medicina, di avere dati appaiati; ma vi sono anche altre circostanze. Per esempio se voglio confrontare, utilizzando i soliti 10 soggetti, i risultati della misurazione della glicemia ottenibili con il metodo A, con quelli ottenibili con il metodo B. Anche in questo caso i dati delle 10 osservazioni compiute con il metodo A saranno di necessità appaiati con quelli delle 10 misurazioni effettuate con B sugli stessi campioni di sangue. Gli studi con “dati appaiati” sono frequenti nell’area radiologica, perché spesso si vuole esaminare la resa di una metodica in confronto con altre metodiche applicate agli stessi soggetti per le stesse patologie. I test per dati indipendenti sono diversi da quelli per i dati appaiati: ed uno dei più frequenti errori nella pratica è di utilizzare i test per dati indipendenti (che sono più conosciuti), quando si dovrebbero utilizzare test per dati appaiati. I quali sono più efficaci: e quindi adatti a mettere in evidenza come significative differenze che verrebbero ignorate dai test per dati indipendenti. Dal fatto che i dati siano indipendenti od associati dipende quindi la scelta del test adatto; e anticipiamo qui che nel Capitolo che seguirà, dedicato al confronto di dati nominali raccolti in tabelle di contingenza, saranno illustrati i seguenti test: - Chi quadro e test di Fisher per i dati raccolti in due gruppi di soggetti diversi (è il caso, nella pratica, più frequente); - Test di McNemar e Test esatto per dati appaiati per il confronto di due gruppi di dati raccolti negli stessi soggetti ; - Estensione del Chi quadro per l’analisi di più di due gruppi di dati raccolti in soggetti diversi; - Test di Cochran per il confronto di più di due gruppi di dati affiancati negli stessi soggetti. 4. Effettuando un test per confronti ci si dovrebbe infine chiedere: intendo effettuare un test “a due code” o un test “a una coda” ? Si effettua un test “a due code” se si vuole esaminare che sia significativa una differenza comunque orientata (e cioè, allorché si confronta A con B, tanto nel senso che A sia maggiore di B, quanto nel senso che B sia maggiore di A). Si effettua un test a “una coda” se si hanno buone ragioni per pensare che la differenza, se c’è, sia orientata in un particolare modo: per es. che A debba essere maggiore di B e si vuole la prova che ciò sia vero. Per affermare una differenza a “una coda” bastano risultati dei test per il confronto che non sarebbero significativi “a due code”. Ciò è allettante (soprattutto quando si testano dati propri e la differenza la si vuol proprio vedere!), ma pericoloso per la correttezza della ricerca: perciò i risultati di test a una coda vanno valutati con prudenza, ed è in genere consigliabile utilizzare come significativi i valori del test “a due code”. E’ la ragione per cui d’ora in poi forniremo solo questi (come del resto per lo più è nelle tavole dei testi di statistica). Guido Galli – Test Statistici per dati nominali 13
Metodo per il confronto di due proporzioni Capita spesso di chiedersi: ma la differenza fra queste due proporzioni (osservate, per esempio, in soggetti diversi) è significativa oppure no? In genere si preferisce confrontare, con i metodi che vedremo nel Capitolo II, le frequenze dalle quali le proporzioni sono tratte, ma può essere praticamente utile disporre di un semplice metodo (anche se subisce qualche critica nella letteratura statistica) per confrontare direttamente due proporzioni fra loro. Consideriamo la proporzione p1, determinata su un primo gruppo di N1 individui (q1 è il complemento ad 1 di p1) per confrontarla con la proporzione p2 ( q2 sarà 1 – p2 ) determinata su un secondo gruppo di N2 individui. Si calcola Z: p1 − p2 Z= 1 1 pq + N1 N 2 Z è significativo con p
Nota II: Il metodo tende a sopravalutare le differenze. Perciò se Z calcolato è inferiore a 1.96, come nell’esempio, possiamo tranquillamente affermare che “la differenza non è significativa”. Ma se Z supera 1.96 solo di poco la significatività della differenza dovrebbe venire verificata, per esempio con la formula riportata nella Nota a pag. 23. La differenza fra proporzioni: importanza dell’intervallo di confidenza Nelle applicazioni mediche quello che di solito interessa è la entità della differenza fra due proporzioni. Supponiamo, ad esempio, che un nuovo farmaco A abbia dato una risposta soddisfacente in 30 su 40 pazienti (il 75%; p =0.75) mentre il tradizionale farmaco B è risultato efficace in 12 su 30 (p = 0.4, 40%) soggetti affetti dalla stessa malattia. Il medico che ha osservato questi risultati si chiede: “Che il farmaco A sembri più efficace si vede ad occhio, ma la differenza d’effetto a favore di A (cioè 75 – 40 = 35%) è realmente significativa o no? Perché se non lo fosse, nonostante l’apparenza, non prescriverei A, che è più costoso, e mi atterrei ancora a B”. A questa e ad altre consimili domande si può rispondere determinando l’Intervallo di confidenza (IC) della differenza: che stabilisce i due limiti entro i quali può stare la differenza “vera” fra le due proporzioni. L’intervallo è dato da: p1 (1 − p1 ) p 2 (1 − p 2 ) IC = (p1 – p2 ) ± 1.96 x + n1 n2 Dove p1 e p2 sono le proporzioni determinate sui gruppi di cui n1 e rispettivamente n2 indicano la numerosità dei campioni. Applichiamola al caso di cui sopra: 0.75 x0.25 0.4 x0.6 IC = (0.75 – 0.40) ± 1.96 x + = 40 30 0.35 ± 1.96 x 0.0047 + 0.008 = = 0.35 ± 1.96 x 0.113 = 0.35 ± 0.22. Il limite inferiore dell’intervallo sarà quindi: 0.35 -0.22 = 0.129 (12.9 %). Il limite superiore sarà: 0.35 + 0.22 = 0.57 (57 %). Possiamo quindi ritenere che la differenza, indicata come 35 % dalle osservazioni compiute, possa in realtà stare fra 13% (arrotondiamo) e 57 %. E nutriamo una fiducia (confidenza) del 95 % che questo sia vero. Al 95 % perché nella formula c’è 1.96: se ci servisse una fiducia maggiore (al 99 %) metteremmo 2.58 al posto di 1.96; se ci accontentassimo di una minore (al 90 %: sufficiente in parecchi studi clinici) useremmo 1.645. Perché la differenza sia significativa, l’IC non deve comprendere lo 0 (come è ovvio: differenza 0 significa che non c’è differenza). L’intervallo calcolato dal medico è lontano da 0 anche con il suo limite inferiore. Il nostro medico si persuade quindi che vi è una differenza significativa e che vale la pena di prescrivere A, nonostante il costo (facendo felice la Ditta produttrice). La semplice formula qui presentata funziona bene se ogni gruppo è composto da 20 o più soggetti; meno bene per gruppi più piccoli. Applichiamo ora la formula ai dati dell’esempio operativo 2. I calcoli li farà, per esercizio, il lettore: troverà che l’intervallo di confidenza (al 95 %) della differenza può andare da -0.099 (-9.9 %) a 0.533 (53.3 %). La differenza fra le proporzioni non è significativa in quanto comprende lo 0, come è testimoniato dal segno negativo apposto al limite di confidenza inferiore. Che non fosse significativa già lo sapevamo avendo effettuato il test Z, ma ora sappiamo una cosa in più: vi sono meno di 10 punti (9.9) Guido Galli – Test Statistici per dati nominali 15
percentuali a favore dell’ipotesi che la scintigrafia sia più efficace nel rilevare le metastasi da Ca. tiroideo, contro più di 53 (53.3) punti percentuali a favore dell’ipotesi che essa sia più efficace nelle metastasi da ca. polmonare. Diventa quindi probabile che la maggior efficacia non sia stata dimostrata solo perché i casi studiati erano pochi, e siamo indotti a continuare la ricerca, raccogliendo un maggior numero di pazienti. L’importanza di non limitarsi ai test di significatività quando si fanno dei confronti, ma di considerare anche attentamente gli intervalli di confidenza delle differenze è sottolineata da molti Autori: e la cosa non vale solo per le proporzioni, ma per ogni confronto statistico. C) Quanti casi raccogliere per un confronto fra proporzioni? Abbiamo visto, nell’esempio 2, che la proporzione di reperti positivi ottenuti con la scintigrafia nelle metastasi ossee da ca, tiroideo (0.533 cioè 53.3%) e quella nelle metastasi da ca. polmonare (0.75, il 75%) non era statisticamente significativa. Però la considerazione dell’intervallo di confidenza della differenza ci aveva incoraggiato a proseguire, raccogliendo più casi. Sì, ma quanti pazienti dovrò esaminare per dimostrare bene quella differenza? Per rispondere a questa domanda (che rientra nel problema, più generale, del dimensionamento del campione) vi sono formule abbastanza complesse e tavole reperibili in letteratura. Ma siccome di solito si assume una significatività con p = 0.05 e una Potenza dell’80% c’è una semplicissima formula chiamata “regola del 16” (di Lehr) che ci risparmia di dover scartabellare: p ⋅ (1 − p ) n. casi = 16 ⋅ ( p1 − p2 ) 2 dove p1 è la proporzione nel I gruppo (0.533 per l’esempio), p2 quella del secondo gruppo (0.75). Quanto a p, se i due gruppi hanno lo stesso numero di casi è semplicemente la media fra p1 e p2. Questo però non è vero per l’esempio perché in un gruppo ci sono 15 casi e nell’altro 20. Quando i due gruppi hanno diversa numerosità, bisogna sommare le frequenze e rapportarle alla somma dei casi dei due gruppi. Quindi p = (8+15)/(15+20) = 23/35 = 0.657. Proprio la stessa cosa che abbiamo fatto per trovare p da applicare nella formula per il test Z. Di conseguenza la regola del 16 ci dice. 0.657 ⋅ 0.343 n. casi = 16 ⋅ = 76 (0.533 − 0.75) 2 Il programma di statistica che ho nel mio PC (oltre Excel uso Statistix 9, più completo e molto “friendly”) dà esattamente lo stesso numero. Dovremo quindi raccogliere 76 pazienti per ciascuno dei due gruppi. Non è certo poco, anche se già abbiamo 15 casi in un gruppo e 20 nell’altro: dobbiamo riflettere se convenga, o no, proseguire la ricerca. Guido Galli – Test Statistici per dati nominali 16
CAPITOLO III - Tabelle di contingenza e confronti di frequenze A) Ordinamento delle frequenze La tabellina riportata nell’esempio operativo n.1 è un esempio di tabella di contingenza. Le tabelle di contingenza sono un modo di ordinare le frequenze quando vi sono più gruppi (di soggetti o di osservazioni) e gli elementi che compongono tali gruppi vengono classificati in rapporto a più categorie di appartenenza. Il caso più semplice e più frequente nella pratica è quello di due gruppi e due categorie (tabelle 2 x 2 , con due colonne e due righe). Nell’esempio n. 1 il I gruppo è quello dei pazienti con linfonodi metastatici (risultati tali all’accertamento istologico); il II gruppo è quello dei pazienti con linfonodi esenti da metastasi; i soggetti appartenenti ai due gruppi sono suddivisi a seconda che la RM endorettale abbia evidenziato un quadro “positivo” o “negativo” per la metastatizzazione. Ovviamente se i gruppi sono parecchi e/o sono parecchie le categorie, la tabella non sarà 2 x 2 , ma comprenderà più righe e più colonne: sarà cioè una tabella cosiddetta m x n , dove m sono le righe e n le colonne. Per evitare confusioni ed un uso improprio dei test, quando si costruisce una tabella di contingenza bisogna porre cura a riportare nelle colonne la variabile indipendente e nelle righe la variabile dipendente (come nell’esempio n.1, nel quale la caratteristica indipendente è che i linfonodi siano, o no, sede di metastasi, mentre il risultato RM è quello che dipende dalle condizioni dei linfonodi). Sulle frequenze raccolte in tabelle di contingenza si possono effettuare test di confronto (per evidenziare differenze significative) e test di associazione (per studiare correlazioni fra le variabili). Nelle formule che si usano per effettuare i test statistici, gli elementi della tabella di contingenza sono indicati con lettere. Una tabella 2 x 2 assume di conseguenza l’aspetto che segue (al quale fare riferimento per interpretare le formule; le lettere nelle formule possono essere anche maiuscole): GRUPPO Variabile I II Totali + a b a+b - c d c+d Totali a+c b+d n I totali vengono chiamati totali marginali. Per la tabella dell’esempio n. 1: a = 9; b = 12; c = 2; d = 15 con i totali marginali a+b = 21; c+d = 17; a+c = 11; b+d = 27; n = 38 . B) Test per i confronti 1) Tabelle 2 x 2: confronto fra dati indipendenti Il test più impiegato nella pratica è il test del Chi Quadrato: lo esamineremo pertanto in dettaglio. Vi sono però casi (campioni di piccole dimensioni ) nei quali questo test non è correttamente applicabile e bisogna ricorrere al test di Fisher (che è in ogni caso il più esatto, ma ha il difetto di rendere indispensabile l’uso del computer). 2 Metodo del chi quadrato ( χ ) Principio: si confrontano le frequenze osservate nei due campioni con quelle che ci potremmo attendere se fosse vera l’ipotesi H0; maggiore è la divergenza fra valori osservati e valori attesi (attesi nell’ipotesi Guido Galli – Test Statistici per dati nominali 17
che differenze non ci siano), maggiore è la significatività della differenza. Per capire il principio e il procedimento, applichiamo il metodo allo: Esempio operativo n. 3 Riprendiamo i dati che ci servirono per l’esempio operativo n. 1. Questa volta ci chiederemo: la proporzione di reperti “veri” (cioè confermati come positivi o come negativi dall’esame istologico) è significativamente diversa nello studio con RM endorettale dei linfonodi patologici da quel che è nello studio dei linfonodi esenti da metastasi ? Ciò equivale a chiedersi: la frazione dei “veri positivi” è significativamente diversa dalla frazione dei “veri negativi” ovvero: la sensibilità è significativamente diversa dalla specificità? Poniamo (in grassetto) le frequenze osservate (O) in questo modo: I gruppo (metastasi) II gruppo (linf. indenni) Totali Veri 9(a) 15 ( b ) 24 Falsi 2(c) 12 ( d ) 14 Totali 11 27 38 Quindi ora ci proponiamo di vedere se è significativa la differenza fra 9 risultati “veri positivi” su 11 malati (linfonodi metastatici), con una proporzione di 9/11 = 0.818 (81.8%), e 15 “veri negativi” su 27 soggetti senza metastasi linfonodali, con una proporzione di 0.555 (55.5%). Cioè di esaminare se la sensibilità è significativamente differente dalla specificità. Se si assume che non vi siano differenze fra i due gruppi (ipotesi H0 ), i due campioni possono venire considerati come uno solo e la proporzione di risultati “veri” attesa nell’ipotesi H0 è: 24/38, cioè p = 0.63 (q = 0.37). Questa proporzione ci permette di calcolare le frequenze “attese” se non ci fosse differenza fra i due gruppi. Infatti: a = 0.63 x 11 = 6.95 b = 0.63 x 27 = 17 c = 0.37 x 11 = 4.07 d = 0.37 x 27 = 10 Più semplicemente e praticamente: le frequenze “attese” (E) si trovano per ogni casella moltiplicando i due totali marginali corrispondenti alla casella e dividendoli per N totale. Ad es. per la casella a, E = 24 x 11 /38 = 6.95. Vedremo che questo servirà anche per tabelle più complesse della 2x2 (Tabelle m x n). Scriviamole fra parentesi le frequenze attese E, accanto a quelle osservate O: Veri 9 ( 6.95 ) 15 ( 17 ) Falsi 2 ( 4.07 ) 12 ( 10 ) 2 Il χ (di Pearson) si calcola: - facendo la differenza fra il valore osservato e quello atteso per ogni elemento della tabella; - mettendo la differenza al quadrato (serve a eliminare i segni negativi); - dividendola per il valore “atteso. Perciò: 2 (9 − 6.95) 2 (15 − 17)2 (2 − 4.07)2 (12 − 10)2 χ = + + + = 0.695 +0.235+1.053+0.4 = 2.3 6.95 17 4.07 10 (arrotondando il risultato) Correzione per la continuità di Yates Per le tabelle 2x2 è stato consigliato da Yates (e ormai da quasi tutti adottato) una correzione al metodo sopradescritto consistente nell’aggiustare i valori osservati di 0.5 punti più vicino ai valori “attesi” (ciò ovviamente diminuisce le differenze e quindi la significatività del valore calcolato di χ 2 ). Guido Galli – Test Statistici per dati nominali 18
(8.5 − 6.93) 2 (15.5 − 17) 2 (2.5 − 4.07) 2 (11.5 − 10) 2 χ 2 (corretto) = + + + = 1.32 6.93 17 4.07 10 Importante: il χ 2 corretto secondo Yates può essere calcolato dalle frequenze originali di una tabella 2 x 2 con questa formula che rende il calcolo molto facile (ed è quella di solito usata anche nei programmi per PC ), dove le barre verticali indicano “prendi il valore assoluto”: N ( ad − bc − ) 2 N ( 9 x12 − 15 x 2 − 19) 2 x38 2 χ = 2 2 Per l’esempio: χ = = 1.32 (a + b)(c + d )(a + c)(b + d ) 24 x14 x11x 27 Quasi tutti i programmi statistici per PC forniscono sia il risultato non corretto che quello corretto. E’ bene quindi ricordare che il valore trovato senza la correzione di Yates è quello che fornisce il p meglio adatto a valutare la significatività della differenza quando si intenda usare “ad una coda” il test. Questo uso “ad una coda” non è infrequente nella ricerca medica. Mettiamo che si voglia valutare l’effetto di un agente presumibilmente oncogeno (radiazioni, fumo, chemiotossici, ecc.). E’ difficile pensare che negli esposti a questi fattori di rischio si verifichi una significativa diminuzione di tumori rispetto ai non esposti! Quel che si vuol sapere è se l’aumento di neoplasie che probabilmente si osserverà sia significativo o no; e per questo basta un test “a una coda”. Ciò avviene anche per altre applicazioni. Se sperimento un trattamento dimagrante, quello che voglio vedere è se esso provoca una significativa diminuzione di peso: non mi attendo (soprattutto dopo che è stato studiato su animali) che esso faccia ingrassare! Nota.- E’ interessante il calcolo del χ 2 a partire non dalle frequenze, ma dalla proporzione del carattere che interessa : 2 χ 2 = ∑ n ⋅ ( p − P) i i P ⋅ (1 − P ) In essa pi indica la proporzione, in ogni gruppo i, dell’evento che interessa; ni il numero dei casi del gruppo; P la proporzione generale che si ottiene riunendo i casi dei gruppi in un gruppo soltanto. Per miglior chiarezza, ricalcoliamo con questa formula l’esempio di cui sopra, nel quale, ovviamente, l’evento che interessa è il risultato “vero”: n1 = 11; p1 = 9/11 = 0.818 n2 = 27; p2 = 15/27 = 0.555 P = (9+15)/(11+27) = 0.3675; 1-P = 0.3625 2 2 11 ⋅ (0.818 − 0.6375) + 27 ⋅ (0.555 − 0.6375) 0.3584 + 0.1838 χ = 2 = = 2.3 0.6375 ⋅ 0.3625 0.2311 Questa formula torna utile quando si trovano, magari in qualche pubblicazione, risultati espressi come proporzioni, o percentuali, e non come frequenze. Proviamo a calcolare il χ 2 per l’ Esempio operativo n. 2. 2 2 215 ⋅ (0.533 − 0.657) + 20 ⋅ (0.75 − 0.657) 15 ⋅ 0.0154 + 20 ⋅ 0.00965 χ = = = 1.79 0.657 ⋅ 0.343 0.2254 Che non è significativo per una differenza. Guido Galli – Test Statistici per dati nominali 19
Puoi anche leggere