MISURE DI OUTCOME E ICF - Considerazioni psicometriche
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
MISURE DI OUTCOME E ICF - Considerazioni psicometriche - Franco Franchignoni SFEBPRM, Past President UEMS PRM Board Fondazione Salvatore Maugeri, Clinica del Lavoro e della Riabilitazione, IRCCS, Istituto Scientifico di Veruno - Servizio di Fisiatria Occupazionale ed Ergonomia
Misurare l’outcome Una misura di outcome [inteso come: “risultato finale / conseguenza a lungo termine, dopo una serie di azioni ed avvenimenti in grado di influenzare una persona nella sua totalità”] è uno strumento valutativo, studiato per quantificare l’entità del cambiamento nel tempo in un gruppo o in singoli individui. "...The validity of the outcomes research rests on the validity of its measures ...” (M.V. Johnston, C.V. Granger 1994)
Che cosa e come misurare? Prima di poter misurare una variabile (fisica o psico- comportamentale) bisogna: 1. capirne il significato e quindi definirla con chiarezza, 2. decidere la migliore procedura per prendere le misure.
Capire e definire - 1 La comprensione del parametro da misurare deve essere fondata su forti basi teoriche ed essere connessa ad un modello interpretativo generale (ad es. in MF&R la ICF) Condizioni di salute (disturbo o malattia) Funzioni e Attività Partecipazione strutture corporee Fattori ambientali Fattori personali
Capire e definire - 2 In Medicina riabilitativa la valutazione funzionale e l’analisi degli outcome richiedono spesso l’analisi di concetti ‘intangibili’ riferibili alla persona in toto (indipendenza funzionale, attività, abilità manuale, partecipazione, soddisfazione per le cure, ecc.). Queste variabili legate alla persona sono ‘latenti’ e possono essere inferite per lo più tramite l’osservazione di ‘comportamenti’, ad es. risposte a specifiche domande di un questionario o di una scala di valutazione.
Decidere procedura MISURAZIONE TEST STRUMENTALI MISURE CLINICHE TEST CLINICI SCALE DI QUESTIONARI E FUNZIONALI VALUTAZIONE (auto-somministrati) (compilate da un osservatore) .
Ma, il conteggio di alcune osservazioni (tratte da un pool potenzialmente infinito di item di interesse) è solo una prima approssimazione della misura e contare usando punteggi ‘grezzi’ non significa misurare quantità ben definite Quante galline? 2 Quanti Kg? 4 3 x 4 kg = 12 kg 2 x 10 kg = 20 kg
SI NO Riesce a camminare per 10 metri? Riesce a correre i 100 m in 10’’? Nessuno Leggero Moderato Forte Estremo Numerical rating scale - Rate your ability to climb the stairs: 0 1 2 3 4 5 6 7 8 9 10 Cannot No problem Visual Analogue Scale (VAS) - How severe has your arthritic pain been today? 0 100 No pain x Pain as bad as it could be
Livelli di misurazione a) NOMINALE - Classificazione o categorizzazione (uguaglianza tra i membri di una classe, nessun significato quantitativo). b) ORDINALE - Disposizione in sequenza progressiva delle categorie (non sono possibili manipolazioni matematiche). Gli intervalli tra le categorie non sono lineari. --------------------------------------------------------------------- c) AD INTERVALLO - Livelli progressivi che hanno uguale distanza tra loro (possibilità di determinazione di differenze tra misure, di trasformazioni lineari, di calcoli di medie ecc.). d) A RAPPORTO - Come il precedente, ma lo zero rappresenta la totale assenza della quantità misurata (possibilità di determinazione di proporzioni)
Criteri per selezionare una misura di outcome Affidabilità Validità e responsività Adattamento trans-culturale Appropriatezza Interpretabilità Accettabilità Fattibilità
Appropriatezza L’appropriatezza richiede che l’esaminatore prenda in considerazione il grado di corrispondenza di uno strumento con le specifiche proposte, circostanze e richieste di un particolare progetto di ricerca Vi è necessità di analizzare in dettaglio: - scopi del progetto (& gli end-points) - natura dell’intervento da effettuare - caratteristiche del campione di pazienti - struttura e contenuto degli strumenti candidati NB - Affidabilità e validità non sono proprietà intrinseche ad uno strumento ma devono essere valutate all’interno del contesto di utilizzo e della specifica popolazione da studiare.
Rivermead Mobility Index YES NO YES NO 1) Turning over in bed 9) Walking outside (even ground) 2) Lying to sitting 10) Walking inside with no aid 3) Sitting balance 11) Picking off floor 4) Sitting to standing 12) Walking outside (uneven ground) 5) Standing unsupported 13) Bathing 6)Transfer 14) Up and down four steps 7) Walking inside 15) Running 8) Stairs
Criteri per selezionare una misura di outcome Affidabilità Validità e responsività Adattamento trans-culturale Appropriatezza Interpretabilità Accettabilità Fattibilità
Accettabilità e fattibilità L’accettabilità si riferisce a quanto sia accettabile da compilare uno strumento per la popolazione oggetto dello studio (in termini sia di contenuto che di lunghezza) La fattibilità si riferisce alla semplicità nella gestione complessiva dei dati (carico tecnico-amministrativo e più in generale costi globali necessari per somministrare lo strumento: tempo richiesto per allenare lo staff ad usare lo strumento e per spiegare le norme di compilazione dello strumento ai pazienti; gestione amministrativa del database …) Ad es. il carico amministrativo associato al MDS-PAC è 120 minuti contro i 23 per la FIM (Federal Register USA, 2001)
Criteri per selezionare una misura di outcome Affidabilità Validità e responsività Adattamento trans-culturale Appropriatezza Interpretabilità Accettabilità Fattibilità
Adattamento trans-culturale e comprensibilità Lo strumento è stato tradotto? Se sì, verificare l’equivalenza trans-culturale tra originale e versione nella nuova lingua (sotto il profilo semantico, idiomatico, concettuale e pratico) Scarsa equivalenza = scarsa confrontabilità L’item è facile da capire da parte di differenti gruppi di popolazione? Livello culturale; Assenza di termini ambigui, gergali o tecnici, di voci troppo lunghe o di domande mal poste ... Bassa interpretabilità = alta variabilità nelle risposte = bassa affidabilità
Criteri per selezionare una misura di outcome Affidabilità Validità e responsività Adattamento trans-culturale Appropriatezza Interpretabilità Accettabilità Fattibilità
Affidabilità 1 - Consistenza interna: una buona scala misura differenti aspetti dello stesso attributo; cioè, gli item sono omogenei (alfa di Cronbach, item-total correlation, ecc.) 2 – Stabilità: esamina la riproducibilità di una misura somministrata in differenti occasioni o da differenti osservatori (Intraclass Correlation Coefficients, coefficiente Kappa, metodo di Bland e Altman … ecc.) Bassa affidabilità = alto errore di misurazione = più incertezza sul reale punteggio
Validità La validità di una misurazione si riferisce alla misura in cui uno strumento misura ciò che si intende misurare. Vi sono tre principali tipi di validità: 1) v. di contenuto, 2) v. legata ad un criterio di riferimento, 3) v. di costrutto. 1) Uno strumento ha validità di contenuto se riesce a coprire tutte le parti di cui si compone il costrutto da misurare e riflette l’importanza relativa di ciascuna parte e se è libero dall’influenza di fattori che sono irrelevanti rispetto a quanto si intende misurare 2) La validità correlata ad un criterio di riferimento è dimostrata dalla correlazione della scala con altre misure del costrutto in esame (possibilmente con un “gold standard”) [validità concomitante e predittiva] 3) La validità di costrutto riflette l’abilità di uno strumento – dimostrata tramite enunciazione e verifica delle ipotesi - di misurare il concetto astratto che si vuole misurare (costrutto/ variabile latente).
Tandem Romberg & One-limb stance Sono test semplici, rapidi, ben misurabili ma: Compiti funzionali statici molto specifici e differenti da quelli richiesti nelle comuni attività di vita quotidiana
Functional Ambulation Categories 0 Unable Patient cannot walk, or requires help of two or more people 1 Dependent Patient requires firm continuous support from 1 person - level 2 2 Dependent Patient needs continuous or intermittent support of 1 person - level 1 3 Dependent Patient requires verbal supervision or stand-by help from - supervision 1 person without physical contact 4 Independent Patient can walk independently on level ground, but requires on the level ground help on stairs, slopes, or uneven surfaces 5 Independent Patient can walk independently anywhere
Scala di valutazione dell’equilibrio di BERG (Berg 1993) CINQUE LIVELLI ORDINALI: DA 0 “INCAPACE / NECESSITA ASSISTENZA” A 4 “PUO’ ESEGUIRE CON SICUREZZA” 1. Passaggio seduto - stazione eretta 2. In piedi senza appoggio 3. Seduto senza appoggio (piedi appoggiati) 4. Passaggio stazione eretta - seduto 5. Trasferimenti letto - sedia 6. Stazione eretta ad occhi chiusi 7. Stazione eretta a piedi uniti 8. Inclinarsi in avanti a braccia flesse a 90° 9. Raccogliere da terra un oggetto 10. Girarsi guardando dietro la spalla dx e sin 11. Ruotare di 360° gradi 12. Appoggiare alternativamente i piedi su un gradino 13. Stazione eretta con i piedi in tandem 14. Stare su un piede solo senza appoggio
Validità longitudinale (responsività e sensibilità al cambiamento) Sensibilità al cambiamento - Rispecchia l’abilità di uno strumento nel misurare cambiamenti in uno stato, indipendentemente dal fatto che siano rilevanti o dotati di interesse per chi prende decisioni cliniche o gestionali [Effect size, Standardized Response Mean, Relative Efficiency, …] Responsività - Abilità nel rilevare reali cambiamenti nel tempo (clinicamente importanti) nel concetto da misurare - La grandezza del cambiamento che noi consideriamo importante [Minimal clinically important difference] richiede un giudizio da parte del medico, del paziente o della società e deve essere definita in anticipo in ogni specifico studio
L’analisi di Rasch L’analisi di Rasch è un modello statistico basato sulla “Item Response Theory”, che operativamente: 1. costruisce un modello in cui si specifica in che modo la differenza tra capacità dell’individuo e livello di difficoltà dell’item governa la probabilità di una certa risposta; 2. usa tale modello per stimare i due parametri sulla base dei dati osservati; 3. controlla il grado di corrispondenza tra dati e previsioni scaturite dal modello.
Negli ultimi anni, l’analisi di Rasch viene utilizzata in modo crescente per facilitare lo sviluppo e la validazione di misure di outcome. +----------------------------------------------------------- La Rasch analysis è |ENTRY RAW MODEL| INFIT | OUTFIT | |NUMBER SCORE COUNT MEASURE S.E. |MNSQ ZSTD|MNSQ ZSTD| capace tra l’altro di: |------------------------------------+----------+----------+ | 13 275 118 1.74 .12|1.51 3.3|1.37 1.9| | 8 307 118 1.26 .12| .86 -1.0|1.46 2.3| | 11 266 118 1.87 .12|1.11 .8|1.30 1.5| 1. determinare se gli | 16 190 118 2.96 .12|1.27 1.9|1.17 .7| items appartengono | 10 370 118 .18 .14|1.24 1.5|1.15 .7| | 14 274 118 1.75 .12|1.20 1.4|1.03 .2| ad un unico costrutto | 9 397 118 -.41 .16|1.08 .5|1.16 .6| | 15 286 118 1.58 .12|1.09 .7| .98 .0| (goodness-of-fit of | 6 436 118 -1.67 .21| .81 -.9|1.07 .3| | 1 Item 39913 -118 Entrare -.46e uscire da bagno .16|1.03 .2| o doccia .71 -1.0| the model: infit and | 7 410 118 -.75 .17| .93 -.3| .68 -.9| | 12 325 118 .98 .13| .93 -.5| .76 -1.3| outfit statistics - | | 5 4 405 433 118 118 -.62 -1.54 .16| .79 -1.3| .64 -1.2| .20| .79 -1.1| .52 -1.0| validità di costrutto) | | 17 2 447 316 118 118 -2.25 1.12 .25| .71 -1.3| .35 -1.0| .13| .63 -3.0| .56 -2.8| | 3 470 118 -5.75 .82| .62 -.2| .16 1.2|
Grado di Item più difficili difficoltà Soggetti più abili degli items (range e relazioni) e abilità dei singoli soggetti 2. analizzare la gerarchia di difficoltà degli item e le reali abilità dei singoli Item più facili soggetti (trasformando dati ordinali in misure intervallari) e fornire indici di affidabilità di Soggetti meno abili queste stime
1 3. Valutare l’adeguatezza 0 10 del numero e della tipologia 0.8 Category Probability dei livelli ordinali delle 0.6 scale di valutazione 0.4 5 Il fine è quello di produrre una 0.2 scala di misura che possegga la 1 2 9 3 8 7 4 6 miglior qualità possibile per 0 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 studiare la variabile di interesse Measure relative to item difficulty 0 1 2 3 4 5 6 7 8 9 10 1 Cannot No problem 0 4 0.8 Category Probability 3 1 2 0.6 0.4 0.2 0 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12 Measure relative to item difficulty
MOST MISFITTING RESPONSE STRINGS 4. Controllare la qualità dei Subject OUTMNSQ |SCORE profili di risposta (tramite | 11 11111 |364751902853416 analisi della coerenza interna tra 107 Sogg107 high--------------- 2.96 A|..1.1......34.. dati e previsioni scaturite dal 90 Sogg90 2.92 B|.3.3..3........ modello) 52 Sogg52 62 Sogg62 2.24 C|......3........ 1.01 D|.............2. 17 Sogg17 1.62 E|..........4.... 120 Sogg120 1.95 F|3......4....... 13 Sogg13 1.86 G|..............3 64 Sogg64 1.75 H|.3............. 3 2 27 5. Ricercare eventuali differenze tra le misure ottenute in differenti gruppi 1 35 PDQ8 31 0 17 25 o contesti [M vs. F; Italia vs. USA (adattamenti trans-culturali); spalla vs. 37 12 -1 7 polso; osteoartrosi vs. AR; ecc.]: -2 -2 -1 0 1 2 3 Differential Item Functioning, DIF. PDQ8/39
Table of PCA STANDARDIZED RESIDUAL variance (in Eigenvalue units) Empirical Modeled Total variance in observations = 245.3 100.0% 100.0% Variance explained by measures = 213.3 87.0% 85.8% Unexplained variance (total) = 32.0 13.0% 14.2% Unexpl var explained by 1st factor = 2.1 .9% LARGEST STANDARDIZED RESIDUAL CORRELATIONS USED TO IDENTIFY DEPENDENT ITEMS +-------------------------------------+ |RESIDUL| ENTRY | ENTRY | |CORRELN|NUMBER ITEM |NUMBER ITEM | |-------+--------------+--------------| 6. Analizzare la presenza o meno di ‘local independence’ | .71 | 32 abil32 | 33 abil33 | | .69 | 38 abil38 | 39 abil39 | | .50 | 5 abil5 | 18 abil18 | tra gli item (dopo che è stata | .49 | 14 abil14 | 16 abil16 | rimosso il fattore dominante, il | .43 | 18 abil18 | 19 abil19 | resto è ‘rumore’ random e non vi | .43 | 19 abil19 | 38 abil38 | sono significative associazioni |-------+--------------+--------------| residue tra gli item) e quindi | -.47 | 3 abil3 | 45 abil45 | poter eliminare ridondanze | -.45 | 7 abil7 | 18 abil18 | | -.44 | 7 abil7 | 13 abil13 | | -.42 | 18 abil18 | 44 abil44 | +----------------------------
7. Trasformare i punteggi grezzi di ciascun paziente in misure intervallari e studiare la relazione tra 60 - 50 = 10 punteggio grezzo 25 - 15 = ?? 90 – 80 = ?? e fenomeno misurato (indispensabile per misurare il cambiamento)
Take home message In un periodo di crescente applicazione di misurazioni nella pratica clinica, nel controllo di qualità e in procedure di revisione, è indispensabile che il fisiatra e il team riabilitativo acquiscano le capacità necessarie per : • selezionare appropriati strumenti di misura e somministrarli in modo opportuno; • analizzare i risultati nel miglior modo possibile [ applicando la dovuta cautela nell’interpretare i punteggi e le loro variazioni nel tempo! ]
Allo scopo di diffondere la corretta applicazione di queste misure nella pratica riabilitativa e nei processi gestionali, le future ricerche devono approfondire sia problematiche metodologiche che applicazioni cliniche: - utilizzando maggiormente tecniche di Rasch analysis e altre metodiche psicometriche avanzate, - mirando ad una migliore calibrazione e responsività degli strumenti, - analizzando la comparabilità dei risultati in differenti popolazioni, - curando la standardizzazione e gli adattamenti trans-culturali.
… una consapevole ed ottimale applicazione di questi strumenti a procedure di economia sanitaria e di miglioramento di qualità delle decisioni cliniche individuali richiede elevate competenze tecniche e cliniche, molta cautela e ulteriori esperienze scientifiche.
Grazie per l’attenzione
Puoi anche leggere