MISURE DI OUTCOME E ICF - Considerazioni psicometriche
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
MISURE DI OUTCOME E ICF
- Considerazioni psicometriche -
Franco Franchignoni
SFEBPRM, Past President UEMS PRM Board
Fondazione Salvatore Maugeri, Clinica del Lavoro e della Riabilitazione, IRCCS,
Istituto Scientifico di Veruno - Servizio di Fisiatria Occupazionale ed ErgonomiaMisurare l’outcome Una misura di outcome [inteso come: “risultato finale / conseguenza a lungo termine, dopo una serie di azioni ed avvenimenti in grado di influenzare una persona nella sua totalità”] è uno strumento valutativo, studiato per quantificare l’entità del cambiamento nel tempo in un gruppo o in singoli individui. "...The validity of the outcomes research rests on the validity of its measures ...” (M.V. Johnston, C.V. Granger 1994)
Che cosa e come misurare? Prima di poter misurare una variabile (fisica o psico- comportamentale) bisogna: 1. capirne il significato e quindi definirla con chiarezza, 2. decidere la migliore procedura per prendere le misure.
Capire e definire - 1
La comprensione del parametro da misurare deve essere
fondata su forti basi teoriche ed essere connessa ad un
modello interpretativo generale (ad es. in MF&R la ICF)
Condizioni di salute
(disturbo o malattia)
Funzioni
e Attività Partecipazione
strutture
corporee
Fattori ambientali Fattori personaliCapire e definire - 2 In Medicina riabilitativa la valutazione funzionale e l’analisi degli outcome richiedono spesso l’analisi di concetti ‘intangibili’ riferibili alla persona in toto (indipendenza funzionale, attività, abilità manuale, partecipazione, soddisfazione per le cure, ecc.). Queste variabili legate alla persona sono ‘latenti’ e possono essere inferite per lo più tramite l’osservazione di ‘comportamenti’, ad es. risposte a specifiche domande di un questionario o di una scala di valutazione.
Decidere procedura
MISURAZIONE
TEST STRUMENTALI MISURE
CLINICHE
TEST CLINICI SCALE DI QUESTIONARI
E FUNZIONALI VALUTAZIONE (auto-somministrati)
(compilate da un
osservatore)
.Ma, il conteggio di alcune osservazioni (tratte
da un pool potenzialmente infinito di item di
interesse) è solo una prima approssimazione
della misura e contare usando punteggi ‘grezzi’
non significa misurare quantità ben definite
Quante galline?
2
Quanti Kg?
4 3 x 4 kg = 12 kg
2 x 10 kg = 20 kgSI NO
Riesce a camminare per 10 metri?
Riesce a correre i 100 m in 10’’?
Nessuno Leggero Moderato Forte Estremo
Numerical rating scale - Rate your ability to climb the stairs:
0 1 2 3 4 5 6 7 8 9 10
Cannot No problem
Visual Analogue Scale (VAS) - How severe has your arthritic
pain been today?
0 100
No pain x Pain as bad
as it could beLivelli di misurazione a) NOMINALE - Classificazione o categorizzazione (uguaglianza tra i membri di una classe, nessun significato quantitativo). b) ORDINALE - Disposizione in sequenza progressiva delle categorie (non sono possibili manipolazioni matematiche). Gli intervalli tra le categorie non sono lineari. --------------------------------------------------------------------- c) AD INTERVALLO - Livelli progressivi che hanno uguale distanza tra loro (possibilità di determinazione di differenze tra misure, di trasformazioni lineari, di calcoli di medie ecc.). d) A RAPPORTO - Come il precedente, ma lo zero rappresenta la totale assenza della quantità misurata (possibilità di determinazione di proporzioni)
Criteri per selezionare
una misura di outcome
Affidabilità Validità
e responsività
Adattamento
trans-culturale
Appropriatezza
Interpretabilità
Accettabilità Fattibilità Appropriatezza L’appropriatezza richiede che l’esaminatore prenda in considerazione il grado di corrispondenza di uno strumento con le specifiche proposte, circostanze e richieste di un particolare progetto di ricerca Vi è necessità di analizzare in dettaglio: - scopi del progetto (& gli end-points) - natura dell’intervento da effettuare - caratteristiche del campione di pazienti - struttura e contenuto degli strumenti candidati NB - Affidabilità e validità non sono proprietà intrinseche ad uno strumento ma devono essere valutate all’interno del contesto di utilizzo e della specifica popolazione da studiare.
Rivermead Mobility Index
YES NO YES NO
1) Turning over in bed 9) Walking outside (even ground)
2) Lying to sitting 10) Walking inside with no aid
3) Sitting balance 11) Picking off floor
4) Sitting to standing 12) Walking outside (uneven ground)
5) Standing unsupported 13) Bathing
6)Transfer 14) Up and down four steps
7) Walking inside 15) Running
8) Stairs Criteri per selezionare
una misura di outcome
Affidabilità Validità
e responsività
Adattamento
trans-culturale
Appropriatezza
Interpretabilità
Accettabilità Fattibilità Accettabilità e fattibilità L’accettabilità si riferisce a quanto sia accettabile da compilare uno strumento per la popolazione oggetto dello studio (in termini sia di contenuto che di lunghezza) La fattibilità si riferisce alla semplicità nella gestione complessiva dei dati (carico tecnico-amministrativo e più in generale costi globali necessari per somministrare lo strumento: tempo richiesto per allenare lo staff ad usare lo strumento e per spiegare le norme di compilazione dello strumento ai pazienti; gestione amministrativa del database …) Ad es. il carico amministrativo associato al MDS-PAC è 120 minuti contro i 23 per la FIM (Federal Register USA, 2001)
Criteri per selezionare
una misura di outcome
Affidabilità Validità
e responsività
Adattamento
trans-culturale
Appropriatezza
Interpretabilità
Accettabilità Fattibilità Adattamento trans-culturale e
comprensibilità
Lo strumento è stato tradotto? Se sì, verificare
l’equivalenza trans-culturale tra originale e versione nella
nuova lingua (sotto il profilo semantico, idiomatico, concettuale e
pratico)
Scarsa equivalenza = scarsa confrontabilità
L’item è facile da capire da parte di differenti gruppi di
popolazione?
Livello culturale; Assenza di termini ambigui, gergali o tecnici, di voci troppo
lunghe o di domande mal poste ...
Bassa interpretabilità = alta variabilità nelle risposte =
bassa affidabilitàCriteri per selezionare
una misura di outcome
Affidabilità Validità
e responsività
Adattamento
trans-culturale
Appropriatezza
Interpretabilità
Accettabilità Fattibilità Affidabilità
1 - Consistenza interna: una buona scala misura differenti
aspetti dello stesso attributo; cioè, gli item sono omogenei
(alfa di Cronbach, item-total correlation, ecc.)
2 – Stabilità: esamina la riproducibilità
di una misura somministrata in
differenti occasioni o da differenti
osservatori (Intraclass Correlation
Coefficients, coefficiente Kappa,
metodo di Bland e Altman … ecc.)
Bassa affidabilità = alto errore di misurazione
= più incertezza sul reale punteggio Validità
La validità di una misurazione si riferisce alla misura in cui uno
strumento misura ciò che si intende misurare.
Vi sono tre principali tipi di validità: 1) v. di contenuto,
2) v. legata ad un criterio di riferimento, 3) v. di costrutto.
1) Uno strumento ha validità di contenuto se riesce a coprire tutte le parti di cui si
compone il costrutto da misurare e riflette l’importanza relativa di ciascuna parte e
se è libero dall’influenza di fattori che sono irrelevanti rispetto a quanto si intende
misurare
2) La validità correlata ad un criterio di riferimento è dimostrata dalla correlazione
della scala con altre misure del costrutto in esame (possibilmente con un “gold
standard”) [validità concomitante e predittiva]
3) La validità di costrutto riflette l’abilità di uno strumento – dimostrata tramite
enunciazione e verifica delle ipotesi - di misurare il concetto astratto che si vuole
misurare (costrutto/ variabile latente).Tandem Romberg & One-limb stance Sono test semplici, rapidi, ben misurabili ma: Compiti funzionali statici molto specifici e differenti da quelli richiesti nelle comuni attività di vita quotidiana
Functional Ambulation Categories
0 Unable Patient cannot walk, or requires help of two or more people
1 Dependent Patient requires firm continuous support from 1 person
- level 2
2 Dependent Patient needs continuous or intermittent support of 1 person
- level 1
3 Dependent Patient requires verbal supervision or stand-by help from
- supervision 1 person without physical contact
4 Independent Patient can walk independently on level ground, but requires
on the level ground help on stairs, slopes, or uneven surfaces
5 Independent Patient can walk independently anywhereScala di valutazione dell’equilibrio di BERG
(Berg 1993)
CINQUE LIVELLI ORDINALI: DA 0 “INCAPACE / NECESSITA
ASSISTENZA” A 4 “PUO’ ESEGUIRE CON SICUREZZA”
1. Passaggio seduto - stazione eretta
2. In piedi senza appoggio
3. Seduto senza appoggio (piedi appoggiati)
4. Passaggio stazione eretta - seduto
5. Trasferimenti letto - sedia
6. Stazione eretta ad occhi chiusi
7. Stazione eretta a piedi uniti
8. Inclinarsi in avanti a braccia flesse a 90°
9. Raccogliere da terra un oggetto
10. Girarsi guardando dietro la spalla dx e sin
11. Ruotare di 360° gradi
12. Appoggiare alternativamente i piedi su un gradino
13. Stazione eretta con i piedi in tandem
14. Stare su un piede solo senza appoggio Validità longitudinale
(responsività e sensibilità al cambiamento)
Sensibilità al cambiamento - Rispecchia l’abilità di uno
strumento nel misurare cambiamenti in uno stato,
indipendentemente dal fatto che siano rilevanti o dotati di
interesse per chi prende decisioni cliniche o gestionali [Effect
size, Standardized Response Mean, Relative Efficiency, …]
Responsività - Abilità nel rilevare reali cambiamenti nel
tempo (clinicamente importanti) nel concetto da misurare
- La grandezza del cambiamento che noi consideriamo importante
[Minimal clinically important difference] richiede un giudizio da parte
del medico, del paziente o della società e deve essere definita in anticipo
in ogni specifico studioL’analisi di Rasch L’analisi di Rasch è un modello statistico basato sulla “Item Response Theory”, che operativamente: 1. costruisce un modello in cui si specifica in che modo la differenza tra capacità dell’individuo e livello di difficoltà dell’item governa la probabilità di una certa risposta; 2. usa tale modello per stimare i due parametri sulla base dei dati osservati; 3. controlla il grado di corrispondenza tra dati e previsioni scaturite dal modello.
Negli ultimi anni, l’analisi di Rasch viene utilizzata in modo crescente
per facilitare lo sviluppo e la validazione di misure di outcome.
+-----------------------------------------------------------
La Rasch analysis è
|ENTRY RAW MODEL| INFIT | OUTFIT |
|NUMBER SCORE COUNT MEASURE S.E. |MNSQ ZSTD|MNSQ ZSTD|
capace tra l’altro di:
|------------------------------------+----------+----------+
| 13 275 118 1.74 .12|1.51 3.3|1.37 1.9|
| 8 307 118 1.26 .12| .86 -1.0|1.46 2.3|
| 11 266 118 1.87 .12|1.11 .8|1.30 1.5|
1. determinare se gli | 16 190 118 2.96 .12|1.27 1.9|1.17 .7|
items appartengono
| 10 370 118 .18 .14|1.24 1.5|1.15 .7|
| 14 274 118 1.75 .12|1.20 1.4|1.03 .2|
ad un unico costrutto
| 9 397 118 -.41 .16|1.08 .5|1.16 .6|
| 15 286 118 1.58 .12|1.09 .7| .98 .0|
(goodness-of-fit of
| 6 436 118 -1.67 .21| .81 -.9|1.07 .3|
| 1 Item
39913 -118
Entrare
-.46e uscire da bagno
.16|1.03 .2| o doccia
.71 -1.0|
the model: infit and
| 7 410 118 -.75 .17| .93 -.3| .68 -.9|
| 12 325 118 .98 .13| .93 -.5| .76 -1.3|
outfit statistics - |
|
5
4
405
433
118
118
-.62
-1.54
.16| .79 -1.3| .64 -1.2|
.20| .79 -1.1| .52 -1.0|
validità di costrutto) |
| 17
2 447
316
118
118
-2.25
1.12
.25| .71 -1.3| .35 -1.0|
.13| .63 -3.0| .56 -2.8|
| 3 470 118 -5.75 .82| .62 -.2| .16 1.2|Grado di Item più difficili
difficoltà
Soggetti più abili
degli items
(range e relazioni)
e abilità dei
singoli soggetti
2. analizzare la
gerarchia di difficoltà
degli item e le reali
abilità dei singoli Item più facili
soggetti (trasformando
dati ordinali in misure
intervallari) e fornire
indici di affidabilità di
Soggetti meno abili
queste stime1
3. Valutare l’adeguatezza 0 10
del numero e della tipologia
0.8
Category Probability
dei livelli ordinali delle 0.6
scale di valutazione 0.4
5
Il fine è quello di produrre una 0.2
scala di misura che possegga la
1 2 9
3 8
7
4 6
miglior qualità possibile per 0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
studiare la variabile di interesse Measure relative to item difficulty
0 1 2 3 4 5 6 7 8 9 10 1
Cannot No problem 0 4
0.8
Category Probability
3
1 2
0.6
0.4
0.2
0
-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12
Measure relative to item difficultyMOST MISFITTING RESPONSE STRINGS
4. Controllare la qualità dei Subject OUTMNSQ |SCORE
profili di risposta (tramite
| 11 11111
|364751902853416
analisi della coerenza interna tra 107 Sogg107
high---------------
2.96 A|..1.1......34..
dati e previsioni scaturite dal 90 Sogg90 2.92 B|.3.3..3........
modello) 52 Sogg52
62 Sogg62
2.24 C|......3........
1.01 D|.............2.
17 Sogg17 1.62 E|..........4....
120 Sogg120 1.95 F|3......4.......
13 Sogg13 1.86 G|..............3
64 Sogg64 1.75 H|.3.............
3
2
27 5. Ricercare eventuali
differenze tra le misure
ottenute in differenti gruppi
1
35
PDQ8
31
0
17
25 o contesti [M vs. F; Italia vs. USA
(adattamenti trans-culturali); spalla vs.
37
12
-1
7
polso; osteoartrosi vs. AR; ecc.]:
-2
-2 -1 0 1 2 3
Differential Item Functioning, DIF.
PDQ8/39Table of PCA STANDARDIZED RESIDUAL variance (in Eigenvalue units)
Empirical Modeled
Total variance in observations = 245.3 100.0% 100.0%
Variance explained by measures = 213.3 87.0% 85.8%
Unexplained variance (total) = 32.0 13.0% 14.2%
Unexpl var explained by 1st factor = 2.1 .9%
LARGEST STANDARDIZED RESIDUAL CORRELATIONS
USED TO IDENTIFY DEPENDENT ITEMS
+-------------------------------------+
|RESIDUL| ENTRY | ENTRY |
|CORRELN|NUMBER ITEM |NUMBER ITEM |
|-------+--------------+--------------|
6. Analizzare la presenza o
meno di ‘local independence’
| .71 | 32 abil32 | 33 abil33 |
| .69 | 38 abil38 | 39 abil39 |
| .50 | 5 abil5 | 18 abil18 | tra gli item (dopo che è stata
| .49 | 14 abil14 | 16 abil16 | rimosso il fattore dominante, il
| .43 | 18 abil18 | 19 abil19 | resto è ‘rumore’ random e non vi
| .43 | 19 abil19 | 38 abil38 | sono significative associazioni
|-------+--------------+--------------| residue tra gli item) e quindi
| -.47 | 3 abil3 | 45 abil45 | poter eliminare ridondanze
| -.45 | 7 abil7 | 18 abil18 |
| -.44 | 7 abil7 | 13 abil13 |
| -.42 | 18 abil18 | 44 abil44 |
+----------------------------7. Trasformare i
punteggi grezzi di
ciascun paziente
in misure
intervallari e
studiare la
relazione tra
60 - 50 = 10 punteggio grezzo
25 - 15 = ??
90 – 80 = ??
e fenomeno
misurato
(indispensabile per
misurare il
cambiamento)Take home message In un periodo di crescente applicazione di misurazioni nella pratica clinica, nel controllo di qualità e in procedure di revisione, è indispensabile che il fisiatra e il team riabilitativo acquiscano le capacità necessarie per : • selezionare appropriati strumenti di misura e somministrarli in modo opportuno; • analizzare i risultati nel miglior modo possibile [ applicando la dovuta cautela nell’interpretare i punteggi e le loro variazioni nel tempo! ]
Allo scopo di diffondere la corretta applicazione di queste misure nella pratica riabilitativa e nei processi gestionali, le future ricerche devono approfondire sia problematiche metodologiche che applicazioni cliniche: - utilizzando maggiormente tecniche di Rasch analysis e altre metodiche psicometriche avanzate, - mirando ad una migliore calibrazione e responsività degli strumenti, - analizzando la comparabilità dei risultati in differenti popolazioni, - curando la standardizzazione e gli adattamenti trans-culturali.
… una consapevole ed ottimale applicazione di questi strumenti a procedure di economia sanitaria e di miglioramento di qualità delle decisioni cliniche individuali richiede elevate competenze tecniche e cliniche, molta cautela e ulteriori esperienze scientifiche.
Grazie per l’attenzione
Puoi anche leggere