MISURE DI OUTCOME E ICF - Considerazioni psicometriche

Pagina creata da Raffaele Pepe

Salute e fitness

Italiano

Piace
Condividi
Incorpora
Schermo intero
Diapositive
Scarica HTML
Scarica PDF
Abuso

←

CONTINUA A LEGGERE

→

Trascrizione del contenuto della pagina

Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù

MISURE DI OUTCOME E ICF - Considerazioni psicometriche

MISURE        DI OUTCOME E              ICF
                               - Considerazioni psicometriche -

                                              Franco Franchignoni
                                       SFEBPRM, Past President UEMS PRM Board

Fondazione Salvatore Maugeri, Clinica del Lavoro e della Riabilitazione, IRCCS,
Istituto Scientifico di Veruno - Servizio di Fisiatria Occupazionale ed Ergonomia

Misurare l’outcome

Una misura di outcome [inteso come: “risultato finale / conseguenza a
lungo termine, dopo una serie di azioni ed avvenimenti in grado di
influenzare una persona nella sua totalità”] è uno strumento
valutativo, studiato per quantificare l’entità del cambiamento
nel tempo in un gruppo o in singoli individui.

"...The validity of the outcomes
research rests on the validity of
its measures ...”
(M.V. Johnston, C.V. Granger 1994)

Che cosa e come misurare?

Prima di poter misurare una variabile (fisica o psico-
comportamentale) bisogna:

1. capirne il significato e
quindi definirla con chiarezza,

2. decidere la migliore
procedura per prendere
le misure.

Capire e definire -                           1

La comprensione del parametro da misurare deve essere
fondata su forti basi teoriche ed essere connessa ad un
modello interpretativo generale (ad es. in MF&R la ICF)

                 Condizioni di salute
                 (disturbo o malattia)

 Funzioni
    e                   Attività             Partecipazione
strutture
corporee

       Fattori ambientali           Fattori personali

Capire e definire -               2

In Medicina riabilitativa la valutazione funzionale e l’analisi degli
outcome richiedono spesso l’analisi di concetti ‘intangibili’
riferibili alla persona in toto (indipendenza funzionale, attività,
abilità manuale, partecipazione, soddisfazione per le cure, ecc.).
Queste variabili legate alla persona sono ‘latenti’ e possono
essere inferite per lo più tramite l’osservazione di
‘comportamenti’, ad es. risposte a specifiche domande di un
questionario o di una scala di valutazione.

Decidere procedura

        MISURAZIONE

TEST STRUMENTALI      MISURE
                     CLINICHE

     TEST CLINICI     SCALE DI         QUESTIONARI
     E FUNZIONALI   VALUTAZIONE        (auto-somministrati)
                    (compilate da un
                      osservatore)
                                              .

Ma, il conteggio di alcune osservazioni (tratte
da un pool potenzialmente infinito di item di
interesse) è solo una prima approssimazione
della misura e contare usando punteggi ‘grezzi’
non significa misurare quantità ben definite

                                                    Quante galline?
                                    2
                                                     Quanti Kg?
                                                4      3 x 4 kg = 12 kg

        2 x 10 kg = 20 kg

SI         NO
    Riesce a camminare per 10 metri?

    Riesce a correre i 100 m in 10’’?

Nessuno               Leggero       Moderato       Forte            Estremo

 Numerical rating scale - Rate your ability to climb the stairs:
          0       1     2   3   4     5    6   7     8        9     10

 Cannot                                                                 No problem

 Visual Analogue Scale (VAS) - How severe has your arthritic
 pain been today?
              0                                                   100
No pain                                x                                 Pain as bad
                                                                        as it could be

Livelli di misurazione
a) NOMINALE      - Classificazione o categorizzazione
(uguaglianza tra i membri di una classe, nessun significato
quantitativo).
b) ORDINALE - Disposizione in sequenza progressiva delle
categorie (non sono possibili manipolazioni matematiche). Gli
intervalli tra le categorie non sono lineari.
---------------------------------------------------------------------
c) AD INTERVALLO - Livelli progressivi che hanno uguale
distanza tra loro (possibilità di determinazione di differenze
tra misure, di trasformazioni lineari, di calcoli di medie ecc.).
d) A RAPPORTO - Come il precedente, ma lo zero rappresenta
la totale assenza della quantità misurata (possibilità di
determinazione di proporzioni)

Criteri per selezionare
        una misura di outcome

           Affidabilità   Validità
                          e responsività

Adattamento
trans-culturale
                          Appropriatezza
  Interpretabilità

         Accettabilità       Fattibilità

 Appropriatezza
L’appropriatezza richiede che l’esaminatore prenda in
considerazione il grado di corrispondenza di uno strumento con le
specifiche proposte, circostanze e richieste di un particolare
progetto di ricerca

   Vi è necessità di analizzare in dettaglio:
- scopi del progetto (& gli end-points)
- natura dell’intervento da effettuare
- caratteristiche del campione di pazienti
- struttura e contenuto degli strumenti candidati

NB - Affidabilità e validità non sono proprietà intrinseche ad uno strumento
ma devono essere valutate all’interno del contesto di utilizzo e della specifica
popolazione da studiare.

Rivermead Mobility Index
                          YES NO                                         YES   NO
1) Turning over in bed           9) Walking outside (even ground)            
2) Lying to sitting              10) Walking inside with no aid              
3) Sitting balance               11) Picking off floor                       
4) Sitting to standing           12) Walking outside (uneven ground)         
5) Standing unsupported          13) Bathing                                 
6)Transfer                       14) Up and down four steps                  
7) Walking inside                15) Running                                 
8) Stairs                    

Criteri per selezionare
        una misura di outcome

           Affidabilità   Validità
                          e responsività

Adattamento
trans-culturale
                          Appropriatezza
  Interpretabilità

         Accettabilità       Fattibilità

 Accettabilità e fattibilità
 L’accettabilità si riferisce a quanto sia accettabile da
compilare uno strumento per la popolazione oggetto dello
studio (in termini sia di contenuto che di lunghezza)
 La fattibilità si riferisce alla semplicità nella gestione
complessiva dei dati (carico tecnico-amministrativo e più in generale
costi globali necessari per somministrare
lo strumento: tempo richiesto per allenare
lo staff ad usare lo strumento e per
spiegare le norme di compilazione dello
strumento ai pazienti; gestione
amministrativa del database …)

Ad es. il carico amministrativo associato al MDS-PAC è 120
minuti contro i 23 per la FIM (Federal Register USA, 2001)

Criteri per selezionare
        una misura di outcome

           Affidabilità   Validità
                          e responsività

Adattamento
trans-culturale
                          Appropriatezza
  Interpretabilità

         Accettabilità       Fattibilità

 Adattamento trans-culturale e
              comprensibilità
 Lo strumento è stato tradotto? Se sì, verificare
l’equivalenza trans-culturale tra originale e versione nella
nuova lingua (sotto il profilo semantico, idiomatico, concettuale e
pratico)
             Scarsa equivalenza = scarsa confrontabilità
 L’item è facile da capire da parte di differenti gruppi di
popolazione?
Livello culturale; Assenza di termini ambigui, gergali o tecnici, di voci troppo
lunghe o di domande mal poste ...
      Bassa interpretabilità = alta variabilità nelle risposte =
                        bassa affidabilità

Criteri per selezionare
        una misura di outcome

           Affidabilità   Validità
                          e responsività

Adattamento
trans-culturale
                          Appropriatezza
  Interpretabilità

         Accettabilità       Fattibilità

 Affidabilità
1 - Consistenza interna: una buona scala misura differenti
aspetti dello stesso attributo; cioè, gli item sono omogenei
(alfa di Cronbach, item-total correlation, ecc.)

2 – Stabilità: esamina la riproducibilità
di una misura somministrata in
differenti occasioni o da differenti
osservatori (Intraclass Correlation
Coefficients, coefficiente Kappa,
metodo di Bland e Altman … ecc.)

          Bassa affidabilità = alto errore di misurazione
               = più incertezza sul reale punteggio

 Validità
La validità di una misurazione si riferisce alla misura in cui uno
   strumento misura ciò che si intende misurare.

Vi sono tre principali tipi di validità: 1) v. di contenuto,
2) v. legata ad un criterio di riferimento, 3) v. di costrutto.

1) Uno strumento ha validità di contenuto se riesce a coprire tutte le parti di cui si
    compone il costrutto da misurare e riflette l’importanza relativa di ciascuna parte e
    se è libero dall’influenza di fattori che sono irrelevanti rispetto a quanto si intende
    misurare
2) La validità correlata ad un criterio di riferimento è dimostrata dalla correlazione
    della scala con altre misure del costrutto in esame (possibilmente con un “gold
    standard”) [validità concomitante e predittiva]
3) La validità di costrutto riflette l’abilità di uno strumento – dimostrata tramite
    enunciazione e verifica delle ipotesi - di misurare il concetto astratto che si vuole
    misurare (costrutto/ variabile latente).

Tandem Romberg & One-limb stance

  Sono test semplici, rapidi, ben misurabili ma:

   Compiti funzionali statici molto specifici e
  differenti da quelli richiesti nelle comuni
  attività di vita quotidiana

Functional Ambulation Categories
0   Unable          Patient cannot walk, or requires help of two or more people

1   Dependent       Patient requires firm continuous support from 1 person
    - level 2

2   Dependent       Patient needs continuous or intermittent support of 1 person
    - level 1

3   Dependent       Patient requires verbal supervision or stand-by help from
    - supervision   1 person without physical contact

4    Independent Patient can walk independently on level ground, but requires
on the level ground help on stairs, slopes, or uneven surfaces

5   Independent     Patient can walk independently anywhere

Scala di valutazione dell’equilibrio di BERG
                              (Berg 1993)

  CINQUE LIVELLI ORDINALI: DA 0 “INCAPACE / NECESSITA
  ASSISTENZA” A 4 “PUO’ ESEGUIRE CON SICUREZZA”

  1. Passaggio seduto - stazione eretta
  2. In piedi senza appoggio
  3. Seduto senza appoggio (piedi appoggiati)
  4. Passaggio stazione eretta - seduto
  5. Trasferimenti letto - sedia
  6. Stazione eretta ad occhi chiusi
  7. Stazione eretta a piedi uniti
  8. Inclinarsi in avanti a braccia flesse a 90°
  9. Raccogliere da terra un oggetto
  10. Girarsi guardando dietro la spalla dx e sin
  11. Ruotare di 360° gradi
  12. Appoggiare alternativamente i piedi su un gradino
  13. Stazione eretta con i piedi in tandem
  14. Stare su un piede solo senza appoggio

 Validità longitudinale
     (responsività e sensibilità al cambiamento)

 Sensibilità al cambiamento - Rispecchia l’abilità di uno
strumento nel misurare cambiamenti in uno stato,
indipendentemente dal fatto che siano rilevanti o dotati di
interesse per chi prende decisioni cliniche o gestionali [Effect
size, Standardized Response Mean, Relative Efficiency, …]

 Responsività - Abilità nel rilevare reali cambiamenti nel
tempo (clinicamente importanti) nel concetto da misurare
- La grandezza del cambiamento che noi consideriamo importante
[Minimal clinically important difference] richiede un giudizio da parte
del medico, del paziente o della società e deve essere definita in anticipo
in ogni specifico studio

L’analisi di Rasch

L’analisi di Rasch è un modello statistico
basato sulla “Item Response Theory”, che
operativamente:
1. costruisce un modello in cui si specifica in
che modo la differenza tra capacità
dell’individuo e livello di difficoltà dell’item
governa la probabilità di una certa risposta;
2. usa tale modello per stimare i due
parametri sulla base dei dati osservati;
3. controlla il grado di corrispondenza tra
dati e previsioni scaturite dal modello.

Negli ultimi anni, l’analisi di Rasch viene utilizzata in modo crescente
per facilitare lo sviluppo e la validazione di misure di outcome.

                          +-----------------------------------------------------------

 La Rasch analysis è
                          |ENTRY     RAW                  MODEL|   INFIT | OUTFIT |
                          |NUMBER SCORE COUNT MEASURE S.E. |MNSQ ZSTD|MNSQ ZSTD|

 capace tra l’altro di:
                          |------------------------------------+----------+----------+
                          |    13     275    118   1.74     .12|1.51   3.3|1.37   1.9|
                          |      8    307    118   1.26     .12| .86 -1.0|1.46    2.3|
                          |    11     266    118   1.87     .12|1.11    .8|1.30   1.5|
 1. determinare se gli    |    16     190    118   2.96     .12|1.27   1.9|1.17    .7|

 items appartengono
                          |    10     370    118    .18     .14|1.24   1.5|1.15    .7|
                          |    14     274    118   1.75     .12|1.20   1.4|1.03    .2|

 ad un unico costrutto
                          |      9    397    118   -.41     .16|1.08    .5|1.16    .6|
                          |    15     286    118   1.58     .12|1.09    .7| .98    .0|

 (goodness-of-fit of
                          |      6    436    118  -1.67     .21| .81   -.9|1.07    .3|
                          |      1 Item
                                      39913 -118
                                              Entrare
                                                   -.46e uscire  da bagno
                                                            .16|1.03    .2| o doccia
                                                                            .71  -1.0|
 the model: infit and
                          |      7    410    118   -.75     .17| .93   -.3| .68   -.9|
                          |    12     325    118    .98     .13| .93   -.5| .76 -1.3|
 outfit statistics -      |
                          |
                                 5
                                 4
                                      405
                                      433
                                             118
                                             118
                                                   -.62
                                                  -1.54
                                                            .16| .79 -1.3| .64 -1.2|
                                                            .20| .79 -1.1| .52 -1.0|
 validità di costrutto)   |
                          |    17
                                 2    447
                                      316
                                             118
                                             118
                                                  -2.25
                                                   1.12
                                                            .25| .71 -1.3| .35 -1.0|
                                                            .13| .63 -3.0| .56 -2.8|
                          |      3    470    118  -5.75     .82| .62   -.2| .16   1.2|

Grado di                                     Item più difficili
difficoltà
                            Soggetti più abili
degli items
(range e relazioni)
e abilità dei
singoli soggetti

2. analizzare la
gerarchia di difficoltà
degli item e le reali
abilità dei singoli                               Item più facili
soggetti (trasformando
dati ordinali in misure
intervallari) e fornire
indici di affidabilità di
                            Soggetti meno abili
queste stime

1

   3. Valutare l’adeguatezza                                                                          0                                                     10

   del numero e della tipologia
                                                                      0.8

                                              Category Probability
   dei livelli ordinali delle                                         0.6

   scale di valutazione                                               0.4
                                                                                                                                    5

   Il fine è quello di produrre una                                   0.2

   scala di misura che possegga la
                                                                                             1                 2                                                         9
                                                                                                                   3                                    8
                                                                                                                                                7
                                                                                                                            4           6

   miglior qualità possibile per                                       0
                                                                            -6    -5    -4       -3           -2       -1           0       1       2            3   4        5    6
   studiare la variabile di interesse                                                            Measure relative to item difficulty

     0 1 2 3 4 5 6 7 8 9 10                                            1
Cannot                           No problem                                                               0                                             4

                                                                      0.8

                                               Category Probability
                                                                                                                                            3
                                                                                                                   1            2
                                                                      0.6

                                                                      0.4

                                                                      0.2

                                                                       0
                                                                            -12   -10   -8       -6           -4   -2           0           2       4        6       8       10   12
                                                                                                 Measure relative to item difficulty

MOST MISFITTING RESPONSE STRINGS
4. Controllare la qualità dei                                         Subject        OUTMNSQ |SCORE

profili di risposta (tramite
                                                                                              |        11 11111
                                                                                              |364751902853416
analisi della coerenza interna tra                                       107 Sogg107
                                                                                           high---------------
                                                                                        2.96 A|..1.1......34..
dati e previsioni scaturite dal                                           90 Sogg90     2.92 B|.3.3..3........
modello)                                                                  52 Sogg52
                                                                          62 Sogg62
                                                                                        2.24 C|......3........
                                                                                        1.01 D|.............2.
                                                                          17 Sogg17     1.62 E|..........4....
                                                                         120 Sogg120    1.95 F|3......4.......
                                                                          13 Sogg13     1.86 G|..............3
                                                                          64 Sogg64     1.75 H|.3.............

        3

        2
                                                         27           5. Ricercare eventuali
                                                                      differenze tra le misure
                                                                      ottenute in differenti gruppi
        1
                                                    35
 PDQ8

                                           31

        0
                             17
                                      25                              o contesti [M vs. F; Italia vs. USA
                                                                      (adattamenti trans-culturali); spalla vs.
                      37

                            12
        -1

                  7
                                                                      polso; osteoartrosi vs. AR; ecc.]:
        -2
             -2        -1         0             1             2   3
                                                                      Differential Item Functioning, DIF.
                                      PDQ8/39

Table of PCA STANDARDIZED RESIDUAL variance (in Eigenvalue units)
                                              Empirical       Modeled
Total variance in observations      =        245.3 100.0% 100.0%
Variance explained by measures      =        213.3     87.0%     85.8%
Unexplained variance (total)        =         32.0     13.0%     14.2%
Unexpl var explained by 1st factor =            2.1      .9%
LARGEST STANDARDIZED RESIDUAL CORRELATIONS
USED TO IDENTIFY DEPENDENT ITEMS
+-------------------------------------+
|RESIDUL| ENTRY        | ENTRY        |
|CORRELN|NUMBER ITEM   |NUMBER ITEM   |
|-------+--------------+--------------|
                                           6. Analizzare la presenza o
                                           meno di ‘local independence’
|   .71 |    32 abil32 |    33 abil33 |
|   .69 |    38 abil38 |    39 abil39 |
|   .50 |     5 abil5 |     18 abil18 |    tra gli item (dopo che è stata
|   .49 |    14 abil14 |    16 abil16 |    rimosso il fattore dominante, il
|   .43 |    18 abil18 |    19 abil19 |    resto è ‘rumore’ random e non vi
|   .43 |    19 abil19 |    38 abil38 |    sono significative associazioni
|-------+--------------+--------------|    residue tra gli item) e quindi
| -.47 |      3 abil3 |     45 abil45 |    poter eliminare ridondanze
| -.45 |      7 abil7 |     18 abil18 |
| -.44 |      7 abil7 |     13 abil13 |
| -.42 |     18 abil18 |    44 abil44 |
+----------------------------

7. Trasformare i
               punteggi grezzi di
               ciascun paziente
               in misure
               intervallari e
               studiare la
               relazione tra
60 - 50 = 10   punteggio grezzo
25 - 15 = ??
90 – 80 = ??
               e fenomeno
               misurato
               (indispensabile per
               misurare il
               cambiamento)

Take home message
In un periodo di crescente applicazione di misurazioni nella pratica clinica, nel
controllo di qualità e in procedure di revisione, è indispensabile che il fisiatra e il team
riabilitativo acquiscano le capacità necessarie per :
• selezionare appropriati strumenti di misura e somministrarli in modo opportuno;
• analizzare i risultati nel miglior modo possibile [ applicando la dovuta cautela
nell’interpretare i punteggi e le loro variazioni nel tempo! ]

Allo scopo di diffondere la corretta applicazione di queste misure nella pratica riabilitativa e
nei processi gestionali, le future ricerche devono approfondire sia problematiche
metodologiche che applicazioni cliniche:
- utilizzando maggiormente tecniche di Rasch analysis e altre metodiche psicometriche
avanzate,
- mirando ad una migliore calibrazione e responsività degli strumenti,
- analizzando la comparabilità dei risultati in differenti popolazioni,
- curando la standardizzazione e gli adattamenti trans-culturali.

… una consapevole ed ottimale applicazione di questi strumenti a procedure di
economia sanitaria e di miglioramento di qualità delle decisioni cliniche
individuali richiede elevate competenze tecniche e cliniche, molta cautela e
ulteriori esperienze scientifiche.