Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino

Pagina creata da Erika Filippini
 
CONTINUA A LEGGERE
Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino
Cheating detection using
 Item Response Theory
              Guido Magnano
  Dipartimento di Matematica – Università di Torino

                Chiara Andrà
 Dipartimento di Matematica – Politecnico di Milano
Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino
Obiettivi e risultati
Obiettivi del progetto:
• Costruire uno strumento, basato sulla sola analisi dei pattern di
  risposta, che individui le classi in cui si è verificata un’incidenza
  significativa del cheating.
• Validare lo strumento su dati simulati.

Risultati conseguiti:
• Costruzione di un applicativo sensibile a diverse tipologie di
   cheating nelle classi (non solo copiatura fra studenti) con un tasso
   di falsi positivi intorno al 10% e un tasso di riconoscimento del
   cheating che varia fra il 40% e il 60% (a seconda del numero di item
   e della difficoltà media del questionario).
Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino
Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino
Perché uno studio su dati simulati?
• La validazione di un algoritmo di cheating detection
  richiede una base di dati in cui si conosca con
  certezza quali fenomeni di cheating sono intervenuti.
• A questo fine è necessario costruire un buon sistema
  di simulazione delle risposte e di simulazione del
  cheating.
Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino
Di quale cheating stiamo parlando?
• Copiatura fra studenti (cheating di tipo A)
• Diffusione di informazioni sulla risposta esatta
  a una o più domande (cheating di tipo B)
• Manipolazione dei dati in fase di trasmissione
  (cheating di tipo C)
Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino
Simulare le risposte a un test
• θ abilità dello studente      probabilità di
• β parametro dell’item         risposta corretta

                   modello di Rasch
Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino
Simulare le risposte a un test
• θ abilità dello studente        probabilità della
• (ak , ck) parametri dell’item   risposta k

                    modello di Bock
Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino
Simulare le risposte a un test
Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino
θ1 abilità degli                      x1 parametri
θ2 “studenti virtuali”                x2 degli item
                                       x3
θ3
..                                    ..
 .                                     .
                                       xM
θN

                pattern di risposte
                ABAADBCC0CCADB00BC…
Cheating detection using Item Response Theory - Guido Magnano Chiara Andrà Dipartimento di Matematica - Università di Torino
Simulare il cheating
• I pattern generati dal simulatore di risposta
  sono ripartiti in “gruppi–classe” (in modo
  casuale: le classi hanno un numero
  variabile di studenti, in media 20).
• Alcune classi sono selezionate come classi
  di controllo: ad esse non viene applicato
  alcun tipo di cheating.
Simulare il cheating
• Cheating A: per ogni classe si seleziona un
  numero casuale di studenti, con score sotto
  la mediana
• per ogni studente X in questo gruppo si
  estrae un secondo studente Y (sopra la
  mediana) da cui X “copia” un numero
  casuale di domande (fino a 1/3 di tutte,
  non in sequenza): nel pattern di risposte di
  X, le risposte corrispondenti sono sostituite
  con quelle di Y.
Simulare il cheating
• Cheating B: per ogni classe si seleziona un
  numero casuale di studenti (da 5 a tutta la
  classe);
• si estrae un numero casuale di domande
  (da 1 a 5);
• per ognuno degli studenti estratti, le
  risposte alle domande selezionate (le
  stesse per tutti) sono sostituite con quelle
  corrette.
Simulare il cheating
• Cheating C: per ogni classe si seleziona un
  numero casuale n di studenti (da 5 a tutta
  la classe);
• si estrae un numero casuale q, che
  rappresenta il numero massimo di
  “correzioni” fatte per un singolo studente;
• per tutti gli studenti estratti che hanno
  score minore di S/2 (S = punteggio
  massimo) fino a q risposte omesse sono
  sostituite con le risposte giuste.
Due questioni non banali: 1
La scelta della popolazione (spettro di abilità)
• la distribuzione di abilità nella popolazione
  determina lo spettro dei punteggi del test.
• ha senso estrarre tutte le classi da una sola
  popolazione?
Due questioni non banali: 1
si osservi la
relazione che si ha
in questo caso fra il
punteggio medio
della classe e
l’aumento dovuto al
cheating:

(correlazione = 0.81)
Due questioni non banali: 1
se si estraggono le
classi da popolazioni
diverse, la
correlazione
sparisce.

(correlazione = 0.23)
Due questioni non banali: 2
• come modellizzare la mancata risposta a una
  domanda?
• I modelli IRT usuali (Rasch, 2PL, 3PL…) non
  contemplano la mancata risposta
• in un modello politomico (Bock) si può considerare
  l’omessa risposta alla stregua di un distrattore
• ma l’omissione di una risposta può dipendere
  solo dall’abilità del soggetto?
Due questioni non banali: 2
• congettura (Lord): ogni studente risponde alle
  domande a cui crede di saper rispondere, e per le
  altre:
   – se le risposte errate non sono penalizzate, tira a
     caso
   – se le risposte errate sono penalizzate, evita di
     rispondere
• questo comportamento in genere non
  corrisponde a quanto avviene in realtà
Due questioni non banali: 2
• vi sono evidenze che, nella medesima
  situazione, alcuni studenti rispondono
  comunque a tutte le domande, altri solo a
  quelle di cui si sentono sicuri.
 la decisione di non rispondere non dipende
solo dall’abilità dello studente e dalla difficoltà
della domanda.
Due questioni non banali: 2
abbiamo simulato le omesse risposte in due modi:
1. usando delle domande reali (conoscevamo le
   risposte date da studenti): in queste, le risposte
   omesse sono state trattate come distrattori.
2. implementando un modello di Rasch modificato
   con l’aggiunta di un parametro di propensione a
   rispondere alle domande difficili, indipendente
   dal parametro di abilità.
Individuare il cheating sui dati simulati
Indici probabilistici di copiatura:
• H (Angoff 1974)
• g2 (Frary 1977)
• K (Holland 1992)
• ω (Wollack 1997)
• …
Il problema delle statistiche di coincidenza

            indice ω (Wollack 1997)
(a) 1441134324221131242133332144310211221141
(b) 1343104340034141333212224142420221321012

                         se b copia da a le prime 4
                         risposte, l’indice supera il
                         valore di soglia 1.28
ω = 0.905
Il problema delle statistiche di coincidenza

            indice ω (Wollack 1997)
(c) 1343112314421041142344134122441221321131
(d) 3113104144101140313313224141400030324223

                           se d copia da c le prime 10
                      risposte, l’indice non raggiunge
ω = –0.99                    ancora il valore di soglia
Il problema delle statistiche di coincidenza

distribuzione dell’indice ω su una classe simulata
                (senza cheating)
Il problema delle statistiche di coincidenza
Il nostro cheating detector
• Dato che lo scopo è individuare le classi in cui
  il punteggio medio potrebbe essere stato
  alterato dal cheating, accanto agli indici che
  misurano l’alterazione di singoli pattern di
  risposta o le coincidenze fra coppie di pattern
  abbiamo introdotto altri indici calcolati
  sull’intera classe. Nelle simulazioni, questi si
  sono rivelati particolarmente predittivi.
Il nostro cheating detector
• Il criterio di individuazione del cheating è basato
  su sette indici che vengono calcolati sulla base dei
  dati forniti.
• il sistema produce in primo luogo una stima delle
  probabilità di ciascuna risposta ad ogni item in
  funzione del punteggio complessivo del
  soggetto, sulla base delle frequenze osservate
  nell’intera popolazione studentesca sottoposta a
  test (senza suddividerla nelle classi di
  appartenenza)
Il nostro cheating detector
• con le probabilità calcolate, conoscendo I punteggio
  ottenuti dagli studenti il sistema simula la distribuzione
  che in ciascuna classe dovrebbero avere i sette indici in
  osservazione sotto l’ipotesi nulla (assenza di cheating),
  e per ciascuno di essi individua la mediana e il 99
  centile.
• a questo punto calcola il valore degli indici nella classe.
  Se per una classe uno di questi valori raggiunge il 99
  centile, ovvero se tutti i valori (tranne al più uno)
  risultano sopra la mediana, il sistema segnala la classe
  come possibile sede di cheating.
risultati delle simulazioni
risultati delle simulazioni
funzionamento degli indici
cheating di tipo A   cheating di tipo B   cheating di tipo C
cheating di tipo A   cheating di tipo B   cheating di tipo C
cheating di tipo A   cheating di tipo B   cheating di tipo C
cheating di tipo A   cheating di tipo B   cheating di tipo C
risultati delle simulazioni
si può depurare il punteggio dal cheating?
si può depurare il punteggio dal cheating?
conclusioni
• La potenza del test è apprezzabile, se confrontata con la performance
  degli indici noti in letteratura.
• L’uso di più indici rende lo strumento sensibile a tipi diversi di cheating;
  inoltre, gli indici che possono generare un forte errore di tipo I in alcune
  situazioni (molte risposte omesse) si possono facilmente escludere dal
  criterio di decisione in questi casi.
• La performance dello strumento è accettabile anche per dati dicotomici e
  per test non lunghi. La precisione è maggiore se il questionario è di livello
  medio/difficile in rapporto all’abilità della popolazione.
• L’algoritmo può dunque essere usato a supporto di criteri basati su analisi
  statistiche che utilizzano altre informazioni relative al contesto/ classe,
  permettendo di focalizzare meglio le possibili relazioni fra cheating e
  caratteristiche del test (composizione e modalità di somministrazione).
Puoi anche leggere