Da George Clooney ai modelli computazionali di attenzione visiva

Pagina creata da Martina Pepe
 
CONTINUA A LEGGERE
Da George Clooney ai modelli computazionali di attenzione visiva
Da George Clooney ai modelli
        computazionali di attenzione visiva

             Corso di Principi e Modelli della Percezione

             Prof. Giuseppe Boccignone

             Dipartimento di Informatica
             Università di Milano

             boccignone@di.unimi.it
             http://boccignone.di.unimi.it/PMP_2015.html

Ma ci serve veramente George Clooney?
Da George Clooney ai modelli computazionali di attenzione visiva
Ma ci serve veramente George Clooney?

Attenzione visiva
Da George Clooney ai modelli computazionali di attenzione visiva
Che cos’è l’attenzione?

• Una bagliore catturò la mia
  attenzione

• Non l’ho veduta, stavo
  prestando attenzione alla
  partita

• Stai attento a non farti male!

• Questo argomento richiede
  molta attenzione

Che cos’è l’attenzione?

• “Everyone knows what
  attention is. It is the taking
  possession by the mind, in
  clear and vivid form, of one out
  of what seem several
  simultaneously possible objects
  or trains of thought.
  Focalization, concentration, of
  consciousness are of its
  essence. It implies withdrawal
  from some things in order to
  deal effectively with others...”

                     W. James, 1890
Da George Clooney ai modelli computazionali di attenzione visiva
Che cos’è l’attenzione?

• Evidenzia alcune informazioni (il
  fuoco dell’attenzione)

• Inibisce altre informazioni (la
  periferia

• Una delle ragioni è limitare la
  quantità di informazione
  elaborata

   • abbiamo sistemi sensoriali a
     capacità limitata

Vari tipi di attenzione
Da George Clooney ai modelli computazionali di attenzione visiva
Attenzione visiva

Attenzione visiva
Da George Clooney ai modelli computazionali di attenzione visiva
Attenzione visiva

Attenzione visiva:
//un modo per situarsi nel mondo

• Situarsi nel mondo: opzioni

   • Movimenti del corpo
     (minuti)

      • Movimenti della testa
        (secondi)

         • Movimenti oculari
           (centinaia di millisecondi)

             • Covert attention shifts
               (decine di millisecondi)
Da George Clooney ai modelli computazionali di attenzione visiva
Attenzione visiva:
//movimenti oculari

• I movimenti dei due occhi possono essere uguali (orizzontali, verticali, di
  torsione sull'asse antero-posteriore) od opposti (convergenza, divergenza),
  dovendo soddisfare molteplici esigenze, quali:

   1. mantenere stabile l'asse visivo,

   2. rintracciare, inseguire e fissare gli oggetti che entrano nel campo visivo
     (mantenendo l’immagine degli oggetti di interesse entro 0.15° della fovea).

   3. consentire una visione unica e stereoscopica,

   4.permettere una esplorazione attenta dell'ambiente.

I movimenti oculari
//fisiologia dell’occhio
• Complesso meccanismo coordinativo (attivazioni e inibizioni originate da labirinti,
  articolazioni e muscoli del collo, retina/fovea, terminazioni sensoriali) correla i
  movimenti oculari fra di loro e con le restanti attività motorie somatiche.
Da George Clooney ai modelli computazionali di attenzione visiva
I movimenti oculari
//fisiologia dell’occhio
• Complesso meccanismo coordinativo (attivazioni e inibizioni originate da labirinti,
  articolazioni e muscoli del collo, retina/fovea, terminazioni sensoriali) correla i
  movimenti oculari fra di loro e con le restanti attività motorie somatiche.

I movimenti oculari
//neurofisiologia
• Complesso meccanismo coordinativo (attivazioni e inibizioni originate da labirinti,
  articolazioni e muscoli del collo, retina/fovea, terminazioni sensoriali) correla i
  movimenti oculari fra di loro e con le restanti attività motorie somatiche.
Da George Clooney ai modelli computazionali di attenzione visiva
Attenzione visiva:
//movimenti oculari

Attenzione visiva:
//movimenti oculari

       1. smooth pursuit

       2. movimenti saccadici
Da George Clooney ai modelli computazionali di attenzione visiva
Come misuriamo i movimenti oculari?

Come misuriamo i movimenti oculari?
Come misuriamo i movimenti oculari?

Come misuriamo i movimenti oculari?

• Un diodo (LED) emette raggi
  infrarossi (IR) a bassa potenza
  ed illumina l’occhio

   • Pupil Center / Corneal
     Relection

• Due fenomeni

   • retroriflessione

   • riflessione corneale

• Video camera + software
  tracciano i punti di interesse
Come misuriamo i movimenti oculari?

Come misuriamo i movimenti oculari?
I movimenti oculari
//inseguimento lento (Smooth Pursuit)

• Perché noi percepiamo la penna in movimento nel primo caso ma vediamo il
  puntino fermo nel secondo caso?

• Perché in un caso c’è movimento oculare

I movimenti oculari
//inseguimento lento (Smooth Pursuit)

• Un problema molto complesso è quello di
  distinguere se un movimento attraverso la
  retina è dovuto a movimenti oculari oppure
  allo spostamento di un oggetto

• Soppressione saccadica: Una riduzione
  della sensibilità nella percezione visiva che
  occorre al momento in cui si effettua un
  movimento saccadico.

   • Serve ad eliminare le strisce (come quelle
     ottenute fotografando un oggetto in rapido
     movimento) dall’immagine retinica durante i
     movimenti oculari

   • Sembra che il percorso magno ma non
     parvo sia soppresso durante la saccade
I movimenti oculari
//inseguimento lento (Smooth Pursuit)

• Il sistema motorio risolve il problema del perché un oggetto statico possa
  apparire in movimento mandando due “copie” di ogni ordine per eseguire un
  movimento oculare
  • Una “copia” va ai muscoli oculari

  • Un altra (“copia afferente”) va ad un area del sistema visivo che è stata nominata
    “comparatore”

  • Il comparatore può compensare per i cambiamenti dell’immagine dovuti ai
    movimenti oculari inibendo il tentativo di qualsiasi altra parte del sistema visivo di
    interpretare i cambiamenti come dovuti ad un movimento dell’oggetto

I movimenti oculari
//inseguimento lento (Smooth Pursuit)
I movimenti oculari
//usare l’informazione di movimento

• Come vengono utilizzate le informazioni di moto per gli spostamenti?
  • Vettore Ottico: Descrive l’insieme dei raggi luminosi che interagiscono con gli
    oggetti del mondo esterno posti di fronte all’osservatore

  • Flusso ottico: Cambiamenti nella posizione angolare di punti dell’immagine
    prospettiva che vengono percepiti durante gli spostamenti del soggetto

  • Esempio di un pilota in fase di atterraggio: “Espansione radiale”

Integrazione di movimenti oculari e movimento
Integrazione di movimenti oculari e movimento

Integrazione di movimenti oculari e movimento

                          A leftward eye movement channel. All connections are
                          excitatory.

                          The retinal image is processed by two types of cells in MT.

                          MT cells with inhibitory surrounds (MT-) connect to MSTv
                          cells, with MT cells preferring greater speeds weighted more
                          heavily.

                          MT cells with excitatory surrounds (MT+) connect to MSTd
                          cells.

                          MSTv cells have excitatory connections with MSTd cells
                          preferring opposite directions.

                          MSTv cells drive pursuit eye movements in their preferred
                          direction, and the resulting eye velocity is fed back to MSTv
                          and MSTd cells (thick arrows).

                          Leftward eye rotation causes rightward retinal motionof the
                          background.

                          The MT and MST cells are drawn so as to approximate their
                          relative
                          receptive field sizes
Analisi del movimento biologico

I movimenti oculari
//movimenti saccadici
I movimenti oculari
//movimenti saccadici

• In regime saccadico, alterniamo
  fissazioni a movimenti
  saccadici

• Movimenti saccadici:

  • 3-4 saccadi al secondo

  • 1 saccade ogni 200-300
    msec

Attenzione visiva:
//meccanismi neurofisiologici (1)
Attenzione visiva:
//meccanismi neurofisiologici (1)

Attenzione visiva:
//meccanismi neurofisiologici (1)

          “… the amount of information coming down the optic
         nerve ‐ estimated to be in the range of 108 ~ 109 bits per
          second ‐ far exceeds what the brain is capable of fully
        processing and assimilating into conscious experience …”

                                                    C. Koch, 1982
Come vediamo realmente quando muoviamo gli
occhi?

Come vediamo realmente quando muoviamo gli
occhi?
Attenzione visiva:
//come vediamo realmente il mondo
               1 movimento oculare = 1 foto

                                          by David Hockney

Attenzione visiva:
//i primi esperimenti di Yarbus
Attenzione visiva:
//i primi esperimenti di Yarbus

Livello di spiegazione psicologico

• Attenzione esplicita, aperta
  (overt attention)

   • movimenti oculari

• Attenzione implicita, coperta
  (covert attention)

   • teoria pre-motoria (Rizzolatti)
Livello di spiegazione psicologico
//chi guida l’attenzione?

• Lo stimolo fisico

   • segnali inattesi
     (sorprendenti?)

   • bottom-up

• Un obiettivo (goal)

   • conoscenza, aspettative,
     finalità, compiti (task)

   • top-down

Livello di spiegazione psicologico
//cosa viene focalizzato?

• Regioni spaziali (spotlight
  theory, Posner)

• Features salienti (Treisman)

• Oggetti
Livello di spiegazione psicologico
//cosa viene focalizzato? Features
                  trovare il disco blu

Livello di spiegazione psicologico
//cosa viene focalizzato? Features
                  trovare il disco blu
Livello di spiegazione psicologico
//cosa viene focalizzato? Features
                                            trovare il disco blu
• Effetto pop-out:

   • ricerca facile

   • pre-attentiva

                                                       orientazione
• Features salienti (Treisman &
  Gelade, 1980):
                                                             dimensione
   • codificate in mappe parallele
                                                                   colore
   • ricerca parallela

Livello di spiegazione psicologico
//cosa viene focalizzato? Features
                          trovare un disco rosso
Livello di spiegazione psicologico
//cosa viene focalizzato? Features
                           trovare un disco rosso

Livello di spiegazione psicologico
//cosa viene focalizzato? Features
                                           trovare un disco rosso
• Congiunzione di features:

   • ricerca difficile

   • attentiva

• L’attenzione è focalizzata
  localmente (attentional
  spotlight):

   • ricerca seriale
Livello di spiegazione psicologico
//cosa viene focalizzato? Features

• Modello di Treisman

• Congiunzione di features:

   • ricerca difficile

   • attentiva

• L’attenzione è focalizzata
  localmente (attentional
  spotlight):

   • ricerca seriale

Livello di spiegazione psicologico
//cosa viene focalizzato? Oggetti

• O’Craven et al. (1999)

   • studio di oggetti sovrapposti
Livello di spiegazione psicologico
//cosa viene focalizzato? Oggetti

• O’Craven et al. (1999)

   • studio di oggetti sovrapposti

   • un oggetto si muove, l’altro
     statico

Livello di spiegazione psicologico
//cosa viene focalizzato? Oggetti

• Analisi FMRI dell’esperimento
                           area dei volti =     area di altri oggetti =
                           Fusiform face area   Parahippocampal place area
Livello di spiegazione psicologico
//cosa viene focalizzato? Oggetti

• Analisi FMRI dell’esperimento

Livello di spiegazione psicologico
//rappresentazione dinamica di scene (Rensink)
Livello di spiegazione psicologico
//rappresentazione dinamica di scene (Rensink)

Livello di spiegazione psicologico
//rappresentazione dinamica di scene (Rensink)
Livello di spiegazione neurofisiologico:
//dalla retina alla V1/V2

Livello di spiegazione neurofisiologico:
//dalla retina alla V1/V2: proto-oggetti

• Chi invia / modula “segnali attentivi”?

                                            spatial index map
Livello di spiegazione neurofisiologico:
//oltre V1/V2

                                      Target
                                     tracking
                                                   t
                                                       AIT: 100 ms
                                      Target
                                    Positioning        CIT: 80 ms

                                      Target           PIT: 70 ms
                                     identity,
                                       Faces
                                      Color,
                                     Feature               V4: 60
                                    Invariants

                                    Motion
                                    Surfaces
                                     Photometric
                                                           V2: 20
                                      stimulus
                                                           V1: 10
                      Input retinico t = 0 ms
                                                         Retina: 0
Anatomia dell’attenzione visiva:
//le due vie: dove sono, che cosa sono gli oggetti

      Crude functional anatomy of                    Dorsal stream (where)

                                                         MST        MT

                                                          LIP              V2     V1

                                                         IT         V4
                                         LGN

                                                              Ventral stream (what)

Anatomia dell’attenzione visiva:
//attenzione: effetti neurali

• Qual è il locus della selezione attentiva?

• Aree dei primi stadi di elaborazione (early) vs. aree degli stadi avanzati (late):

   • l’attenzione ha effetti non solo sulle aree della corteccia extra-striata (late)...

   • ...ma anche ai primi stadi di elaborazione della corteccia striata (early)
Anatomia dell’attenzione visiva:
//effetti neurali

• Chi invia / modula “segnali attentivi”?

                                            spatial index map
        attentional
          control

                                                 thalamocortical
                                                      loop

Livello di spiegazione neurofisiologico:
//effetti neurali

• Guadagno moltiplicativo sulla risposta neurale allo stimolo focalizzato
Livello di spiegazione neurofisiologico:
//effetti neurali

• Incremento dell’attività neurale di base (baseline activity)

Modelli computazionali

                           Qual è il goal della
                            computazione?

                                Quale
                          rappresentazione e
                           quale algoritmo?

                            Come realizzarla
                             fisicamente?
Un semplice modello computazionale
//Itti e Koch

              Qual è il goal della
               computazione?

                    Quale
              rappresentazione e
               quale algoritmo?

               Come realizzarla
                fisicamente?

Un semplice modello computazionale
//Itti e Koch

                                     che cosa guardo

              Qual è il goal della
               computazione?         come guardo

                    Quale
              rappresentazione e
               quale algoritmo?

               Come realizzarla
                fisicamente?
Un semplice modello computazionale
//Itti e Koch

• Nella sua formulazione originale è un modello bottom-up:

   • ha alla base il concetto di salienza degli stimoli fisici

• Basato sul modello psicologico della Treisman (FIT)

Un semplice modello computazionale
//Itti e Koch: teoria computazionale

                                                                 guardo i punti salienti

                             Qual è il goal della
                              computazione?                      scelgo il più saliente

                                   Quale
                             rappresentazione e
                              quale algoritmo?

                              Come realizzarla
                               fisicamente?
Un semplice modello computazionale
//Itti e Koch: rappresentazione e algoritmo

                                        guardo i punti salienti

                Qual è il goal della
                 computazione?          scelgo il più saliente

                      Quale
                rappresentazione e
                 quale algoritmo?

                 Come realizzarla
                  fisicamente?

Un semplice modello computazionale
//Itti e Koch: rappresentazione e algoritmo

                               Mappa di cospicuità
                               (contrasto di colore)

                               Mappa di cospicuità
                                  (contrasto di
                                  orientazione)

                                Mappa di cospicuità
                               (contrasto di intensità)
Un semplice modello computazionale
//Itti e Koch: rappresentazione e algoritmo
           Mappe di cospicuità

       colore
                                            Mappa di salienza S
                   Color C-map

    orientazione

                   Brightness C-map    Final C-map
     intensità

                                                               arg max S
                   Orientation C-map                      massimi della Mappa
                                                               di salienza
                                                            visitati in ordine
                                                            decrescente +
                                                                Inibizione

Un semplice modello computazionale
//Itti e Koch: rappresentazione e algoritmo
Modelli di attenzione visiva
//livelli di spiegazione

                                               guardo i punti salienti

                    Qual è il goal della
                     computazione?             scelgo il più saliente

                         Quale
                   rappresentazione e
                    quale algoritmo?

                     Come realizzarla
                      fisicamente?

Un semplice modello computazionale
//Itti e Koch: implementazione neurale
                                        Mappa di salienza

            Color C-map

            Brightness C-map

            Orientation C-map
                                                       Mappe di cospicuità
Un semplice modello computazionale
//Itti e Koch: implementazione neurale

         Mappe di cospicuità
                                       Mappa di salienza
             Color C-map

             Brightness C-map    Final C-map

             Orientation C-map

               Selezione con una rete di neuroni
                     WTA (Winner Take All)
Puoi anche leggere