LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo

Pagina creata da Jacopo Di Pietro
 
CONTINUA A LEGGERE
LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo
Sardegna FESR 2014/2020 - ASSE PRIORITARIO I

   “RICERCA SCIENTIFICA, SVILUPPO TECNOLOGICO E INNOVAZIONE”

Azione 1.1.4 Sostegno alle attività collaborative di R&S per lo sviluppo di
     nuove tecnologie sostenibili, di nuovi prodotti e servizi

      LA VIDEOSORVEGLIANZA
          Introduzione e aspetti tecnologici
       Progetto cluster Top Down “PROSSIMO”

                                                                              1/55
LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo
Indice dei contenuti
Indice dei contenuti ......................................................................................................................................................... 2
1     Il problema della (in)sicurezza ................................................................................................................................. 4
2     La videosorveglianza: una possibile risposta al problema della sicurezza.............................................................. 7
3     L'evoluzione dell'hardware: dall'analogico al digitale............................................................................................... 9
4     Standard tecnologici delle telecamere di videosorveglianza ................................................................................. 14
      4.1       Telecamere fisse e mobili ........................................................................................................................... 14
      4.2       Tipologia di obiettivi ..................................................................................................................................... 15
      4.2.1         Obiettivo emisferico o supergrandangolare ............................................................................................ 15
      4.2.2         Obiettivo ultragrandangolare (fisheye).................................................................................................... 16
      4.2.3         Teleobiettivo ........................................................................................................................................... 16
      4.3       Tipo di connessione .................................................................................................................................... 17
      4.4       Risoluzione e velocità di acquisizione ......................................................................................................... 17
      4.5       Visone a infrarossi ....................................................................................................................................... 19
5     Lo stato dell’arte delle tecniche di videosorveglianza............................................................................................ 20
      5.1       Schema di un sistema di videosorveglianza ............................................................................................... 21
      5.2       Descrizione delle condizioni di utilizzo ........................................................................................................ 23
      5.3       Localizzazione degli oggetti in movimento .................................................................................................. 25
      5.3.1         Sottrazione dello sfondo ......................................................................................................................... 25
      5.3.2         Differenze temporali ................................................................................................................................ 28
      5.3.3         Flusso ottico ............................................................................................................................................ 29
      5.4       Classificazione degli oggetti ........................................................................................................................ 30
      5.4.1         Classificazione basata sulla forma. ........................................................................................................ 31
      5.4.2         Classificazione basata sul tipo di moto. .................................................................................................. 32
      5.5       Tracking ...................................................................................................................................................... 32
      5.5.1         Tracking basato su regioni ...................................................................................................................... 33
      5.5.2         Tracking basato sui contorni ................................................................................................................... 34
      5.5.3         Tracking basato su features ................................................................................................................... 35
      5.5.4         Tracking basato su modelli ..................................................................................................................... 36
      5.6       Fusione di flussi multi telecamera ............................................................................................................... 39
      5.6.1         Calibrazione multitelecamera ................................................................................................................. 39
      5.6.2         Descrizione della topologia del sistema multi telecamera ...................................................................... 40
      5.6.3         Re-identificazione degli oggetti ............................................................................................................... 41
      5.6.4         Tracking multi camera ............................................................................................................................ 43
      5.7       Le reti neurali nella videosorveglianza ........................................................................................................ 44
6     Progetti sviluppati .................................................................................................................................................. 45
      6.1       VSAM .......................................................................................................................................................... 45
      6.2       W4 ............................................................................................................................................................... 46
      6.3       PFINDER .................................................................................................................................................... 47
7     Gli operatori e il loro potere ................................................................................................................................... 48

                                                                                                                                                                                        2/55
LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo
8   Conclusioni ............................................................................................................................................................ 52
9   Bibliografia ............................................................................................................................................................. 53

                                                                                                                                                                                    3/55
LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo
1 Il problema della (in)sicurezza
       La domanda di sicurezza cresce in tutto il mondo, costantemente, perché gli
individui percepiscono, in misura sempre maggiore, una forte insicurezza sociale. La paura,
l'ansia e lo smarrimento sono sensazioni presenti da sempre nelle città e accompagnano la
vita dei cittadini che si sentono minacciati, a prescindere dalla concretezza della minaccia
stessa. Le paure vengono generate dalla consapevolezza, insita negli individui, di poter
essere tra le vittime degli episodi di microcriminalità che, anche grazie ai mezzi di
comunicazione di massa, si diffonde con maggior facilità.

       Queste minacce vengono percepite dagli individui e contribuiscono allo sviluppo di
quella “condizione esistenziale individuale e collettiva” [1] denominata vulnerabilità.

       Gli individui si sentono minacciati maggiormente dai reati lievi e meno dai reati
gravi quali omicidio o crimine organizzato. La paura colpisce le persone senza che vi sia un
effettivo rapporto di causa-effetto tra una violenza subita e la paura stessa. Molti cittadini si
sentono vulnerabili anche se in realtà non sono mai stati tra le vittime di alcun episodio
criminale e la sensazione deriva, spesso, dall'allarmismo con cui vengono proposte dai
mass media certe notizie di cronaca piuttosto che da un rischio reale [2]. Alla crescente
mediatizzazione della società corrisponde un aumento dell'ansia che viene “amplificata dai
grandi eventi criminali o violenti ipermediatizzati” [3] che contribuiscono a rafforzare la
sensazione di insicurezza, enfatizzando certi tipi di episodi criminali anche perché,
notoriamente, con la cronaca nera si vende di più rispetto alla cronaca bianca.

       Capita che il numero di notizie pubblicate dai giornali riguardanti episodi legati a
reati di varia natura non corrisponda al numero effettivo di reati compiuti, come nel caso
riportato da Sias e relativo alla criminalità nella provincia di Sassari [2]. Questi, infatti, nota
che, anche se in Nord Sardegna dal 1991 al 2000 si è registrata una diminuzione dei reati,
“La Nuova Sardegna”, il maggior quotidiano locale, ha pubblicato un numero maggiore di
notizie riguardanti crimini rispetto al passato. Il numero delle notizie di cronaca nera
pubblicate dai media può non corrispondere ad altrettanti eventi criminali, ma se la stessa
notizia viene riproposta per più giorni la sua percezione viene distorta ed amplificata. Ma è

                                                                                                      4/55
LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo
soprattutto la televisione che alimenta la paura di massa trasmettendo serie tv, film e
servizi giornalistici drammatizzati che hanno ad oggetto condotte criminali. Si confondono i
fatti di cronaca con la fiction e vengono rafforzati gli stereotipi per cui un individuo viene
percepito come criminale perché vestito in un certo modo o perché presenta caratteristiche
che nell'immaginario collettivo sono riconducibili all'aspetto del delinquente.

       In questo contesto è interessante evidenziare la teoria sociologica delle opportunità
criminali avanzata nel 1979 da L.E. Cohen e M. Felson [4] i quali sostengono che siano
necessarie una serie di condizioni e delle convergenze sia spaziali che temporali affinché
possa verificarsi un evento criminale. Queste sono:

       • la presenza di un aggressore motivato;

       • la presenza di un bersaglio adatto;

       • l'assenza di un guardiano capace.

           Figura 1: Visualizzazione delle tre condizioni che portano ad un evento criminoso [4]

       Come si vede nella Figura 1 l'evento criminoso avviene quando queste tre condizioni
convergono ed esistono contemporaneamente in uno stesso momento ed in uno stesso

                                                                                                   5/55
LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo
luogo. Le attività di prevenzione dovrebbero essere utilizzate per evitare questa
convergenza. Delle tre condizioni sopra esposte una in particolare è stata oggetto di studio:
l'assenza di un guardiano capace.

       Ci si è domandati a lungo e ci si domanda tuttora come possa migliorare la
sorveglianza, che è stata per secoli ed è ancora una problematica importante. A lungo è
stato impossibile ottenere miglioramenti in quest'ambito senza inserire unità aggiuntive di
personale addetto al pattugliamento delle strade e alla difesa delle persone in pericolo dagli
aggressori ma, nel corso degli ultimi decenni, è stato fornito un utile supporto dalle
tecniche e dalle tecnologie legate alla sorveglianza video, che consentono di controllare gli
spazi in maniera più efficace e con un minor dispendio di risorse rispetto al passato.

       In questo contesto i moderni sistemi di videosorveglianza sono delle risorse
fondamentali. Il loro funzionamento è semplice quanto efficace, perché, composti da
numerose telecamere dislocate all'interno delle aree di interesse, trasmettono le immagini
riprese ad addetti appositi in grado di agire in maniera efficace ed efficiente.

       Attraverso questi strumenti si crea un ambiente ostile per i malintenzionati che
hanno maggiori difficoltà a realizzare atti criminali, perché crescono le probabilità di essere
fermati in tempo o di essere catturati in seguito.

                                                                                                  6/55
LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo
2 La videosorveglianza: una possibile risposta al problema della
  sicurezza
       Tra i moderni metodi adottati per far fronte al problema della sicurezza un ruolo
importante è svolto dai sistemi di videosorveglianza anche se, in realtà, le telecamere di
ultima generazione e i software che le gestiscono non sono altro che l'ultima evoluzione
tecnologica riguardante l'utilizzo delle immagini nella lotta al crimine. Le enormi
potenzialità che nascono dall'incontro tra l'immagine e la prevenzione delle azioni criminali
vennero capite già alla nascita della fotografia. Infatti, se quest'ultima nacque ufficialmente
nel 1839 a Parigi fu già nel 1840 che iniziò ad essere utilizzata per identificare e
documentare i criminali e, nel periodo attorno al 1850, si cominciò, in Francia ed
Inghilterra, a fotografare tutti i detenuti per prevenire le evasioni e riconoscere i criminali
già arrestati.

       La storia per quanto riguarda le immagini televisive è analoga, ma meno immediata.
Le prime trasmissioni avvennero nel 1926 e già nel 1928 iniziò la commercializzazione
degli apparecchi ma non abbiamo notizia di un loro utilizzo per la lotta al crimine,
probabilmente perché le immagini trasmesse avevano le dimensioni di un francobollo ed
erano ingrandite con una lente apposita. Fu solo nel 1942 che si ebbe un primo esempio di
sistema di telecamere a circuito chiuso quando, durante la Seconda guerra mondiale,
l'ingegnere tedesco Walter Bruch organizzò un apparato di videocamere per monitorare i
lanci dei razzi V2. Qualche anno più tardi, nel 1947, la polizia britannica avanzò una
proposta nei confronti della BBC per avere accesso in tempo reale alle riprese del Royal
Wedding tra l'allora Principessa Elisabetta e Filippo, Principe di Edinburgo. L'intenzione era
di aiutare gli agenti di pattuglia e migliorarne la disposizione con l'ausilio delle immagini
ma, per via dei costi, la richiesta venne respinta. Nonostante questo, però, era nata l'idea di
utilizzare le riprese televisive in tempo reale per aiutare le attività di polizia.

       A partire dagli anni '50 e '60 del XX secolo si iniziarono a sviluppare i primi sistemi
di videosorveglianza veri e propri, detti anche televisioni a circuito chiuso (Closed Circuit
TeleVision o CCTV). Altro elemento importante per lo sviluppo e la diffusione delle CCTV,
derivante dallo sviluppo tecnologico di quegli anni, è stata l'invenzione e la successiva

                                                                                                  7/55
LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo
diffusione massiccia, anche ad uso domestico, dei videoregistratori. Infatti, solo in seguito a
questa innovazione tecnologica era finalmente data la possibilità di rivedere le immagini
catturate tramite le telecamere a costi accessibili a una platea crescente di individui.

       I sistemi di CCTV attorno alla seconda metà del secolo scorso erano poche decine ed
erano utilizzati per pochi eventi mirati mentre al giorno d'oggi ne possiamo contare
migliaia e sono utilizzati per svariati obbiettivi sia dalle forze di polizia che dai privati
cittadini. [17] Inoltre, le innovazioni tecnologiche avvenute negli ultimi anni hanno portato
ad un'enorme diffusione di dispositivi di vario tipo quali smartphone, tablet e PC portatili
che a loro volta hanno incorporate delle fotocamere e delle telecamere facilmente
utilizzabili per riprendere anche atti criminali cui si sta assistendo e, tramite internet, si ha
la possibilità di condividere in tempo reale sia le fotografie che i filmati con il resto del
mondo.

                                                                                                    8/55
LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo
3 L'evoluzione dell'hardware: dall'analogico al digitale
       Nel corso dei decenni è molto cambiata la concezione e la tecnologia che sta alla
base dei sistemi di videosorveglianza. Evoluzioni che sono state dettate, in larga parte, dal
mercato perché sono state le richieste dei clienti a indurre gli sviluppatori a concentrarsi su
determinati aspetti piuttosto che altri. Forse l'aspetto sul quale si è puntato maggiormente
è stata la qualità dell'immagine ma non ne sono stati tralasciati altri quali la sicurezza della
tecnologia, la semplicità di installazione e la manutenzione, la riduzione dei costi e la durata
delle registrazioni video.

       Abbiamo assistito ad un'evoluzione totale della videosorveglianza perché se in
principio i sistemi erano sviluppati per essere completamente analogici oggi sono
sviluppati per essere completamente digitali. Questo è il frutto di una serie di innovazioni
introdotte negli ultimi venti anni ma non vuol dire assolutamente che tutte le televisioni a
circuito chiuso presenti nel mondo oggi siano digitali.

       Il primo modello di sistema di videosorveglianza, quello completamente analogico
ed esemplificato nella figura 3, era composto da telecamere che avevano la necessità di
essere collegate direttamente, tramite una serie di cavi, a dei videoregistratori che
registravano le immagini. Questi ultimi, a loro volta, avevano bisogno di supporti quali le
videocassette, identiche a quelle vendute e utilizzate per l'uso domestico, per mantenere
memoria delle immagini riprese. Non era presente alcuna compressione del video e la
durata massima di registrazione, senza perdita di qualità dei filmati, era pari ad otto ore.
Ma vi era comunque la possibilità di aumentare la durata delle videocassette inserendo nel
videoregistratore una modalità ad intervallo di tempo per cui veniva ridotto il numero di
immagini registrate al secondo. Altro metodo utilizzato per guadagnare in termini di durata
della registrazione era di utilizzare un “quad” ovvero una componente aggiuntiva del
sistema che doveva essere collegata alle telecamere, al videoregistratore e al monitor.
Attraverso il quad da quattro inputs derivanti da altrettante telecamere veniva generato un
unico segnale di output. Ancora più potente era il multiplexer che poteva collegare fino a
sedici telecamere.

                                                                                                   9/55
LA VIDEOSORVEGLIANZA Introduzione e aspetti tecnologici - prossimo
Figura 2: Schema di uno dei primi sistemi di video sorveglianza

       Fu solo attorno alla metà degli anni '90 che avvenne il primo passaggio verso il
digitale, illustrato nella figura 2. I videoregistratori analogici con le loro videocassette
vennero sostituiti con dei videoregistratori digitali che avevano al loro interno degli hard
disk e questo consentiva di comprimere le immagini e mantenere in memoria le
registrazioni relative a più giorni. Inoltre, la maggior parte di questi videoregistratori
digitali aveva più ingressi video, in genere 4, 16 o 32, eliminando così la necessità di avere
un quad o un multiplexer. Già allora, dato il formato digitale del video, era possibile inviare i
filmati in remoto ad un monitor ma un grande problema era la banda disponibile per l'invio
che non superava, in genere, i 50kbps e questo era un limite non da poco. Per questo, se si
intendeva trasmettere i video tramite rete, occorreva diminuire la risoluzione e le immagini
al secondo aumentando, al tempo stesso, la compressione video. Tutto questo si traduceva
in immagini dalla qualità molto ridotta e dunque, quasi sempre, inutilizzabili.

                                                                                                    10/55
Figura 3: Introduzione dei videoregistratori digitali

       Qualche anno più tardi arrivarono sul mercato dei videoregistratori digitali dotati di
porte ethernet per la connessione in rete. Fu così possibile eseguire il monitoraggio dei
video tramite PC, come si nota dallo schema in figura 3, ed effettuare delle operazioni
direttamente dal sistema operativo. I vantaggi del passaggio dall'analogico al digitale erano
evidenti soprattutto per la qualità e la gestione delle immagini video ma al tempo stesso
erano presenti alcuni svantaggi. Tra questi, il fatto che i sistemi funzionavano con hardware
e software proprietari comportava costi più elevati per gli utenti perché erano costretti a
rivolgersi sempre al produttore sia per la manutenzione che per gli aggiornamenti. Altro
evidente problema riguardava gli ingressi disponibili dei videoregistratori, 16 o 32, che
rendeva impossibile per tutti i sistemi composti da un numero di telecamere non multiplo
di 16 sfruttare in modo efficace e redditizio gli apparecchi.

                Figura 4: Introduzione della rete Internet nei sistemi di video sorveglianza

       Altro importante passo verso il digitale avvenne con l'introduzione dei video
encoder, detti anche video server e ancora oggi utilizzati, che servono per ricevere il
segnale dalle telecamere analogiche, comprimerlo e trasformarlo in digitale. Attraverso una

                                                                                                11/55
rete IP i video vengono inviati ad un PC sul quale è presente un software che consente di
monitorare e registrare su appositi supporti le immagini ricevute così come illustrato nella
figura 4. I vantaggi di questo sistema sono dovuti all'utilizzo di un comune PC come server e
riguardano soprattutto la facilità di utilizzo e di espansione. Simili, come concezione del
sistema, sono i NVR (Network Video Recorder) ovvero degli apparecchi completi di
programmi per la gestione video che consentono una più semplice installazione del sistema
ma peccano dal punto di vista della flessibilità rispetto ad una piattaforma sviluppata
tramite PC server.

                          Figura 5: Evoluzione dei sistemi di video sorveglianza

       Ultima evoluzione è quella dei sistemi interamente digitali, senza alcun componente
analogico, come illustra la figura 5. Per realizzarli vengono utilizzate telecamere dotate di
una connessione Internet attraverso la quale si collegano ad un dispositivo di rete che a sua
volta trasmette il segnale ad un server che si occupa della gestione dei video tramite un
software. Le telecamere utilizzate sono digitali e il segnale nasce digitale e questo, per la
qualità del video, è molto importante perché, ogni volta che si ha un passaggio da analogico
a digitale o viceversa, c'è una perdita di qualità.

                                                                                                12/55
Figura 6: sistema di video sorveglianza interamente digitale

       Dunque, rispetto ad una rete analogica, un sistema di videosorveglianza basato su
telecamere connesse tramite la rete Internet offre i seguenti vantaggi:

           •   possibilità di usare telecamere ad alta risoluzione (megapixel);

           •   qualità dell'immagine costante, indipendentemente dalla distanza;

           •   possibilità di usare funzionalità Power over Ethernet e wireless per ridurre i
               problemi e i costi di cablaggio;

           •   accesso remoto alle funzionalità delle camere come pan, tilt e zoom;

           •   piena flessibilità e scalabilità. [18]

       I sistemi di ultima generazione, basati su telecamere in rete, offrono la possibilità di
sviluppare una videosorveglianza intelligente grazie alla potenza di computazione propria
degli strumenti utilizzati.

                                                                                                  13/55
4 Standard tecnologici delle telecamere di videosorveglianza
        Nella progettazione di un sistema di video sorveglianza assume un ruolo
fondamentale la scelta delle telecamere da installare. Oggi il mercato propone una vasta
gamma di prodotti con diverse caratteristiche e fasce di prezzo. Si parte da telecamere da
qualche centinaio di euro adatte alla videosorveglianza domestica per arrivare a prodotti di
fascia alta indicati per situazioni particolari.

        La scelta del dispositivo dipende in larga misura dal contesto applicativo e dai
risultati attesi.

        Nel seguito vengono descritte alcune delle caratteristiche principali di cui bisogna
tenere conto nella scelta della telecamera.

4.1   Telecamere fisse e mobili
        Una prima categorizzazione si può effettuare in base alla mobilità che la telecamera
avrà una volta installata. Si considerano, in genere, due categorie:

        •       Telecamere fisse: queste vengono installate su di un supporto fisso e
inquadrano sempre la stessa scena. I parametri di zoom e angolazione, una volta impostati,
non cambiano nel tempo.

        •       Telecamere mobili: si installano utilizzando supporti mobili che hanno la
possibilità di cambiare la loro angolazione. Il supporto mobile permette di poter variare
l’angolo verticale (TILT) o quello orizzontale (PAN). Solitamente il supporto è motorizzato e
controllabile in remoto. In questo modo l’operatore è in grado di modificare l’inquadratura
in base alle esigenze. In genere oltre all’angolazione è possibile modificare lo zoom in modo
da permette di concentrare l’attenzione su alcuni dettagli. Questo genere di telecamere
sono chiamate PTZ (Pan Tilt e Zoom).

        La scelta del tipo di telecamera varia in base all’applicazione. Le telecamere PTZ,
anche se più versatili, aggiungono complessità al sistema di analisi che, in fase di
elaborazione, deve tenere conto del variare dei parametri di angolazione e zoom.

                                                                                                14/55
4.2    Tipologia di obiettivi
         Il tipo di obiettivo scelto influisce sulla porzione di area che le telecamere riesce a
inquadrare. Tra le varie caratteristiche di un obiettivo assume notevole importanza l’angolo
di visuale che indica la porzione di spazio che viene inquadrata.

         Nella figura 7 sono viene visualizzata la stessa scena acquisita con obiettivi diversi
per mostrare quali sono le differenze tra le varie acquisizioni.

      Figura 7: La stessa scena acquisita da un supergrandangolare (90°), da un grandangolare (45°), da un
                         teleobiettivo con angolo di 21° e da teleobiettivo con angolo di 15°

4.2.1 Obiettivo emisferico o supergrandangolare
         Questo tipo di obiettivo consente di inquadrare una ampia porzione di spazio
riducendo le zone morte che sarebbero escluse dal controllo. L’angolo di visuale con questi
obiettivi arriva fino ad 180°.

                           Figura 8: Esempio di acquisizione con obiettivo emisferico

                                                                                                             15/55
4.2.2   Obiettivo ultragrandangolare (fisheye)
        Si tratta di un particolare obiettivo grandangolare estremo che abbraccia un angolo
di campo non minore di 180 gradi, esistono infatti obiettivi fisheye che abbracciano angoli
di campo superiori a 180 gradi. Questi tipi di obiettivi vengono chiamati fisheye (occhio di
pesce) perché simulano la visione di alcuni tipi di pesci. Hanno la capacità di registrare
l’intero emisfero di 180 gradi che si trova davanti alla camera, proiettandolo come
immagine circolare sul sensore.

        A differenza degli obiettivi grandangolari a prospettiva rettilinea, i fisheye
forniscono un'immagine distorta, la distorsione aumenta quanto più ci si allontana dal
centro dell’immagine. Questo tipo di obiettivi ha il vantaggio di poter riprendere tutto
quello che accade in una scena. Anche se le immagini risultano distorte esistono
metodologie di compensazione della distorsione.

                    Figura 9: Immagine di una strada ripresa con un obiettivo fisheye

4.2.3   Teleobiettivo
        Consente di inquadrare una porzione di spazio relativamente piccola ma con grande
accuratezza. L’angolo di visuale in questo caso è minore di 45°. Questo tipo di obiettivo
viene utilizzato nel caso si vogliano cogliere dettagli specifici di una scena, come ad

                                                                                               16/55
esempio il numero di targa di un’auto.

4.3   Tipo di connessione
       Nella progettazione di un sistema di videosorveglianza bisogna tenere conto del
fatto che ogni telecamera ha bisogno di una connessione per trasmettere le immagini e un
cavo di alimentazione.

       Negli ultimi anni si sono diffuse le telecamere con connessione Ethernet. Questo tipo
di interfaccia consente di cablare le telecamere con una rete dati standard senza dover
utilizzare connessioni particolari, inoltre consente di associare ad ogni dispositivo un
indirizzo IP e di sfruttare la rete Internet per potervi accedere da remoto. Questo consente
non solo di ricevere i dati ma anche di comunicare con la telecamera per impostare i vari
parametri.

       Un altro vantaggio di questo tipo di connessione è che permette di alimentate
direttamente il dispositivo attraverso il cavo Ethernet utilizzando la tecnologia Power over
Ethernet (PoE) riducendo il numero di cavi e semplificando il cablaggio.

       Esistono anche telecamere con interfaccia wifi e che quindi non richiedono cavi per
a trasmissione dati, ovviamente bisogna comunque collegare la telecamera ad una fonte di
alimentazione.

       Gli standard di velocità più diffusi sono Ethernet 10/100 Mbit/s ma è possibile
raggiungere, tramite standard più recenti quali PoE+ velocità di 10 Gbit/s. La velocità di
connessione influisce ovviamente sul numero e sulla qualità delle immagini trasferibili per
unità di tempo.

4.4   Risoluzione e velocità di acquisizione
       Si definisce risoluzione di un'immagine digitale, il numero di pixel che compongono
l'immagine espresso in base per altezza. Più è alta la risoluzione maggiori sono i dettagli
della scena che si riescono a cogliere.

                                                                                               17/55
Le telecamere di rete IP forniscono un segnale video digitale la cui risoluzione viene
espressa in pixel x pixel, ugualmente alla risoluzione del sensore. Le telecamere IP di prima
generazione fornivano la risoluzione VGA di 640x480 pixel mentre oggi sono in grado di
fornire risoluzioni molto superiori.

       Tra gli standard più diffusi ci sono i seguenti:

              Figura 10: Esempi di risoluzioni di immagini utilizzati nella videosorveglianza

            Più alta è la risoluzione maggiore sarà la quantità di memoria necessaria a
  memorizzare le immagini, quindi sarà necessaria una più alta velocità di trasmissione.

       Per quanto riguarda l’acquisizione e la trasmissione di filmati esistono, anche in
questo caso, diversi standard. La velocità di acquisizione si misura in Frame per Second
(fps), cioè fotogrammi al secondo. A parità di banda disponibile la velocità è inversamente
proporzionale alla dimensione del frame. Di seguito alcuni esempi di velocità di
trasmissione e relativa risoluzione ricavati dalle specifiche di una telecamera di
videosorveglianza standard:

       •      30 fps in risoluzione VGA (640x480 pixel)

       •      30 fps in risoluzione CIF (352x388 pixel)

       •      20 fps in risoluzione MEGA (1280x960 pixel)

                                                                                                18/55
Come ci si poteva aspettare all’aumentare della risoluzione diminuisce il frame rate.

4.5   Visone a infrarossi
       Le telecamere a infrarossi sono utilizzate in impianti di videosorveglianza nei quali
esiste la necessità di una visione nitida anche in condizioni di scarsa luminosità. Queste
telecamere sono dotate di speciali Led che emettono luce infrarossa non visibile ad occhio
umano, ma visibile dal CCD montato sul dispositivo. Questo tipo di telecamere acquisiscono
a colori per la visione diurna, mentre in quella notturna commutano in automatico in
bianco e nero. Solitamente la velocità e l’accuratezza dell’acquisizione degradano nella
visione notturna.

                     Figura 11: esempio di scena acquisita nel visibile e a infrarossi

                                                                                               19/55
5 Lo stato dell’arte delle tecniche di videosorveglianza
       Negli ultimi anni uno dei campi di ricerca in continua evoluzione nell’ambito della
visione artificiale è sicuramente quello della video sorveglianza. L’obiettivo di questo tipo di
ricerca è realizzare sistemi che siano in grado sorvegliare scene che si evolvono
dinamicamente e cercare di seguire gli spostamenti e descrivere il comportamento degli
elementi presenti nella scena. Lo scopo è sviluppare una video sorveglianza intelligente e
attiva che sia in grado di sostituire la video sorveglianza passiva tradizionale che è risultata,
in molti contesti, inadeguata. Per comprendere meglio cosa significhi sorveglianza attiva e
passiva basti pensare al gran numero di telecamere di sorveglianza installate in vari punti
di una città. Queste forniscono migliaia immagini di quello che accade in tempo reale in
zone di interesse. Ma per tenere sotto controllo quello che visualizzano decine, se non
centinaia, di telecamere servirebbe un gran numero di operatori. In questo caso si parla di
sorveglianza passiva, il sistema si limita a fornire immagini, ma non cerca di interpretare
quello che succede. (Per un approfondimento del tema si veda il capitolo 6 di questo
documento)

       L'obiettivo di un sistema di video sorveglianza attiva è non solo di mettere
telecamere al posto degli occhi umani, ma anche di compiere una vera e propria operazione
di sorveglianza, rilevando in modo automatico quello che accade nella scena e segnalando il
verificarsi di situazioni particolari.

       La video sorveglianza ha una vasta gamma di potenziali applicazioni, ad esempio
controllo di aree urbane, controllo di zone sottoposte a particolari restrizioni come porti e
aeroporti, controllo di strade e autostrade e così via. In particolare, si può focalizzare
l’attenzione su situazioni che coinvolgono persone e veicoli in particolari contesti. Tra i più
diffusi contesti applicativi si trovano:

       1.      Controllo di accesso a zone con speciali restrizioni come basi militari,
zone aeroportuali o zone industriali particolarmente pericolose. In questi casi oltre a
rilevare la presenza di persone è necessario anche utilizzare sistemi biometrici per cercare
di identificarle per capire se sono autorizzata ad accedere all’area oppure no.

                                                                                                    20/55
2.      Identificazione di persone presenti nella scena. Questo tipo di
applicazioni possono essere di fondamentale importanza per le forze di polizia nei casi in
cui si renda necessario individuare una particolare persona, come ad esempio un ricercato.
Telecamere di sorveglianza con questo specifico obiettivo possono essere installate in
stazioni ferroviarie, aeroporti, sottopassaggi e altri posti di transito. Il sistema non si limita
a rilevare la presenza di persone ma attraverso dati biometrici come i tratti del volto o il
modo di camminare cercano di riconoscerne l’identità.

       3.      Statistiche sul flusso della folla di persone e analisi della congestione
del traffico. Usando tecniche per la rilevazione automatica di persone si possono
monitorare i movimenti della folla in determinate aree pubbliche. Simili procedure si
possono anche applicare nel caso si debba monitorare il traffico di veicoli in grandi incroci,
autostrade o superstrade. Questi sistemi forniscono importanti informazioni a chi si occupa
di gestire il traffico automobilistico.

       4.      Rilevazioni di situazioni di allarme o di anomalie. In alcune circostanze è
necessario analizzare i comportamenti delle persone e dei veicoli e determinare se questi
comportamenti siano normali o anomali. Ad esempio, si può rilevare se un veicolo sta
percorrendo un tratto di strada contromano o se sta compiendo un’infrazione. Un altro
scenario è quello della sorveglianza dei parcheggi in cui il comportamento di certe persone
potrebbe far pensare che stiano commettendo un furto o stiano danneggiando delle auto.

5.1   Schema di un sistema di videosorveglianza
       Un generico sistema di video sorveglianza può essere schematizzato secondo il
diagramma riportato in figura 12 [7]. Come si può notare si tratta di un sistema a cascata in
cui ogni elemento riceve in ingresso l’uscita dell’elemento precedente. Gli eventuali errori
commessi ad un certo livello si propagano a quello successivo e, in alcuni casi, possono
comprometterne il corretto funzionamento.

                                                                                                     21/55
Figura 12: Schema di un generico sistema di video sorveglianza (tratto da [7])

      Segue una breve descrizione dei vari elementi dello schema che saranno
approfonditi nel seguito del documento.

             •       Creazione di un modello descrittivo dell’ambiente di utilizzo. La
      creazione del modello è fondamentale per poter distinguere tra gli elementi che
      fanno parte dello sfondo (background) e quelli che nella scena si muovono
      (foreground). Il modello deve essere in grado di adattarsi all’evolversi temporale
      della scena.

             •       Segmentazione del moto. Una volta creato il modello lo si utilizza per
      estrarre gli oggetti in movimento.

             •       Classificazione degli oggetti. Gli elementi individuati vengono
      classificati in base alle loro caratteristiche di forma, dimensione o di moto. Di solito

                                                                                                 22/55
si considerano due classi di oggetti: persone e veicoli.

               •       Tracking. L’obiettivo di questo modulo è di seguire gli spostamenti
       degli oggetti precedentemente classificati all’interno della scena.

               •       Descrizione del comportamento. Una volta individuata una persona
       nella scena si può cercare di capire cosa sta facendo. Questo tipo di analisi si rivela
       utile quando si vogliono rilevare comportamenti dolosi o pericolosi, come
       aggressioni, furti o si vuole individuare chi lascia un pacco o una borsa incustoditi in
       un luogo pubblico.

               •       Identificazione di persone. Un processo parallelo al precedente
       consiste nell’identificare le persone presenti nella scena utilizzando le loro
       caratteristiche fisiche, come la forma del volto, o comportamentali, come il modo di
       camminare.

               •       Fusione di flussi multi telecamera. L'utilizzo di più telecamere che
       riprendono una scena consente di avere diversi vantaggi. Uno è quello di affrontare
       problemi come occlusioni o sovrapposizioni grazie la fatto che un soggetto viene
       ripreso da più angolazioni. Un altro vantaggio è quello di poter seguire un soggetto
       in un area più ampia di quella inquadrata da una sola telecamera. L'utilizzo di più
       telecamere introduce comunque un notevole livello di complessità al sistema in
       quanto si dovranno fondere i dati provenienti dalle varie postazioni.

5.2   Descrizione delle condizioni di utilizzo
       Come evidenziato nei paragrafi precedenti uno degli elementi fondamentali di un
sistema di video sorveglianza è la capacità individuare gli oggetti in movimento nella scena
distinguendoli dallo sfondo. Le scelte progettuali e metodologiche da effettuare a questo
scopo dipendono fortemente dagli strumenti che si intende utilizzare e dall’ambiente in cui
si utilizzerà il sistema.

       Per quanto riguarda gli strumenti utilizzabili nel capitolo 4 del documento sono stati

                                                                                                  23/55
descritte le caratteristiche dei sistemi che impiegano telecamere fisse o mobili (PTZ).

       Le telecamere di tipo PTZ o quelle installate su veicoli in movimento rendono più
complessa l’analisi perché introducono ulteriori parametri di cui tenere conto. Ad esempio,
lo sfondo non si può considerare fisso perché può variare l’inquadratura o lo zoom
applicato. In questi casi diventa più complesso distinguere tra gli oggetti in movimento che
fanno parte dello sfondo e quelli che sono di interesse in quanto anche lo sfondo può avere
un movimento apparente. Per ovviare al problema vengono adottate tecniche di
compensazione del movimento [19].

       Per quanto riguarda l’ambiente di utilizzo se ne distinguono due in particolare:

       Utilizzo all’aperto. Le problematiche relative ad un utilizzo all’aperto sono
molteplici:

          •   Cambiamenti di illuminazione. Si deve tenere conto dei cambiamenti di
              illuminazione dovuti al sorgere e tramontare del sole o dell’accendersi o
              spegnersi di lampioni o fari che modificano localmente o diffusamente
              l’illuminazione della scena.

          •   Eventi atmosferici. Eventi di questo tipo possono creare notevole difficoltà
              nell’analisi delle immagini, ad esempio neve, pioggia o grandine introducono
              nella scena elementi di disturbo. Le gocce d’acqua o i fiocchi di neve sono
              oggetti in movimento che però sono parte dello sfondo. Anche la nebbia crea
              notevoli problemi riducendo la visibilità e rendendo difficile, se non
              impossibile, distinguere certi dettagli.

          •   Elementi di disturbo. In una scena all’aperto ci potrebbero essere elementi
              in movimento che però non sono di interesse come ad esempio un albero che
              si muove mosso dal vento o un uccello che vola.

       Utilizzo in ambienti chiusi. In questi ambienti si può presumere che
l’illuminazione sia costante o al limite controllata. Inoltre, non sarà necessario tenere conto
delle variazioni meteorologiche.

                                                                                                  24/55
5.3     Localizzazione degli oggetti in movimento
         Lo scopo di questo stadio è quello di individuare quali sono le parti in movimento
nella scena. Significa in pratica cercare di capire quali oggetti sono statici o non sono di
interesse e quindi fanno parte dello sfondo (background) e quali sono in movimento
(foreground). Questo è uno stadio fondamentale in un sistema di video sorveglianza in
quanto la qualità e la robustezza del metodo utilizzato influenzeranno notevolmente la
qualità del risultato finale.

         In letteratura esistono molteplici tecniche che si sono rivelate più o meno robuste e
adatte a diversi ambienti di utilizzo. Di seguito vengono descritte le più interessanti.

5.3.1    Sottrazione dello sfondo
         Questo tipo di approccio prevede il confronto tra l'immagine corrente che si vuole
analizzare e un modello della scena che rappresenta il background. L'immagine di
riferimento viene definita come modello del background. Il modello viene generato
partendo dall'osservazione della scena per un tempo sufficiente a stabilire, in modo
automatico, cosa sia statico cosa no al suo interno. [8] Per individuare il foreground è
sufficiente calcolare la differenza tra il modello e l’immagine corrente. Le differenze
rappresentano gli elementi estranei allo sfondo e che quindi sono in movimento.

         Nella realtà non è sempre semplice stabilire una netta differenza tra background e
foreground. Ad esempio, le foglie di un albero mosse dal vento sono oggetti in movimento
ma non sono elementi di interesse e di solito non devono essere considerati.

         In questo tipo di approccio si prendono in esame tre diversi aspetti:

            1. Quale è il tipo di usato modello e quale è il suo comportamento. In
                letteratura sono stati proposti diversi approcci, che verranno descritti nel
                seguito, che propongono modelli con diverse caratteristiche.

            2. Come si inizializza il modello. Solitamente vengono utilizzate tecniche

                                                                                                 25/55
statistiche     che    si   basano      sull'analisi    di    una    serie    di    immagini.
               L'inizializzazione è una fase importante perché ha un effetto profondo sul
               comportamento e sull'efficienza del modello.

           3. Come il modello si adatta nel tempo. Questo è particolarmente importante
               perché descrive come i parametri del modello si modificano nel tempo
               adattandosi all'evoluzione dinamica della scena. Per esempio se un auto entra
               nella scena e viene parcheggiata dopo un certo tempo il modello si deve
               adattare in modo che venga considerata come parte dello sfondo e non più
               come oggetto nuovo.

       Questo tipo di tecnica è particolarmente sensibile sia ai cambi di illuminazione che
ai cambiamenti localizzati dello sfondo. Le variazioni nella scena sono a volte repentine e il
modello deve essere abbastanza versatile per adattarsi rapidamente alla nuova situazione.
In figura 13 viene mostrato un esempi di applicazione di questa tecnica.

  Figura 13: Esempio di sottrazione dello sfondo: a) Immagine corrente. b) Modello dello sfondo. c) Elementi
                                                  evidenziati.

       In [8] Piccardi presenta un compendio delle tecniche più diffuse che vengono di
seguito elencate in ordine di complessità:

           •   Media di Gaussiane. La densità di probabilità di ogni pixel viene descritta da
               una curva gaussiana e quindi parametrizzata solo da media e varianza. I

                                                                                                               26/55
parametri si modificano nel tempo per adattare il modello all'evoluzione
    temporale della scena.

•   Filtri mediani temporali. Il modello viene realizzato utilizzando la media
    degli ultimi n frame. Un problema di questa tecnica consiste nel fatto che
    bisogna tenere in memoria il valore degli ultimi n frame.

•   Misture di Gaussiana [9]. L’idea è quella di realizzare un modello statistico
    dello sfondo utilizzando delle misture di gaussiane che descrivono
    statisticamente l'evolversi temporale di ogni pixel dell'immagine. I parametri
    utilizzati vengono aggiornati dinamicamente al variare delle caratteristiche
    della scena.

•   Metodi basati sul Kernel. Spesso la densità di probabilità associata ad ogni
    pixel viene approssimata con l'istogramma dei valori del pixel. In alcuni casi
    non sono disponibili sufficienti dati per poter stimare la densità di
    probabilità in modo accurato. Per ovviare a questo problema è stata
    introdotta una tecnica di stima della densità di probabilità basata su funzioni
    non parametriche.

•   Co occorrenze di variazioni di immagini. Invece di considerare un singolo
    pixel vengono considerati blocchi di NxN pixel come un unico vettore di N^2
    elementi. Nella fase iniziale vengono acquisisti diversi campioni che
    permettono di calcolare le matrici di covarianza e gli autovalori che
    consentono di ridurre la dimesionalità dello spazio.

•   Eigenbackgrounds. Questa tecnica prevede una fase di addestramento in cui
    si calcolano gli auto vettori di una matrice ottenuta da una serie di immagini
    usate per inizializzare il sistema. In fase di classificazione ogni nuova
    immagine viene proiettata nello spazio degli auto-vettori e poi riproiettata
    nello spazio immagine successivamente si sottrae l’immagine originale da
    quella riproiettatata e applicando una soglia si ottiene il foreground. Questa
    tecnica sfrutta la capacità degli auto-vettori di descrivere la parte statica

                                                                                      27/55
dell’immagine.

        Recentemente è stato proposto un metodo denominato ViBe (Universal Background
sutraction algoritm) [10]. L'idea di base risiede nel fatto che la statistica utilizzata per
descrivere lo sfondo non prevede che ogni pixel venga analizzato separatamente, ma che si
tenga conto anche dei pixel che sono intorno. Questo rende il sistema più robusto ed
efficiente. In figura 14 sono messi a confronto i risultati ottenuti utilizzando diverse
tecniche note in letteratura Per i dettagli di questa tecnica si rimanda a [10].

              Figura 14: Esempi di applicazione di varie tecniche di background subtraction

5.3.2   Differenze temporali
        Questa metodologia prevede di calcolare la differenza pixel a pixel tra due o tre
immagini consecutive in modo da evidenziare ciò che sta cambiando nella scena. Il metodo
risulta robusto ai cambiamenti di dinamici nella scena, ma non riesce a evidenziare tutti
punti rilevanti. Ad esempio, i punti all’interno di un oggetto non vengono evidenziati in

                                                                                               28/55
quanto rimangono costanti da un’immagine a quella successiva. Utilizzando particolari
accorgimenti si possono comunque ottenere risultati interessanti. Un esempio di
applicazione di questo metodo si può trovare nel lavoro di Lipton [11].

                         Figura 15: Esempio di utilizzo di differenze temporali

5.3.3   Flusso ottico
        Il flusso ottico è un vettore che descrive il movimento di un oggetto in una sequenza.
Si veda ad esempio la figura 16 in cui è mostrata un’immagine e il relativo flusso ottico.
Nell’immagine di destra si possono notare che i vettori sono più lunghi in corrispondenza
dei veicoli in movimento. Il verso dei vettori indica, inoltre, la direzione del moto. Si tratta
di una tecnica computazionalmente molto pesante e particolarmente sensibile al rumore.
Questo approccio trova però particolare applicazione nel caso di telecamere mobili, in
quanto permette di distinguere tra il moto dello sfondo e quello degli oggetti di interesse.
Approfondimenti di questa tecnica si possono trovare nel lavoro di Barron [12].

                        Figura 16: Esempio di immagine e relativo flusso ottico

                                                                                                   29/55
5.4   Classificazione degli oggetti
       In un sistema di video sorveglianza attivo non è sufficiente individuare un elemento
nuovo che è entrato nella scena, si muove al suo interno o ne è uscito. Per avere una
corretta comprensione di quello che realmente sta accadendo diventa fondamentale
cercare di capire la natura dell’oggetto. Questo permette di avere un valido aiuto nel
monitorare quello che accade. Ad esempio, si può essere avvertiti se una persona entra in
una zona riservata alle merci o se un veicolo transita in una zona non consentita al traffico
o in un orario particolare.

       In generale, in un sistema di video sorveglianza, si cerca di distinguere tra due
grandi categorie: Persone o gruppi di persone e veicoli.

       Questo tipo di classificazione sembra piuttosto semplice in apparenza, ma in realtà
vi sono molti fattori che la rendono, in molti casi, piuttosto complessa. Le difficoltà
risiedono nel fatto che gli elementi da classificare possono essere ripresi in diverse pose e
da diverse angolazioni che dipendono da quale angolazione e da quale distanza la
telecamera inquadra la scena e dalla posa dell’oggetto. Questo comporta, ad esempio, che si
possono avere immagini di auto con diverse prospettive che mostrano caratteristiche
diverse. Oppure, a scale diverse, quella che sembra un'auto mentre in realtà è una persona.
Per ovviare a questi problemi è necessario individuare metodologie che non siano troppo
sensibili alle differenze prospettiche.

       In figura 17, ad esempio, si vedono delle riprese di automobili da angolazioni
differenti. Come si nota le auto inquadrate di fianco presentano proporzioni e
caratteristiche generali diverse da quelle inquadrate di fronte. Questo esempio ben illustra
le difficoltà che ci possono essere nel generalizzare le caratteristiche che permettono di
riconoscere gli autoveicoli.

                                                                                                30/55
Figura 17: Esempio di riprese di automobili da angolazioni diverse

        Di seguito vengono descritte due fra le più diffuse tecniche di classificazione.

5.4.1   Classificazione basata sulla forma.
        Al fine di poter classificare gli oggetti si possono usare informazioni descrittive
dell’oggetto come forma, perimetro, contorno o proporzioni. Collins [13] propone un
approccio basato su: area, dispersedness (rapporto tra area e perimetro), proporzioni e
altro. Utilizzando questi parametri per addestrare una rete neurale si riesce a suddividere
gli elementi in movimento in 4 categorie: persone singole, veicoli, gruppi di persone e
gruppi di oggetti. Lipton [14], invece, utilizza sia la dispersedness che un vincolo temporale
per distinguere tra persone e veicoli. In figura 18 si può vedere un esempio di valori di
dispersedness relativi ad una persona e ad un veicolo.

                  Figura 18: Esempi di valori di dispersedness relativi a persone e veicoli

                                                                                                 31/55
5.4.2    Classificazione basata sul tipo di moto.
         Un diverso approccio alla classificazione è basato sul tipo di moto dell’elemento
individuato. Ad esempio, persone e veicoli si muovono in modo diverso. Un veicolo ha un
movimento rigido mentre una persona che cammina muove ritmicamente braccia e gambe.
Estraendo il flusso ottico limitatamente alla regione di interesse si possono avere
informazioni sul moto dell’oggetto. Si può trovare una descrizione di questo tipo di
approccio in un altro lavoro di Lipton [15]. In figura 19 si può vedere un esempio di come il
flusso ottico ad una persona che cammina risulti più variegato di quello relativo ad un
veicolo in movimento.

                   Figura 19: Esempi di flusso ottico relativo a elementi con moto differente

5.5     Tracking
         Dopo aver individuato un oggetto in movimento il passo successivo consiste
nell’inseguimento dei suoi spostamenti attraverso la scena (tracking). Non è sempre
semplice seguire i movimenti di un oggetto perché, durante i suoi spostamenti, potrebbe
sovrapporsi ad altri oggetti in movimento (grouping) oppure essere parzialmente nascosto

                                                                                                32/55
da altri elementi della scena (occlusion). [16]

        Alcuni degli strumenti matematici più utilizzati nel tracking sono: il filtro di Kalman,
il metodo condensation e le reti di Bayes. Fondamentalmente le metodologie di tracking si
possono suddividere in quattro categorie principali:

           •   Tracking basato su regioni

           •   Tracking basato sui contorni

           •   Tracking basato su particolari caratteristiche (features)

           •   Tracking basato su modelli

5.5.1   Tracking basato su regioni
        Per ogni oggetto in movimento nella scena viene presa in esame la regione che lo
contiene (blob). Grazie ad una descrizione della regione si può ottenere una descrizione
semplificata dell’oggetto. L’idea di base di questo approccio è quella di tenere conto delle
variazioni di forma delle regioni da un frame al successivo in modo da poter seguire il suo
movimento e di conseguenza quello dell’oggetto che racchiude.

        Una tecnica interessante applicata al tracking di persone utilizza diversi blob, con
caratteristiche morfologiche diverse, per modellare le varie parti del corpo umano. In
pratica viene creato un blob che descrive il capo, uno per il torso e quattro per gli arti.
Grazie a questa semplificazione si riescono a seguire gli spostamenti di una persona in
ambiente chiuso. Questa tecnica è stata utilizzata anche nel caso di tracking di veicoli.

        Il problema principale di questo approccio è l’incapacità di gestire le occlusioni. Se
un oggetto è parzialmente nascosto o sovrapposto ad un altro il metodo non è
sufficientemente accurato per seguirlo con precisione. Un esempio dell’applicazione al di
questo tipo di tecnica tracking di persone lo si può trovare nel lavoro di McKenna [16].

                                                                                                   33/55
5.5.2   Tracking basato sui contorni
        Questa metodologia prevede che ogni oggetto venga descritto da una linea che ne
segue il contorno e che si adatta dinamicamente all’oggetto stesso mentre si muove nella
scena. L’oggetto viene descritto dai parametri della curva del contorno. Questo è un grande
vantaggio perché l’oggetto può essere descritto con relativamente pochi parametri e questo
riduce i tempi di elaborazione. In figura 20 vengono riportati i vari passi che conducono a
questo tipo di descrizione:

        a) Immagine originale.

        b) Prima approssimazione dell’oggetto.

        c) Raffinamento della descrizione dell’oggetto.

        d) Individuazione del poligono che racchiude l’oggetto.

        e) Contorno finale descritto da una curva cubica che approssima il poligono.

                                 Figura 20: Tracking basato su contorni

        Rispetto al tracking basato su regioni questo tipo di approccio risulta più efficace in
quanto la descrizione dell’oggetto è più precisa e robusta. Il sistema è in grado di seguire un
oggetto anche nel caso ci siano parziali occlusioni o rumore. Come si può vedere in figura
21 l’immagine di destra presenta un’occlusione artificiale che copre una parte del veicolo.

                                                                                                  34/55
Nonostante questo, grazie alle informazioni precedentemente acquisite, si può generare
l’intera curva. Nella parte sinistra si vede l’approssimazione sovrapposta all’immagine e si
può notare che l’oggetto viene rappresentato correttamente.

                Figura 21: Simulazione di una occlusione e generazione del contorno corrispondete

        Questo tipo di approccio è stato applicato da Malik [16] nel caso di tracking di
veicoli. Uno dei principali difetti di questo metodo è la scarsa precisione nella
localizzazione. Un altro problema deriva dal fatto che la bontà del sistema dipende
grandemente dall’inizializzazione. Questo rende difficile far partire in modo automatico il
tracking.

5.5.3   Tracking basato su features
        In questo tipo di approccio per ogni oggetto di interesse vengono estratte delle
caratteristiche (features) che ne siano caratterizzanti. Sfruttando queste informazioni si
può inseguire l’oggetto attraverso le immagini della sequenza. Fondamentalmente esistono
tre categorie di features:

            •     Features globali. Queste includono il centro di massa dell’oggetto, la sua
                  area o il perimetro.

            •     Features locali. Rappresentano punti specifici dell’oggetto, come angoli,
                  linee o curve. In figura 11 si possono vedere esempi di questa tecnica tratta
                  dal lavoro di Malik [21] in cui vengono localizzati gli angoli degli oggetti.

                                                                                                    35/55
Puoi anche leggere