Reti Neurali in grado di apprendere
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Reti Neurali in grado di apprendere Una mente intelligente è quella che è in costante apprendi- mento. Bruce Lee Giorgio Buttazzo Scuola Superiore Sant’Anna, Pisa G razie alle conoscenze acquisite sul minarli in base alle differenze più salienti ri- cervello umano, l’intelligenza artifi- levate. ciale è riuscita a sviluppare model- L’obiettivo di questo articolo è di introdurre li matematici del neurone biologico che og- i concetti fondamentali del calcolo neurona- gi vengono utilizzati per costruire reti neura- le, presentando i vari meccanismi di appren- li artificiali, ossia sistemi computazionali in dimento sviluppati negli anni, illustrandone grado di apprendere dai propri errori. Negli alcuni esempi di utilizzo e le potenzialità anni sono stati sviluppati diversi paradigmi future. di apprendimento. Quello più noto è il pa- radigma supervisionato, che consente ad una Introduzione rete di apprendere delle associazioni attraver- La capacità di apprendere dai propri errori e, so un insieme di esempi preparati da un trai- in generale, di adattarsi ai cambiamenti è una ner, che indica alla rete la risposta giusta per caratteristica essenziale dell’intelligenza. Senza ognuno di essi. Un’altra modalità di appren- questa capacità, probabilmente la specie umana dimento è quella basata su premi e punizioni, non sarebbe diventata la specie dominante sul che presuppone l’esistenza di un critico, il pianeta Terra. quale, questa volta, non conosce le risposte Nel campo dell’intelligenza artificiale, l’impor- giuste da suggerire alla rete, ma giudica solo tanza dell’apprendimento è stata riconosciuta la bontà delle azioni prodotte, penalizzando solo di recente, in quanto le metodologie classi- o incentivando la rete a produrle nuovamen- che e gli algoritmi sviluppati tra gli anni sessanta e gli anni 2000, avevano prodotto ottimi risultati te. Infine, nel paradigma non supervisionato, in diversi campi applicativi, quali le diagnosi me- la rete neurale è in grado di auto-organizzarsi diche, le previsioni meteorologiche, la dimostra- in funzione unicamente dei dati che riceve in zione automatica di teoremi, la comprensione di ingresso, specializzandosi al punto da discri- testi e i giochi di strategia, come dama e scacchi. Tra i successi più noti, ricordiamo la sfida scacchi- Ithaca: Viaggio nella Scienza XVI, 2020 • 195
stica tra Deep Blue (un supercomputer dell’IBM) e il campione del mondo Gary Kasparov, conclu- sasi l’11 maggio del 1997 con la vittoria di Deep Blue per 3.5 a 2.5. Fondamentalmente, le tecniche utilizzate in quegli anni dall’intelligenza artificiale si basava- no su algoritmi di ricerca su strutture dati ad albero, funzioni euristiche per la valutazione dei risultati, manipolazione e combinazione di rego- le predefinite. I problemi di tale approccio sono Figura 1: Esempi di caratteri scritti a mano rappresentati emersi quando i ricercatori hanno cominciato ad da immagini di 28 × 28 pixel con 256 livelli di utilizzare quegli stessi algoritmi per program- grigio. mare dei robot a svolgere attività senso-motorie complesse, come la manipolazione di oggetti, la locomozione, il controllo dell’equilibrio, il rico- bilità che si possono presentare. Basti pensare noscimento di immagini e la comprensione del che una piccola matrice binaria di 16 × 16 pixel, parlato. Gli stessi algoritmi in grado di sconfig- ciascuno con soli due livelli di grigio (bianco e gere il campione del mondo di scacchi fallivano nero) può rappresentare ben 216×16 ∼ 1077 im- miseramente se applicati al riconoscimento di magini diverse, ossia un numero paragonabile forme o al controllo motorio. Successivamen- al numero di atomi presenti nell’intero universo te si è capito che la ragione di tale fallimento è (stimato tra 1079 e 1081 ). Dunque l’approccio a dovuta al fatto che il numero delle possibili situa- regole è destinato a fallire su questa tipologia di zioni da considerare nello svolgimento di attività problemi in cui il numero di casi possibili cresce senso-motorie è talmente elevato che non è pos- esponenzialmente con la dimensione del dato. sibile codificare il comportamento di un sistema Tuttavia, il cervello umano riesce a risolvere mediante un insieme di regole predefinite. i problemi di riconoscimento e coordinamento Si consideri, ad esempio, di voler sviluppare senso-motorio in modo rapido ed efficiente. Que- un programma per il riconoscimento di caratteri sta semplice osservazione, unita alle difficoltà di manoscritti. La Figura 1 mostra alcuni esempi di risolvere tali problemi con l’approccio a regole, immagini (28 × 28 pixel, ciascuno con 256 livelli ha portato i ricercatori a sviluppare dei model- di grigio) di caratteri numerici scritti a mano, il- li computazionali ispirati al funzionamento del lustrando la grande differenza che può esistere cervello. Il paragrafo successivo presenta una tra i modi di scrivere lo stesso carattere. Ora im- panoramica storica dei risultati più significativi maginiamo di impostare il riconoscimento sulla sulle reti neurali, ottenuti dagli inizi degli anni base di regole del tipo 40 fino ad oggi. • IF (esiste un tondino in alto a sinistra) AND (esiste una linea verticale incurvata verso Evoluzione della ricerca sulle reti sinistra) THEN (il carattere è il nove). neurali Affinchè tale regola possa essere compresa da Il neurone binario a soglia un algoritmo, occorre renderla più precisa, spe- cificando il significato delle frasi "un tondino in Il primo modello di neurone artificiale, noto alto a sinistra" e "una linea verticale incurvata come neurone binario a soglia, è stato pro- verso sinistra". Dovrebbe risultare chiaro che, posto nel 1943 da due ricercatori statuniten- più si cerca di rendere precisa la regola, più so- si, Warren McCulloch (un neurofisiologo) and no i casi particolari che occorre considerare per Walter Pitts (un matematico) [1]. Il modello, definire il significato delle frasi. Tale approccio è schematicamente illustrato in Figura 2, consiste quindi destinato a generare una quantità esorbi- in un elemento di calcolo (neurone artificiale) che tante di casi particolari, eccezioni e sottoregole riceve n valori di ingresso (x1 , x2 , . . . , xn ) attra- che comunque non coprirebbero tutte le possi- verso altrettanti canali che rappresentano i den- Ithaca: Viaggio nella Scienza XVI, 2020 • 196
driti di un neurone biologico. Ciascun valore xi È importante osservare che una differenza so- viene modulato da un peso (weight) wi , che mo- stanziale tra un neurone biologico e il modello della la connessione sinaptica presente sul canale binario a soglia è che il neurone biologico codi- dendritico. Gli n valori di ingresso, opportuna- fica l’informazione in frequenza, trasmettendo mente pesati, vengono poi sommati tra loro per sull’assone una sequenza di spike con frequen- produrre il valore di attivazione a = N i=1 wi xi , za proporzionale ai segnali ricevuti in ingresso, P equivalente al potenziale di membrana di un neu- mentre il neurone binario a soglia codifica l’infor- rone biologico. Un neurone biologico produce mazione in ampiezza, quantizzata su due valori di uscita (0) e (1). Un’altra differenza importante è che il modello di McCullogh e Pitts non è in grado di apprendere, anche perchè in quegli an- ni non erano stati ancora compresi i meccanismi dell’apprendimento. La scoperta di Hebb Nel 1949, lo psicologo canadese Donald Hebb [2] fece una scoperta rivoluzionaria che avanzò le conoscenze sul cervello e fece progredire la ri- cerca sulle reti neurali. Hebb scoprì che il pro- cesso di apprendimento non modifica di fatto Figura 2: Modello di neurone binario a soglia proposto il funzionamento delle cellule nervose, ma ope- da McCulloch e Pitts nel 1943. ra unicamente sulle connessioni sinaptiche che modulano la comunicazione tra i neuroni. Egli un segnale di uscita (spike) quando il potenziale riportò che di membrana supera un certo livello di soglia. Analogamente, nel modello di McCulloch e Pitts, "Quando un assone di una cellula A è il valore di uscita y del neurone viene calcolato abbastanza vicino da eccitare una cellu- come y = f (a), dove f (.) è detta funzione di usci- la B e partecipa ripetutamente alla sua ta. Nel neurone binario a soglia, come funzione attivazione, si osservano alcuni proces- di uscita si utilizza la funzione di Heaviside, illu- si di crescita o cambiamenti metaboli- strata in Figura 3, corrispondente ad un gradino ci in una o entrambe le cellule tali da con soglia θ. L’uscita di un neurone binario a aumentare l’efficacia di A nell’attivare B." Questa nuova conoscenza sui meccanismi del- H (a) l’apprendimento ha consentito di integrare que- 1 sta capacità anche nei modelli neurali allora sviluppati. a Il Perceptron Grazie alla scoperta di Hebb, nel 1957, lo psicolo- go statunitense Frank Rosenblatt [3] sviluppò Figura 3: Funzione di Heaviside, utilizzata come funzio- il primo modello di neurone artificiale in grado ne di uscita nel neurone binario a soglia. di apprendere, il Perceptron, illustrato in Figu- ra 4. La regola di apprendimento, nota come soglia, pertanto, può essere espressa come Delta Rule [4], è semplice ma efficace e consiste N nel modificare i pesi in modo proporzionale al- l’ingresso e all’errore (δ) commesso dal neurone, X y = +1 Se wi xi > θ, i=1 pari alla differenza tra l’uscita reale (y) e quella y = 0 Altrimenti. desiderata (yd ). La costante di proporzionalità Ithaca: Viaggio nella Scienza XVI, 2020 • 197
è detta learning rate. In un esperimento che di- un decennio, dal 1969 al 1982, periodo che oggi viene indicato come AI winter. Le reti di Hopfield L’interesse per le reti neurali si riaccese nel 1982, quando John Hopfield [6] propose un nuovo modello di rete in grado di comportarsi come una memoria associativa, ossia una memoria in cui è possibile memorizzare un insieme di infor- mazioni desiderate per poi recuperarle parten- do da dati parziali o distorti. Se ad esempio in una rete di Hopfield vengono memorizzate delle immagini, queste possono poi essere recupera- Figura 4: Il Perceptron di Rosenblatt. Durante la fase te fornendo in ingresso alla rete delle immagini di apprendimento, i pesi vengono modificati in simili, rumorose o distorte. funzione dell’errore (δ) commesso dal neurone, Hopfield dimostrò che tale proprietà può esse- pari alla differenza tra l’uscita desiderata (yd ) re ottenuta costruendo una rete di neuroni binari e quella reale (y). a soglia che soddisfi le seguenti proprietà: venne poi famoso, Rosenblatt costruì il primo 1. tutti i neuroni sono connessi tra loro; Perceptron in hardware, realizzando i pesi con 2. la funzione di uscita è la funzione segno; dei potenziometri motorizzati e collegando gli ingressi a 400 fotocellule disposte come una ma- 3. ogni coppia di neuroni ha pesi simmetrici; trice di 20 × 20 pixel. Presentando in ingresso i 4. i neuroni cambiano stato uno per volta. disegni di varie forme geometriche, Rosenblatt riuscì ad addestrare il Perceptron a riconoscere Se queste proprietà vengono rispettate, è pos- le forme concave da quelle convesse1 . sibile dimostrare che, partendo da un qualsiasi stato iniziale, la rete evolve attraverso una serie Il controesempio di Minsky e Papert di commutazioni, generando una sequenza di stati (traiettoria) che termina sempre in uno stato Gli entusiasmi di Rosenblatt purtroppo svaniro- stabile. no nel 1969, quando due matematici del Massa- Hopfield fornì anche una regola per poter ren- chusetts Institute of Technology (MIT), Marvin dere stabili degli stati neurali desiderati, che rap- Minsky e Seymour Papert, pubblicarono un li- presentano quindi le memorie della rete. Per bro intitolato "Perceptrons" [5], in cui venivano rendere stabile una configurazione di attivazioni dimostrati formalmente i punti di forza ma anche neurali, egli suggerì di collegare neuroni con at- i maggiori limiti del modello di Rosenblatt. In tivazione simile con pesi positivi e neuroni con particolare, Minsky e Papert dimostrarono, attra- attivazione opposta con pesi negativi. Per memo- verso un controesempio, l’impossibilità per un rizzare più informazioni stabili basterà sommare Perceptron di apprendere la semplice funziona- i pesi ottenuti per ciascuno stato. lità di un OR esclusivo (XOR) a due ingressi, che La Figura 5 illustra un esempio di come la rete prevede una risposta pari a zero quando i due di Hopfield sia in grado di recuperare l’immagi- ingressi sono uguali (entrambi zero o entram- ne del numero tre (precedentemente memorizza- bi uno) e una risposta pari a uno quando i due ta come stato stabile) partendo da un’immagine ingressi sono diversi. notevolmente rumorosa presentata in ingresso. Questo risultato negativo sul Perceptron fece precipitare l’interesse per le reti neurali per oltre Le reti di Kohonen 1 Si ricorda che una forma si dice convessa se, presi due Sempre nel 1982, Teuvo Kohonen propose un punti A e B al suo interno, il segmento che li unisce è contenuto tutto all’interno della figura. Viceversa la modello di rete neurale [7] capace di auto- figura si dice concava. organizzarsi per formare delle mappe sensoriali Ithaca: Viaggio nella Scienza XVI, 2020 • 198
ficati in modo che tali neuroni si specializzino ancor meglio a riconoscere quello stimolo. Le reti di Kohonen assumono una grande ri- levanza nel panorama dei modelli neurali, in quanto consentono l’estrazione di caratteristiche salienti dai dati di ingresso senza alcuna super- visione da parte dell’utente. Esse vengono uti- lizzate per ottenere una compressione dei dati, o un raggruppamento di dati omogenei in un insieme di classi (clustering) in base alla somi- Figura 5: Esempio di memoria associativa realizzata me- diante una rete di Hopfield: (a) immagine pre- glianza tra i dati. Esse possono persino essere sentata come stato iniziale; (b) immagine re- utilizzate per risolvere efficientemente problemi cuperata, corrispondente ad uno stato stabile di ottimizzazione combinatoria. memorizzato in precedenza. Ogni pixel cor- risponde ad un neurone. In questo esempio la rete ha 784 neuroni per rappresentare immagini Reinforcement Learning binarie di 28 × 28 pixel. Nel 1983, Andrew Barto, Richard Sutton e Charles Anderson [8] proposero un nuovo mo- simili a quelle esistenti nella corteccia somatosen- dello di rete neurale in grado di generare azio- soriale, sulla quale viene rappresentato il cosid- ni di controllo utilizzando un paradigma di ap- detto homunculus sensitivo. Una rete neurale prendimento basato su premi e punizioni, e di Kohonen è formata da due soli strati: uno stato denominato Reinforcement Learning. di ingresso e uno di uscita, come rappresentato L’idea alla base di questo meccanismo è che in Figura 6. La regola di apprendimento è tale la rete neurale generi inizialmente delle azioni casuali di controllo e riceva una ricompensa (un segnale di feedback positivo) o una punizione (un segnale di feedback negativo) in base all’esito di tali azioni. I segnali di feedback ricevuti vengo- no utilizzati per modificare i pesi della rete in modo da favorire le azioni che hanno generato una ricompensa e scoraggiare quelle che hanno generato una punizione. In questo modo la rete si costruisce gradualmente una conoscenza del sistema, passando da una fase esplorativa, pesan- temente guidata dal caso, ad una fase operativa, Figura 6: Esempio di una rete di Kohonen con 6 neuroni in cui la conoscenza acquisita viene sfruttata per di ingresso e 15 neuroni di uscita disposti su generare le azioni migliori. una mappa bidimensionale. Dal 1983 ad oggi, questo paradigma di appren- dimento si è notevolmente evoluto, grazie anche da creare un isomorfismo tra stimoli sensoriali alle tecniche più avanzate di deep learning svilup- di ingresso e neuroni di uscita, per cui neuro- pate di recente, raggiungendo prestazioni eccel- ni vicini si specializzano a riconoscere stimoli lenti in diverse applicazioni. In particolare, nel sensoriali simili. Questa proprietà viene ottenu- 2010, la DeepMind Technology ha utilizzato que- ta attraverso un meccanismo di apprendimento sta metodologia per addestrare una rete neurale competitivo che, per ogni stimolo, aggiudica a giocare a numerosi videogiochi Atari, riuscen- come vincitore il neurone che ha l’attivazione do a superare le prestazioni umane in ben sette più alta tra tutti. Per ottenere l’isomorfismo, i di essi. Nel 2014, l’azienda è stata acquisita da pesi del neurone vincitore e quelli dei neuroni Google e il 23 maggio 2017 la Google DeepMind appartenenti ad un vicinato (illustrato in figura è ritornata alla ribalta per aver costruito una re- con una linea tratteggiata rossa) vengono modi- te basata su reinforcement learning, denominata Ithaca: Viaggio nella Scienza XVI, 2020 • 199
AlphaGo Zero, in grado di battere il campione del mondo di Go, Ke Jie. Questo risultato è al- quanto rilevante, poichè il Go è uno tra i giochi più complessi al mondo, in cui l’albero delle pos- sibili posizioni è dell’ordine di 10170 , contro il 10120 degli scacchi. Oggi, il reinforcement learning è tra gli algoritmi maggiormente studiati, in quanto promette di ri- solvere una grande quantità di problemi rilevanti e difficili, tra cui la l’apprendimento della cammi- nata in robot bipedi, la guida di veicoli autonomi e il controllo di sonde esplorative spaziali, solo Figura 7: Esempio di rete a tre strati addestrabile con per citarne alcuni. l’algoritmo di Backpropagation. La Backpropagation Nel 1986, David Rumelhart, Geoffrey Hinton e Ronald Williams [9] svilupparono un potente algoritmo di apprendimento supervisionato, no- to come Backpropagation, che permette ad una rete neurale di imparare a classificare dei pat- Figura 8: Funzioni di uscita comunemente utilizzate nel- tern di ingresso attraverso un insieme di esempi, le reti multistrato addestrate con Backpropaga- detto training set. tion. Le reti neurali addestrabili con Backpropagation sono di tipo stratificato, come quella illustrata in Figura 7. Ogni neurone tipologie di problemi, tra cui il riconoscimento di di uno strato è connesso con ogni neurone dello immagini, la compressione di dati, la previsione strato successivo, ma non esistono connessioni di segnali e serie storiche e il controllo di sistemi tra neuroni dello stesso strato, nè tra neuroni robotici, nei più disparati settori, quali fisica, chi- appartenenti a strati non adiacenti. Il primo mica, ingegneria, geologia, agraria, astronomia, strato è quello di ingresso (input layer), che economia, medicina, scienze sociali, psicologia, riceve i dati da elaborare. L’ultimo strato è ecc. quello di uscita (output layer), che produce i risultati dell’elaborazione. Gli strati intermedi vengono detti strati nascosti (hidden layer) in Nuovi ostacoli quanto non sono visibili dall’esterno in una visione black-box della rete. In questo tipo di Nonostante l’esplosione dei campi applicativi, rete, il modello di neurone utilizzato in tutti dal 1986 al 2006 non ci furono nuovi sostanziali gli strati è molto simile al neurone binario a sviluppi teorici sulle reti neurali. Molti ricerca- soglia e differisce unicamente per la funzione di tori provarono a sviluppare modelli neurali più uscita. Le funzioni di uscita oggi più utilizzate complessi, più vicini alla controparte biologica, sono la sigmoide, la tangente iperbolica e la ma non si riusciva ad ottenere dei comportamen- lineare rectificata (ReLU), illustrate in Figura 8. ti interessanti e, soprattutto, a dimostrare delle L’aspetto più interessante dell’apprendimento proprietà generali sulle le quali costruire algorit- supervisionato è che la rete riesce a generalizzare mi generalizzabili. Altri ricercatori provarono ad ciò che ha appreso, classificando correttamente aumentare il numero di strati di una rete adde- nuovi dati mai visti in fase di training. strata con l’algoritmo di Backpropagation, ma Grazie a questi risultati, nei vent’anni succes- osservarono grosse difficoltà ad addestrare reti sivi alla nascita della Backpropagation, le reti con più di quattro strati. Tali problemi sono stati neurali sono state utilizzate per risolvere diverse risolti solo negli anni 2000. Ithaca: Viaggio nella Scienza XVI, 2020 • 200
La rivoluzione delle deep neural poteva contenere diversi oggetti, la risposta del- network la rete era considerata corretta se la classe veni- va correttamente identificata considerando le 5 A partire dal 2006, la ricerca sulle reti neura- uscite con valore più elevato (sulle mille possibi- li ha avuto una grossa impennata grazie e tre li). La Figura 9 illustra come si è ridotto l’errore importanti fattori: di classificazione delle reti vincitrici dal 2010 al 1. Compresi i problemi che causavano la dif- 2017. ficoltà di addestrare reti con più di quattro strati, sono state sviluppate nuove metodolo- Top-5 Classification Error gie in grado di superare quei limiti e gestire 30% 28% l’apprendimento di reti molto più grandi, co- 26.2% 25% stituite da migliaia di neuroni organizzati su numerosi strati: le deep neural network. 20% 16.4% 15% 2. Le deep neural network, essendo costitui- 11.7% 10% te da migliaia di neuroni, richiedono una 6.7% Errore umano normale grossa potenza di calcolo per essere adde- esperto 5% 3.6% 3.1% 2.3% strate. Intorno al 2006, la potenza di calco- 2010 2011 2012 2013 2014 2015 2016 2017 anno lo necessaria è diventata disponibile a bas- America Xerox AlexNet Clarifi GoogLe ResNet GoogLe SENet Net Net-v4 so costo grazie alla produzione di nuove piattaforme di calcolo basate sulle Graphics Figura 9: Diminuzione dell’errore di classificazione delle Processing Unit (GPU). Tali piattaforme, reti neurali dal 2010 al 2017 nella competizione originariamente progettate per gestire ope- ImageNet. razioni grafiche, sono state modificate per poter svolgere anche calcoli vettoriali, come È interessante notare come, per la prima volta quelli necessari in una rete neurale. nella storia, nel 2014 la rete GoogLeNet ha egua- 3. I primi risultati ottenuti con le deep neural gliato le prestazioni umane, poi superate negli network hanno attratto l’interesse di gros- anni successivi da altre reti. se aziende, come Google, Microsoft e Facebook che, gestendo un’enorme quanti- Paradigmi di Apprendimento tà di dati, hanno visto nelle reti neurali una grossa opportunità per risolvere problemi di Negli anni sono stati proposti diverse modalità classificazione di immagini, riconoscimento di apprendimento, che possono essere ricondotte di volti, suoni, voci, e hanno quindi comin- e tre paradigmi principali: ciato ad investire grosse quantità di risorse in questo settore. 1. apprendimento con supervisione; Infine, un altro elemento che ha contribui- 2. apprendimento senza supervisione; to all’evoluzione delle deep network è sta- ta la competizione internazionale ImageNet, 3. apprendimento con rinforzo. o più precisamente la ImageNet Large-Scale I concetti alla base di questi meccanismi sono Visual Recognition Challenge (ILSVRC) [10], descritti di seguito. una sorta di olimpiade annuale della computer vision, nata nel 2010 per mettere in competizione Apprendimento supervisionato i migliori gruppi al mondo su problemi comples- si relativi al riconoscimento di immagini. Ogni L’obbiettivo dell’apprendimento supervisionato squadra aveva a diposizione un enorme data- è quello di addestrare una rete neurale a rico- base e doveva addestrare la propria rete su un noscere dei dati di ingresso come appartenenti milione di immagini suddivise in mille categorie. a delle categorie (o classi) predefinite. Tali Una volta addestrate, le reti dovevano classifica- categorie vengono mostrate alla rete mediante re 100.000 nuove immagini. Poichè un’immagine un insieme di esempi, detto training set. Ithaca: Viaggio nella Scienza XVI, 2020 • 201
Il funzionamento della rete è suddiviso in due fasi, dette di addestramento e di inferenza. x2 ? Nella fase di addestramento vengono presentati gli esempi del training set dai quali la rete de- ? ve imparare. Ciascun esempio consiste in una coppia di dati vettoriali: l’ingresso da classifi- ? Training Set care (x) e l’uscita desiderata da associare (yd ). Per ogni esempio viene calcolata l’uscita della x1 rete (y) e tali valori sono utilizzati per calcola- re una funzione di errore (detta anche loss Figura 11: Problema della classificazione nel paradigma function) con cui modificare i pesi della rete. di apprendimento supervisionato. I punti co- Detta E la funzione che descrive l’errore della lorati rappresentano gli esempi del training rete rispetto all’uscita desiderata yd , ciascun peso set descritti da due variabili (x1 , x2 ): i punti rossi appartengono ad una classe A, i pun- viene modificato in modo da diminuire l’errore, ti neri no. Terminato l’apprendimento, nella .1 Apprendimento calcolando il gradiente della funzione E rispetto supervisionato fase di inferenza la rete deve stabilire se dei al peso. Uno ’obbiettivo dell’apprendimento schema supervisionato del di è quello paradigma addestrare una supervisio- rete neurale a riconoscere dei dati di nuovi dati (i punti blu) appartengono o meno gresso come appartenenti a delle categorie (o classi) predefinite. Tali categorie vengono mostrate alla rete alla classe A. nato è illustrato in Figura 10. Ad ogni iterazione ediante un insieme di esempi, detto training set. funzionamento dellal’errore rete è tende suddivisoa diminuire e, quando in due fasi, dette esso diventa di addestramento e di inferenza. Nella fase di ddestramento vengono inferiore ad una certa soglia prestabilita, presentati gli esempi del training set dai quali la la rete rete deve si Ciascun imparare. esempio Apprendimento senza supervisione onsiste in una coppia di dati vettoriali: l’ingresso da classificare (x) e l’uscita desiderata da associare (y d ). Per gni esempio vieneconsidera addestrata calcolata l’uscita della rete (y)eepuò essere tali valori sono utilizzata per una funzione di utilizzati per calcolare la fase rore (detta anche loss di con function) inferenza. cui modificareIn iquesta pesi della fase, la rete rete. Detta vieneche descrive E la funzione Nell’apprendimento l’errore senza supervisione gli ella rete rispetto all’uscita desiderata y d , ciascun peso viene modificato in modo da diminuire l’errore, utilizzata alcolando il gradiente perE effettuare della funzione rispetto al peso.laUnoclassificazione schema del paradigma vera e supervisionatoesempi è illustratoutilizzati per addestrare la rete non so- Figura 10. Ad ogni propria di nuovi dati. Al fine di comprendere iterazione l’errore tende a diminuire e, quando esso diventa inferiore ad unano certaetichettati soglia come appartenenti ad una classe, restabilita, la rete si considera addestrata e può essere utilizzata per la fase di inferenza. In questa fase, la rete ene utilizzata per effettuare la classificazione vera e propria di nuovi dati. per cui non esiste un’uscita desiderata per ogni dato di ingresso. In questo caso, la rete deve imparare a suddividere i dati in diversi gruppi (cluster) sulla base della loro somiglianza. La Fi- gura 12 illustra un caso in cui i 12 esempi forniti alla rete vengo raggruppati in due cluster di 6 elementi ciascuno. La figura mostra anche come, Figura 10: Paradigma di apprendimento supervisionato. Figura 10: Paradigma di apprendimento supervisionato. l fine di comprendere meglio il paradigma supervisionato, si consideri una rete con due ingressi (x 1 , x 2 ) e una ola uscita (y). Tale rete può essere addestrata a riconoscere se un certo insieme di dati appartiene ad una certa asse A (y d = 1) oppure no (y d = 0). Visto che ogni dato d’ingresso è descritto da una coppia di coordinate, gli sempi possono esseremeglio il paradigma rappresentati supervisionato, su un piano cartesiano con dei punti: si se conside- un dato appartiene alla classe A Figura 11. ri una rete con due ingressi (x 1 , x2 ) e una sola lora il punto viene indicato con il colore rosso, altrimenti con il colore blu. La situazione descritta è illustrata uscita (y). erminato l’apprendimento, Taledi rete nella fase puòla essere inferenza rete deveaddestrata stabilire se deianuovi rico-dati (rappresentati in gura con dei punti noscere se un certo grigi) appartengano o meno insieme alla classe A.di dati appartiene ad una certa classe A (yd = 1) oppure no (yd = 0). Visto che ogni dato d’ingresso è descritto da una coppia di coordinate, gli esempi possono esse- Figura 12: Problema del clustering nel paradigma di ap- re rappresentati su un piano cartesiano con dei prendimento non supervisionato. In questo punti: se un dato appartiene alla classe A allora caso i dati non sono etichettati come appar- il punto viene indicato con il colore rosso, altri- tenenti ad una classe. Lo scopo della rete è di suddividerli in gruppi (cluster) sulla base menti con il colore nero. La situazione descritta della loro somiglianza. è illustrata in Figura 11. Figura 11: Problema dellaTerminato l’apprendimento, classificazione nel paradigma di apprendimentonella fase di supervisionato. in-colorati rappresentano I punti in molti casi, la rete può rilevare una ridondanza gli esempi del training set descritti da due variabili (x 1 , x 2 ): i punti rossi appartengono ad una classe A, i punti blu no. ferenza Terminato l’apprendimento, nellala faserete deve di inferenza stabilire la rete deve stabilirese dei se dei nuovi nuovi da-grigi) appartengono dati (i punti nei dati o e operare una riduzione di dimensioni. ti (rappresentati in meno figura alla classe con A. dei punti grigi) Nel caso di figura, ad esempio, i cluster posso- appartengano o meno alla classe A. no essere separati utilizzando una sola variabile Ithaca: Viaggio nella Scienza XVI, 2020 • 202
(rappresentata dall’asse indicato in rosso) ottenu- ta come combinazione lineare delle due variabili originali. Questa proprietà, comune a molte reti non supervisionate, rende questo meccanismo di apprendimento particolarmente adatto alla compressione di dati oppure all’estrazione di caratteristiche salienti dai dati di ingresso. Apprendimento con Rinforzo Il paradigma di apprendimento con rinforzo si utilizza tipicamente nei problemi di controllo, ossia quando vogliamo addestrare una rete neu- Figura 13: Paradigma di apprendimento con rinforzo. La rale ad inviare delle azioni di comando ad un rete neurale genera delle azioni di controllo sistema che interagisce con un ambiente. Tale su un sistema che interagisce con l’ambiente e riceve da un critico una valutazione (R) sulla modalità di apprendimento è una via di mezzo loro efficacia. Lo scopo dell’apprendimento fra le due precedenti, poichè richiede solo una con rinforzo è di imparare a generare azioni leggera supervisione, che però non necessita di che migliorino la valutazione del critico. fornire la risposta desiderata per ognuno degli esempi del training set. Per ogni azione generata sul sistema, la rete riceve una valutazione da par- ce le azioni che hanno causato delle valutazioni te di un critico, la cui funzione è solo quella positive. di accorgersi quando il sistema fallisce oppure Considerato che il critico può essere facilmen- raggiunge un obiettivo. Tale valutazione è codi- te realizzato elaborando i dati prodotti da op- ficata in un segnale di rinforzo o reward che portuni sensori (ad esempio sensori di contatto, viene utilizzato per modificare i pesi della rete. accelerazione, distanza, ecc.) questo paradigma Per fare un esempio concreto, si consideri lo di apprendimento risulta molto potente, poichè schema illustrato in Figura 13, supponendo di in grado di scoprire le azioni corrette senza l’in- utilizzare l’uscita della rete neurale per controlla- tervento umano, ma unicamente sulla base dei re lo sterzo di un auto. Al fine di poter imparare fallimenti e dei successi sperimentati dal sistema. a sterzare correttamente, la rete dovrà ricevere delle informazioni sullo stato dell’auto, ad esem- I modelli recenti che hanno pio le immagini prelevate da una telecamera che inquadra la strada. In questo caso, il segnale di rivoluzionato l’intelligenza rinforzo (R) prodotto dal critico potrebbe esse- artificiale re negativo (−1) quando l’auto esce fuori strada e positivo (1) quando l’auto riesce a tenersi al Dal 2000 ad oggi sono stati ideati nuovi mo- centro della carreggiata. In tutti gli altri casi, il delli di rete neurale che hanno permesso di ri- segnale di rinforzo può essere nullo. L’obiettivo solvere problemi prima considerati intrattabili dell’apprendimento con rinforzo è quindi quel- con queste tecniche. In ordine temporale, i mo- lo di imparare a generare azioni che migliorino delli più rilevanti proposti in letteratura sono la valutazione del critico nel tempo. L’esempio le reti ricorrenti, le reti convoluzionali e le reti illustrato suggerisce come questa modalità di ap- generative. prendimento sia paragonabile a quella basata su premi e punizioni. Un rinforzo positivo ricevuto Le Reti Ricorrenti dal critico è assimilabile ad un premio, mentre un rinforzo negativo è assimilabile ad una puni- A differenza delle reti neurali considerate finora zione. Il meccanismo di apprendimento è tale da in questo articolo, le reti neurali ricorrenti, scoraggiare la rete a ripetere le azioni che in certo o Recurrent Neural Networks (RNN) sono in gra- stato hanno generato fallimenti, favorendo inve- do di trattare sequenze temporali di dati sia in Ithaca: Viaggio nella Scienza XVI, 2020 • 203
ingresso che in uscita. Per ottenere questo sco- ti convoluzionali, strati di subsampling e strati po, le reti ricorrenti posseggono delle connessio- completamente connessi. ni aggiuntive, rispetto alle reti multistrato, che Gli strati convoluzionali effettuano un’estra- collegano le uscite dei neuroni nascosti ai neu- zione di caratteristiche dallo strato precedente roni di ingresso. La Figura 14 illustra la strut- attraverso un’operazione di convoluzione, che tura di una rete ricorrente, in cui l’uscita dello consiste nel moltiplicare i valori x di una piccola strato nascosto h(t) viene riportata in ingresso area di dimensione r × r (receptive field) per una (a). Una rete ricorrente viene spesso rappresen- matrice w di pesi (weights) della stessa dimensio- tata in una modalità sviluppata nel tempo (un- ne, detta kernel o filtro. Tale filtro viene traslato rolled), in cui sono evidenziati i valori dei vet- sullo strato in modo da estrarre la stessa carat- tori per i vari istanti temporali (b). Tra i mo- teristica in zone diverse dello strato. In questo modo, il numero di pesi da modificare risulta pari ad r2 ed è indipendente dalle dimensioni dello strato. La Figura 15 illustra un esempio di convoluzio- ne su uno strato di 129×129 neuroni, utilizzando un filtro di dimensioni 3 × 3 traslato di 2 neuroni per volta. Lo strato convoluzionale risulta per- tanto composto da 64 × 64 neuroni, che costitui- scono una mappa di caratteristiche (feature map) rilevate in diverse posizioni spaziali. Ciascun neurone dello strato convoluzionale risulta quin- di un rivelatore della caratteristica codificata nei La Figura 15 illustra un esempio di convoluzione su uno strato di 129 x 129 neuroni, pesi nel filtro: un valore elevato indica che quella dimensioni 3 x 3 traslato di 2 neuroni per volta. Lo strato convoluzionale risulta pertant Figura 14: Struttura di una rete ricorrente in cui neuroni, caratteristauna l’uscita che costituiscono è presente mappa dinel campo recettivo caratteristiche (feature corri- map) rilevate in div dello strato nascosto h(t) viene riportata spondente. Gli strati di subsampling un in neurone Ciascun dello strato convoluzionale risulta quindi effettuano rivelatore della caratteris nel filtro: un valore elevato indica che quella caratterista è presente nel campo recettivo c ingresso (a). La figura (b) illustra la versione unrolled in cui sono evidenziati i valori dei vettori per i vari istanti temporali. delli più utilizzati per le reti ricorrenti ricordia- 83Z g9 W88R4 2 mo le Long short-term memory (LSTM) [11] e 8 le Gated Recurrent Units (GRU) [12]. Tra le applicazioni più interessanti di questi modelli citiamo l’analisi e la previsione di testi, il rico- noscimento vocale, la traduzione automatica, il riconoscimento di sequenze video, la descrizione testuale di immagini e la composizione musicale. Figura 15: Operazione di convoluzione elementare in una rete convoluzionale. Il valore de Figura 15: Operazione di convoluzione elementare in una è calcolato come la somma dei prodotti tra i valori dei neuroni del campo recettivo x e i rete convoluzionale. Il valore y del neurone in Le Reti Convoluzionali rosso è calcolato Gli strati di subsampling effettuano come la somma una compressione dei prodotti riducendo il n dell’informazione, strato precedente attraverso operazioni di media o di massimorecettivo tra i valori dei neuroni del campo su piccole aree neuron Le reti convoluzionali sono state introdotte nel diversi strati convoluzionali utilizza x e i pesi del filtroda seguiti i.e. y = x w, altrettanti i,j ∗ di strati w subsampling. = Gl r r 1998 da Yann LeCun et al. [13], sebbene delle ver- realizzano infine la classificazione P P connessi l=1 m=1 x vera i+l,j+me w lm . propria e sono utilizzati nella parte f sioni preliminari fossero state già utilizzate nel termina con lo strato di uscita, il cui numero di neuroni è pari al numero di categorie che nelle immagini. 1970. Tali reti sono particolarmente indicate per una compressione dell’informazione, riducendo Un’altra la classificazione di immagini, in quanto fanno funzione importante il numero direalizzabile attraverso neuroni dello le reti strato convoluzionali precedente at- è quella di rile dell’oggetto riconosciuto (object detection) attraverso un rettangolo (bounding box uso di una speciale architettura che sfrutta la duetraverso coordinate, operazioni per il centro didimensioni e due per le media odei di lati. massimo In questasu modalità operati struttura spaziale delle immagini per ridurre il da riconoscere, categorie piccole aree neuronali. lo strato di uscita Una dovràrete di solito contenere utilizza almeno C + 4 neuroni. numero di connessioni tra neuroni. La tipica Oggiar- diversi stratihanno le reti convoluzionali convoluzionali seguiti da raggiunto prestazioni altrettanti eccellenti in diversi settori ap chitettura di una rete convoluzionale consiste in in cuistrati medico, di subsampling. le reti neurali Gli strati sono state utilizzate completamente per effettuare diagnosi precoci a partir e scansioni una sequenza di strati di vario tipo, tra cui stra- tomografiche. In particolareinfine connessi realizzano sono state ottenute prestazioni la classificazione veraparagonabili o su nell’analisi di elettrocardiogrammi, nell’identificazione di tumori della pelle e di pat cancro al polmone e nella diagnosi dell’alzheimer. 4.3 Reti generative Ithaca: Viaggio nella Scienza XVI, 2020 • 204 Le reti generative o Generative Adversarial Networks (GAN) sono una particolare clas nel 2014 da Ian Goodfellow et al. [Goo14] al fine di produrre nuovi campioni d distribuzione statistica di quelli utilizzati per l’addestramento. In altre parole, se una
e propria e sono utilizzati nella parte finale della Una rete GAN è composta in realtà da rete. La rete termina con lo strato di uscita, il cui due tipi di reti neurali, un Generatore ed un numero di neuroni è pari al numero di categorie Discriminatore, che competono tra loro in una che si desidera riconoscere nelle immagini. sorta di gioco. Il Generatore gioca il ruolo di Un’altra funzione importante realizzabile at- un falsario che produce delle opere false che traverso le reti convoluzionali è quella di rilevare vuole far passare come autentiche, mentre il anche la posizione dell’oggetto riconosciuto (ob- Discriminatore agisce come un ispettore che ject detection) attraverso un rettangolo (bounding cerca di identificare le opere false. La regola box) descritto da quattro coordinate, due per il di apprendimento è strutturata in modo che en- centro e due per le dimensioni dei lati. In questa trambe le reti siano portate a migliorare le loro ca- modalità operativa, se C è il numero di categorie pacità, fino al punto che le opere false diventano da riconoscere, lo strato di uscita dovrà contenere indistinguibili da quelle autentiche. almeno C + 4 neuroni. Il Discriminatore è addestrato in modo su- Oggi le reti convoluzionali hanno raggiunto pervisionato per distinguere i campioni veri dai prestazioni eccellenti in diversi settori applica- falsi. Esso ha quindi un solo neurone di usci- tivi, tra cui quello medico, in cui le reti neurali ta, che vale 1 quando il campione d’ingresso è sono state utilizzate per effettuare diagnosi pre- autentico e 0 quando è falso. Il Generatore è coci a partire da immagini mediche e scansioni invece addestrato con una modalità non supervi- tomografiche. In particolare sono state ottenu- sionata, modificando i pesi in modo da favorire te prestazioni paragonabili o superiori a quelle la generazione di quei campioni che hanno ingan- umane nell’analisi di elettrocardiogrammi, nel- nato il Discriminatore e penalizzare la genera- l’identificazione di tumori della pelle e di pato- zione di quelli che sono stati intercettati come logie della retina, del cancro al polmone e nella falsi. Una volta che la GAN è stata addestrata, diagnosi dell’Alzheimer. il Discriminatore viene eliminato, in quanto lo scopo finale è quello di generare campioni rea- listici. Lo schema architetturale di una GAN è Le Reti Generative illustrato sinteticamente in Figura 16. Le reti generative o Generative Adversarial Net- works (GAN) sono una particolare classe di reti neurali ideate nel 2014 da Ian Goodfellow et al. [14] al fine di produrre nuovi campioni di dati aventi la stessa distribuzione statistica di quelli utilizzati per l’addestramento. In altre parole, se una GAN viene addestrata utilizzando un data- base di volti umani, alla fine dell’addestramento essa sarà in grado generare delle nuove imma- gini realistiche di volti umani; se addestrata con foto di paesaggi naturali, essa potrà generare foto di nuovi paesaggi. Figura 16: Architettura di una rete GAN. Il Generatore Ma l’utilizzo delle GAN non si riduce a questo. ha il compito di produrre campioni falsi reali- stici, mentre il Discriminatore ha il compito di Negli ultimi anni esse sono state utilizzate nelle distinguere i campioni autentici (provenienti più svariate applicazioni, tra cui la colorazione dal database) da quelli falsi prodotti dal Gene- di immagini e filmati in bianco e nero (coloriza- ratore. Gli errori commessi da ciascuna rete tion), la generazione di immagini a risoluzione contribuiscono al miglioramento di entrambe. più elevata di quella del campione in ingresso (super resolution), il restauro di foto danneggiate (pixel restoration), la generazione di voci e musica, Problemi irrisolti l’animazione di volti dipinti (reenactment), o la trasformazione di foto in quadri stile Van Gogh Nei paragrafi precedenti sono state descritte le o Monet (style transfer). capacità di elaborazione delle reti neurali in nu- Ithaca: Viaggio nella Scienza XVI, 2020 • 205
merosi campi applicativi. Grazie a queste poten- stemi critici è quello della sicurezza. Nel 2015, zialità, l’industria sta considerando seriamente due ricercatori di cyber-security, Charlie Miller di utilizzare questa metodologia per sviluppa- and Chris Valasek, sono riusciti da remoto a com- re robot intelligenti e veicoli a guida autonoma. promettere il software di controllo di una Jeep Tuttavia, quando si tratta di realizzare sistemi Cherokee [17], portandola fuori strada dopo aver che devono interagire con l’uomo, occorre garan- assunto il controllo del volante e disabilitato la tire non solo prestazioni elevate, ma soprattut- trasmissione e i freni della vettura. Gli strumenti to altre proprietà particolarmente critiche, quali software con i quali oggi vengono gestite le reti predicibilità, affidabilità, e sicurezza. neurali non sono progettati per essere sicuri, anzi Fino ad oggi le reti neurali e la maggior par- contribuiscono ad aumentare notevolmente le su- te degli algoritmi di intelligenza artificiale sono perfici di attacco al sistema di controllo. Pertanto, stati utilizzati per realizzare applicazioni non occorre investire in questo settore di ricerca per critiche, come il riconoscimento di caratteri ma- mettere in sicurezza tutti i sistemi basati su in- noscritti, il riconoscimento facciale, la traduzione telligenza artificiale e ridurre le probabilità di automatica, e il riconoscimento vocale. Un errore attacco. commesso da una rete in una di queste applica- zioni non comporta danni per l’uomo. Immagi- Infine, un altro aspetto relativo alla sicurezza niamo invece cosa potrebbe accadere se una rete delle reti neurali è legato ad una tecnica in grado dovesse commettere un errore di riconoscimento di generare immagini (dette adversarial sample) o di controllo in un’automobile a guida autono- [16, 18] che appaiono normali alla vista umana, ma. Del resto, gli incidenti che si sono verificati ma vengono interpretate erroneamente dalla rete di recente su automobili avanzate, come la Tesla, neurale, che riconosce l’immagine come appar- che consentono di attivare funzionalità automa- tenente ad una categoria diversa, definita arbi- tiche (sotto la stretta supervisione del conducen- trariamente. Sfruttando questa tecnica, un hacker te), indicano che questi sistemi possono fallire potrebbe decidere di attaccare un veicolo auto- in casi particolari (indicati come corner case) in nomo basato su reti neurali senza intervenire sul cui più condizioni non previste contribuiscono a software di controllo, ma semplicemente agendo produrre un malfunzionamento. sull’ambiente. Basterebbe generare un’immagi- Si consideri, ad esempio, l’incidente verificato- ne avversaria di un segnale stradale, ad esempio si il 7 Maggio 2016, in cui Joshua Brown è stato lo stop, e attaccarla sul vero segnale, in modo vittima di un incidente mortale mentre era alla che esso venga interpretato come un albero o un guida della sua Tesla S a guida autonoma nei uccello. pressi di Williston, Florida (USA). In base alla ricostruzione dell’incidente [15] si è capito che Molte delle tecniche utilizzate per generare un TIR che viaggiava sulla corsia opposta ha at- immagini avversarie si basano sulla conoscenza traversato la doppia linea gialla per svoltare a della rete e dei pesi. Esse sfruttano l’algoritmo di sinistra. Il sistema di visione non lo ha rilevato backpropagation non per modificare il valore poichè il cielo era troppo luminoso e il camion dei pesi della rete, ma per modificare il valore di era bianco, per cui l’auto non ha frenato e si è alcuni pixel di un’immagine di rifermento posta scontrata contro il TIR, causando la morte di Bro- in ingresso. I pixel vengono modificati per ri- wn. In base alle direttive Tesla, il Sig. Brown durre l’errore su una classe erronea desiderata e sarebbe dovuto intervenire sui comandi, ma pur- aumentarlo sulla quella corretta. L’immagine co- troppo non lo ha fatto in quanto era intento a sì modificata risulta pressochè identica a quella guardare un film. di partenza ad un osservatore umano, ma la rete Al fine di evitare questo tipo di incidenti, le neurale la interpreta in modo totalmente diverso. auto del futuro dovranno essere progettate per essere tolleranti ai malfunzionamenti di un sin- I ricercatori hanno già cominciato a studiare golo componente, prevedendo una ridondanza nuove tecniche per affrontare questo nuovo tipo di sottosistemi basati su tecnologie differenti. di attacco, ma non esiste ancora una soluzione Un altro aspetto essenziale da garantire nei si- definitiva al problema. Ithaca: Viaggio nella Scienza XVI, 2020 • 206
Conclusioni [9] Rumelhart D. E., Hinton G. E., and Williams R. J.: “Learning representations by back-propagating errors”, In questo articolo è stata presentata una pano- Nature 323 (1986) 533. ramica della ricerca sulle reti neurali, dai primi [10] URL: http://www.image-net.org/ modelli sviluppati verso la metà del secolo scor- [11] S. Hochreiter and J. Schmidhuber: “Long short-term so fino alle metodologie più recenti relative alle memory”, Neural Computation 9 (1997) 1735. deep network. In numerosi settori applicativi le [12] K. Cho, B. van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, Y. Bengio: Learning Phrase Re- reti neurali hanno raggiunto o superato le pre- presentations using RNN Encoder-Decoder for Statistical stazioni umane e promettono di diventare uno Machine Translation, arXiv:1406.1078v3 (2014). strumento essenziale per la previsione di eventi, [13] Y. LeCun, L. Bottou, Y. Bengio, and P. Haff- le diagnosi mediche, la progettazione di nuo- ner: “Gradient-based learning applied to document vi farmaci, la guida autonoma e la percezione recognition”, Proc. of the IEEE 86 (1998) 2278-2324. artificiale nei robot del futuro. [14] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Tuttavia, al fine di poter essere utilizzate in Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Ben- gio: Generative Adversarial Nets, Proceedings of Neural sistemi ad elevata criticità, in cui è prevista una Information Processing Systems, (2014) 8. stretta interazione con l’uomo, è necessario af- [15] The report of the investigation for the Tesla S frontare nuovi problemi, finora trascurati, quali accident occurred on May 7, 2016 in Florida. U.S. la predicibilità temporale delle risposte, l’affida- Department of Transportation, National High- bilità di funzionamento e gli aspetti legati alla way Traffic Safety Administration (NHSA), URL: sicurezza, al momento ancora irrisolti. https://static.nhtsa.gov/odi/inv/2016/INCLA- PE16007-7876.PDF Superate queste difficoltà, in un futuro non tan- [16] C. Szegedy et al.: Intriguing properties of neural to lontano, dovremo affrontare un problema an- networks, arXiv:1312.6199v4 (2014). cora più grande, che coinvolgerà aspetti legali, so- [17] Black Hat USA 2015 The full story of how that ciali, etici e psicologici: la convivenza con entità Jeep was hacked. https://www.kaspersky.com/blog/ artificiali, fisiche e virtuali, dotate di intelligenza blackhat-jeep-cherokee-hack-explained/9493/ superiore a quella umana. [18] I. J. Goodfellow, J. Shlens, and C. Szegedy: Explaining and Harnessing Adversarial Examples, arXiv:1412.6572v3 (2015). Z M Y \ d [ [1] W. S. McCulloch and W. Pitts: “A logical calculus of the ideas immanent in nervous activity”, Bulletin of Giorgio Buttazzo: è professore ordinario di In- Mathematical Biophysics 5 (1943) 115. gegneria Informatica presso la Scuola Superio- [2] D. O. Hebb: The organization of behavior. Springer, Berlin re Sant’Anna di Pisa, dove insegna Real-Time (1949). Systems e Neural Networks. Attualmente si oc- [3] F. Rosenblatt: The Perceptron – a perceiving and recogni- cupa di architetture e algoritmi per fornire un zing automaton, Report 85–460–1, Cornell Aeronautical supporto predicibile agli algoritmi di controllo e Laboratory(1957). all’Intelligenza Artificiale. [4] F. Rosenblatt: Principles of neurodynamics. Spartan, New York (1962). [5] M. Minsky and S. Papert: Perceptrons. MIT press, Cambridge, MA (1969). [6] J. J. Hopfield: “Neural networks and physical sy- stems with emergent collective computational abili- ties”, Proceedings of the National Academy of Sciences, USA 79 (1982) 2554. [7] T. Kohonen: Self-Organization and Associative Memory. Springer-Verlag, Berlin (1984). [8] A. G. Barto, R. Sutton, and W. Anderson: “Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems”, IEEE Transactions on Systems, Man and Cybernetics 13 (1983) 834. Ithaca: Viaggio nella Scienza XVI, 2020 • 207
Ithaca: Viaggio nella Scienza XVI, 2020 • 208
Puoi anche leggere