La traduzione nell'era dei Big Data - Il contributo
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Il contributo La traduzione nell’era dei Big Data È solo la lingua che fa eguali. Eguale è chi sa esprimersi e intende l’espressione altrui. Che sia ricco o povero importa meno. Basta che parli Don Lorenzo Milani Caterina Milone, Aurora Paladini, Lorenzo Pellegrino Scuola Superiore ISUFI ella società dell’informazione e nel- Introduzione N l’era del digitale può essere partico- larmente interessante approfondire la realtà dei Big Data come strumento e co- La conoscenza necessaria per comprendere i con- tinui cambiamenti del mondo è in gran parte me risorsa essenziale per il progresso e l’e- costituita da informazioni espresse tramite mez- voluzione culturale e scientifica. Dopo aver zi linguistici. In particolare, la padronanza delle dato una definizione di Big Data e aver men- lingue e la traduzione da una all’altra sono essen- ziali per l’accesso e la condivisione di conoscenze zionato alcuni esempi di ciò, in particolare in diverse parti del globo. quelli legati alle traduzioni di testi da lingue La padronanza del linguaggio non è oggi un’e- diverse, si parlerà di processamento delle lin- sclusiva dell’homo sapiens sapiens, poiché anche le gue nel cervello umano. Si mostrerà come i macchine riescono a processare moli significati- recenti sviluppi tecnologici abbiano inciso si- ve di informazioni per apprendere, comprendere gnificativamente nel campo della traduzione, e produrre linguaggio. Cosa avviene nel cervello portando la figura professionale del tradutto- quando elaboriamo una frase e la traduciamo? re a modificare e integrare le proprie abili- In un mondo in cui la tecnologia permette di ela- tà e competenze in cambio di un sistema in borare il linguaggio e tradurlo, qual è il ruolo di un traduttore umano? Quali algoritmi può grado di garantire una maggiore produttività utilizzare oggi una macchina per tradurre una ed efficienza. In tale direzione si approfondi- frase? I prossimi paragrafi hanno l’obiettivo di rà il sistema di traduzione automatica neura- offrire degli spunti per poter rispondere a queste le sviluppato da Google, confrontandone poi, domande. alcuni risultati con le medesime traduzioni effettuate da un traduttore umano Ithaca: Viaggio nella Scienza Educational-I, 2019 • La traduzione nell’era dei Big Data 67
I Big Data a tecniche provenienti dalla ricerca sull’intelli- genza artificiale e a sistemi in grado di costruire L’apprendimento del linguaggio e la sua elabora- modelli predittivi. Tra le procedure più utiliz- zione da parte delle macchine richiedono l’utiliz- zate, Manyika e Chen segnalano: Cluster ana- zo dei Big Data. Sebbene questa espressione sia lysis, Genetic algorithms, Natural Language Proces- sempre più diffusa, non c’è una definizione uni- sing, Machine learning, Neural Networks, Predictive voca di cosa si intenda con essa. In questa sede modelling, Regression Models, Social Network Ana- si indicherà con Big Data il capitale di informa- lysis, Sentiment Analysis, Signal Processing e Data zioni caratterizzato da un volume, una veloci- Visualization. tà ed una varietà tali da richiedere tecnologie e Infine, viene considerato l’impatto che la ge- metodi analitici specifici per la sua trasforma- stione e l’utilizzo dei Big Data hanno su molti zione in valore. La definizione scelta individua ambiti della società. Boyd e Crawford [1] han- quattro principali ambiti legati ai Big Data: le in- no definito i Big Data come un fenomeno cultu- formazioni, la tecnologia, i metodi di analisi e rale oltre che tecnologico ed accademico lega- l’impatto prodotto da essi nella società. to alla credenza che grandi set di dati offrano Per quanto riguarda il primo aspetto, l’affer- una maggiore oggettività. Mayer-Schönberger mazione dei Big Data è legata alla produzione, [1] e Cukier [1] affermano che l’impiego di que- alla condivisione e all’uso massivo di dati digi- sti dati abbia prodotto cambiamenti nel modo tali. La digitalizzazione, cioè la trasformazione di analizzare le informazioni per migliorare la dei segnali da analogici a digitali, è diventata comprensione e l’organizzazione della società. una pratica diffusa negli anni ’90; essa ha per- L’adattabilità dei Big Data alle esigenze di diversi messo l’organizzazione delle informazioni in set domini scientifici ed industriali ne ha permes- più strutturati, offrendo un diverso punto di vi- so l’applicazione per la risoluzione di problemi sta per studiare trend e pattern rilevanti. Inoltre, di vario genere. Tra le varie applicazioni si an- la diffusione di dispositivi personali ha favori- noverano medicina personalizzata, simulazioni to l’aumento della disponibilità di informazioni; scientifiche, analisi di dati provenienti dai social questi dispositivi, infatti, sono dotati di senso- network e processamento del linguaggio. In par- ri che permettono la digitalizzazione e di una ticolare per quanto riguarda il linguaggio alcune connessione ad Internet che permette ai dati di funzioni molto utilizzate sono il riconoscimento essere raccolti, trasformati ed organizzati. Per e la traduzione di testi, quest’ultima costituirà il descrivere le caratteristiche dei Big Data vengo- tema centrale del presente articolo. no solitamente utilizzate "le 3 V" di Laney [1] : Volume, Velocità e Varietà, riferendosi all’au- Il linguaggio umano, le lingue e la mento di queste dimensioni. Ad esse sono state macchina “cervello” aggiunte successivamente la Veridicità, il Valore, la Complessità e l’unstructuredness, caratteristica La traduzione, un’abilità concomitante al bilin- dei dati non strutturati come i video. guismo, consiste nella riformulazione di un in- Il secondo aspetto, conseguente dalla comples- put formulato in una lingua sorgente (SL) verso sità dei dati, riguarda i sistemi di processamento: una lingua target (TL). Prima di spiegare come essi devono avere capacità computazionali, di avviene la traduzione di una frase grazie alle immagazzinamento e di trasmissione superiori nuove tecnologie è opportuno illustrare breve- rispetto ai sistemi utilizzati mediamente nell’am- mente ciò che permette ad un essere umano di bito delle tecnologie dell’informazione. La co- compiere questa operazione. I requisiti per com- municazione deve raggiungere velocità maggiori piere una traduzione si potrebbero riassumere (tendendo idealmente al tempo reale) per quan- in: conoscenza della SL e della TL, capacità di tità maggiori di informazioni, secondo Kitchin leggere e comprendere la frase iniziale e operare [2] dell’ordine dei terabytes o dei petabytes. una trasposizione del contenuto nella seconda Il terzo aspetto riguarda i metodi adoperati lingua. per analizzare i dati. La sfida dell’analisi, in- Innanzitutto occorre precisare che ciò a cui fatti, è stata superata solo recentemente grazie in inglese ci si riferisce col termine language cor- Ithaca: Viaggio nella Scienza Educational-I, 2019 • La traduzione nell’era dei Big Data 68
risponde in italiano a due termini distinti: lin- dono le regole di conversione fonema-grafema guaggio e lingua. Il linguaggio viene definito, riconoscendo le parole una lettera/sillaba per in psicolinguistica, come una "funzione cogniti- volta, infine le tracce mnestiche delle parole scrit- va che consente di acquisire e usare una lingua". te vengono associate ai significati astratti e la Quest’ultima è un "sistema di simboli e regole lettura diventa automatica. per combinarli così da poter generare un numero Sebbene l’acquisizione della L1 sia semplice ed infinito di possibili messaggi e significati". Solita- intuitiva per un bambino, lo studio di come av- mente i linguisti parlano di linguaggio al singo- venga questo processo non è altrettanto facile; es- lare, in quanto capacità caratteristica degli esseri so è, infatti, complesso e multi-modale, coinvolge umani, e di lingue anche al plurale, poiché es- capacità computazionali, cognitive e sociali. Non se indicano forme specifiche di comunicazione si conoscono ancora esattamente i meccanismi diverse nelle varie comunità. cerebrali che permettono di imparare una lingua; Una caratteristica delle lingue è avere una gli studiosi sono, tuttavia, abbastanza concordi struttura gerarchica in cui si possono individuare nell’affermare l’esistenza di periodi critici per più livelli. Il livello più "elementare" è quello dei l’apprendimento fonetico, lessicale e sintattico suoni (fonemi), seguito da quello dei morfemi e legati all’età e allo sviluppo del cervello. La Figu- delle parole, quello delle frasi (sintassi) ed infine ra 1 mostra, con delle fasce colorate, lo sviluppo quello dei significati (semantica). Per ognuno tipico delle abilità linguistiche proprio in funzio- di questi livelli gli individui acquisiscono delle ne di questi due fattori: sull’asse delle ordinate conoscenze (chiamate competenze, in linguisti- viene rappresentato il volume del cervello (100 ca) che permettono loro di parlare e compren- corrisponde al valore medio per un adulto), men- dere una determinata lingua e fanno parte della tre su quello delle ascisse sono rappresentati gli "grammatica" immagazzinata nella loro mente. anni. Per acquisire la lingua madre (L1), i neonati non partono da regole precise, ma dai dati lingui- stici primari, cioè dagli "enunciati che il mondo circostante pronuncia" attorno a loro. Inizial- mente sono in grado di discriminare tutti i tipi di suoni, col passare dei mesi smettono di perce- pire differenze non importanti nella lingua che stanno acquisendo e imparano che alcune com- binazioni di suoni sono molto più probabili di altre nonostante il "problema della povertà del- lo stimolo", per cui il modello di lingua a cui sono esposti i neonati è solitamente povero, di- sturbato, variabile e discontinuo, essi riescono ad acquisire rapidamente una lingua uniforme e solida. Oltre a distinguere i singoli fonemi i Figura 1: Crescita del cervello e tappe di acquisizione bambini imparano a riconoscere le parole (seg- della prima lingua (L1). Fonte: [3] pag. 816 mentazione), le memorizzano e le associano ad un significato. Essi iniziano a produrre lallazio- La nozione di periodo sensibile è legata alla ni, cioè a ripetere componenti sillabiche senza perdita di flessibilità nella riorganizzazione cere- significato, solitamente verso i 6 mesi; dopo i 18 brale dopo la pubertà (circa 12 anni) ed è legata mesi comprendono circa 150 parole e ne usano alle differenze riscontrate nell’apprendimento di 50; dopo 1 o 2 anni hanno acquisito i suoni il rit- una seconda lingua (L2). Quest’ultimo si mostra mo e l’accento della lingua a cui sono stati espo- molto più variabile rispetto all’acquisizione del- sti. Per l’apprendimento della lettura sono state la L1 e non è ancora chiaro se sia basato sugli individuate tre fasi: inizialmente i bambini rico- stessi meccanimi. Una L2 può essere appresa in noscono alcune parole familiari nella loro totalità ogni periodo della vita, tuttavia raramente si rag- come delle immagini, successivamente appren- giunge in essa un livello di abilità molto alto se Ithaca: Viaggio nella Scienza Educational-I, 2019 • La traduzione nell’era dei Big Data 69
l’apprendimento avviene dopo i periodi sensibili stro, di solito maggiormente coinvolto nel proces- (Figura 2). samento del linguaggio, legate ai due processi di lettura citati. La prima regione è situata nell’area temporo-parietale ed è legata all’apprendimen- to che coinvolge la via fonologica; la seconda si trova nella zona occipito-temporale e connette le informazioni visive al significato (Figura 3). Figura 2: Relazione tra età di acquisizione di una seconda lingua (L2) e capacitá linguistiche. Fonte: [4] p. 716. Figura 3: Regioni cerebrali importanti per la lettura. Fonte: [5] p.475. Dopo aver immagazzinato informazioni relati- ve alla L1 e ad una L2 è possibile leggere una fra- Per quanto riguarda il cervello in azione du- se e tradurla ricorrendo al contesto per risolvere rante la traduzione, da alcuni studi di imaging su eventuali ambiguità. soggetti bilingue sembra che i substrati neurali Tradurre consiste nell’instaurare una stretta coinvolti nella traduzione dipendano dall’unità interrelazione tra testo, lingua e mente. Non si di testo considerata (parola, frase o testo) e dal- tratta semplicemente di ricercare un equivalente la direzione della traduzione; l’emisfero sinistro di un’unità linguistica. Si tratta di trasferire signi- è coinvolto esclusivamente o in maniera predo- ficato da un sistema linguistico ad un altro, il che minante nella traduzione di tutti i tipi di unità; attiva una serie di meccanismi complicati. Alla l’area di Broca, situata nel lobo frontale, sembra base della traduzione si trova la rappresentazio- avere un ruolo in tutti i compiti di traduzione; ne mentale del testo nella mente del traduttore non sono state identificate regioni specifiche le- attraverso il canale della lettura. Questo passag- gate in modo esclusivo alla traduzione. Fattori gio attiva la fase di decodifica del prototesto (te- come l’età di acquisizione, il tipo di lingue cono- sto di partenza) da parte della macchina neurale sciute e la frequenza d’uso della traduzione nella (la psiche) che porterà alla successiva ricodifica vita quotidiana potrebbero influenzare l’organiz- nella forma del metatesto (testo di arrivo). zazione cerebrale, legata a questa funzione, nei Una fase necessaria alla comprensione di una diversi individui. Sebbene gli studi sulla localiz- frase scritta è l’identificazione delle parole trami- zazione delle aree funzionali per la traduzione te la percezione visiva per poter, in seguito, acce- non offrano ancora risultati chiari, le strutture dere ai loro significati. Alcuni studi sul deficit di subcorticali sembrerebbero fondamentali. categorizzazione hanno permesso di ipotizzare che la rappresentazione semantica dipenda dalla combinazione di diverse informazioni percettive La traduzione tra storia e e funzionali. I significati delle parole, dunque, tecnologia sarebbero distribuiti in più aree cerebrali tramite delle reti. Si è ipotizzato che per comprendere Tradurre, dal latino traducĕre, it. trasportare, po- una parola scritta si possa accedere direttamente ne le sue radici lontano nella storia, a quando, al significato dall’informazione visiva, oppure per scopi commerciali, si rendeva necessaria la tramite la sua rappresentazione fonologica. Uno presenza dell’interprete in modo da poter sti- studio di neuroimaging ha permesso di rilevare pulare accordi tra le parti. Nonostante ciò, la l’importanza di due regioni dell’emisfero sini- traduzione come filone di ricerca, la traduttolo- Ithaca: Viaggio nella Scienza Educational-I, 2019 • La traduzione nell’era dei Big Data 70
gia, ha preso piede soltanto alla fine degli anni Nuovi strumenti per l’industria ’50, quando vennero pubblicati i primi studi e le linguistica primissime teorie sui processi traduttivi. Sem- bra quasi un paradosso che proprio negli stessi Big Data e nuove tecnologie hanno rivoluzionato anni sia stata sperimentata una delle prime ap- ogni settore e quindi anche l’industria delle lin- plicazioni di carattere non numerico, la Machine gue, portando a cambiamenti non di poco conto Translation (MT), ovvero la traduzione automa- nel mondo della traduzione. Già prima che si tica. I primi sistemi sviluppati in questi anni, arrivasse a ciò, il lavoro del traduttore era sostan- basati sulle strutture grammaticali delle lingue zialmente cambiato quando sono stati introdotti i in oggetto, hanno riscosso scarso successo a cau- cosiddetti CAT Tools (Computer Aided-Translation sa dei risultati di bassa qualità che fornivano. Tools) all’inizio degli anni ’90 dall’azienda tede- Una prima svolta si è osservata verso la fine de- sca Trados GmbH. Sviluppati per far fronte alle gli anni ’90, quando ricercatori IBM hanno creato esigenze legate alla globalizzazione, questi soft- un corpus linguistico partendo da testi paralleli ware hanno permesso ai traduttori di lavorare in inglese e in francese prodotti dal Parlamen- in modo più produttivo ed efficiente. Al centro to canadese: questo ha permesso per la prima di questi ambienti di traduzione si trovano le volta il raccoglimento di dati per l’elaborazione memorie di traduzione (Translation Memory), di statistiche riguardanti i record di traduzione ovvero sistemi che permettono di mettere a con- e di correlazione e l’introduzione di un model- fronto testi paralleli in cui la traduzione è prodot- lo probabilistico per la traduzione automatica. ta dal traduttore stesso. Accanto alle memorie La vera svolta, tuttavia, risiede nella rivoluzione di traduzione, altri strumenti utili sono i corpora delle reti neurali a cui abbiamo assistito negli ul- linguistici, raccolte di testi in una stessa lingua timi anni, grazie agli sforzi combinati negli studi e/o riguardanti lo stesso argomento che possono in ambito delle neuroscienze e dell’ingegneria essere interrogati ai fini della ricerca terminolo- informatica. Ricorrendo all’impiego di model- gica. Come risultato del processo di innovazione li sequenziali basati sul deep learning, la ricerca tecnologica, ricorrere ai CAT Tools non significa sulla traduzione automatica si è concentrata su più soltanto fare ricorso alle memorie di tradu- una particolare tipologia di rete neurale, detta zione, ma anche a una serie di strumenti come ricorrente, dotata di unità computazionali con glossari, supporto alla localizzazione, controllo una memoria short-long term aumentata che per- ortografico e traduzione automatica. A partire mette di mantenere informazioni sul contesto di da questi strumenti, lo scenario a cui assistiamo riferimento dall’inizio fino alla fine di una deter- oggi è molto più articolato. Grazie ai processi di minata frase. Quindi, Il successo della linguistica digitalizzazione e alle piattaforme Cloud si apre computazionale (NLP) che si è osservato nel cor- una nuova era in cui il lavoro di ogni singolo tra- so degli ultimi 20 anni è riconducibile ad almeno duttore può essere condiviso in rete, andando quattro fattori, quali: a creare un’ingente mole di dati mirata a rende- re il processo traduttivo ancora più efficiente. I • il significativo aumento della potenza vantaggi dei Big Data non riguardano solo i sin- computazionale; goli, ma si estendono alle agenzie di traduzione che saranno in grado di monitorare la doman- • la vasta disponibilità di dati linguistici (Big da di servizi linguistici, la qualità del prodotto Data); finale e, naturalmente, predire tendenze future. Una competenza sempre più richiesta nel mondo • lo sviluppo di sistemi di Machine Learning della traduzione tecnica è quella del Post-editing, efficienti; strettamente connesso alla Machine Translation. La rete neurale di Google (GNMT), lanciata nel • l’avanzamento della ricerca nei campi della 2016, è tra le più avanzate con una percentuale psicolinguistica e della neurolinguistica. di successo pari all’85% in riferimento alle tra- duzioni da e verso la lingua inglese. Al fine di aumentare ulteriormente la produttività, prende Ithaca: Viaggio nella Scienza Educational-I, 2019 • La traduzione nell’era dei Big Data 71
sempre più piede il PEMT (Post-editing Machine e il testo originale che è improbabile si verifichino Translation), almeno per quanto riguarda i testi in per caso. lingua inglese. Con il PEMT, il testo di partenza Quando il sistema venne lanciato si rivelò sì viene fornito al servizio di traduzione automati- funzionante, ma ancora colmo di debolezze da ca che lo traduce in tutte le sue parti. In seguito, raffinare: l’output viene affidato ad un traduttore umano per la correzione degli errori e la revisione per • apprendimento della rete lento; ottenere il testo di arrivo, il prodotto finale del • difficoltà nella traduzione di parole rare; processo traduttivo. • esclusione di alcune parole nella traduzione. La traduzione automatica di Il sistema GNMT Google Il sistema si compone, oggi, di due RNNs (recur- Per anni i sistemi di traduzione più all’avanguar- rent neural networks), dotate di Long Short Term dia si sono poggiati sulla sostituzione parola- Memories (LSTM) con 8 strati ciascuna collegati parola, senza preoccuparsi del contesto. Per que- attraverso connessioni residuali. La prima è un sto si necessitava di avere la traduzione in più codificatore che riceve le frasi da tradurre in in- lingue di ogni parola (anche separatamente dal put e le codifica in vettori di lunghezza variabile contesto). Sembra ragionevole pensare che que- in maniera da farle leggere alla macchina. Alcuni sto tipo di traduzione non risulti particolarmente studi [7] [8] (Sutskever et al., 2014; Kalchbrenner efficace e non restituisca il senso della frase da and Blunsom, 2013) ritengono che per questo ti- tradurre, dal momento che non tutte le lingue po di RNN sia necessario codificare vettori di posseggono le stesse strutture grammaticali o sin- lunghezza fissa con le parole in input, ma talvol- tattiche. Questo è il primo motivo per cui si è pas- ta questo sistema risulta scomodo o addirittura sati a sistemi di traduzione più avanzati, come inutile. Il software è una funzione non lineare la SMT (Statistical Machine Translation), che con della forma: l’avvento delle reti neurali è stata inglobata nella x1 , x2 , ..., xM = EncoderRN N (x1 , x2 , ..., xM ) NMT (Neural Machine Translation). Diversi stu- (1) di hanno proposto una rete neurale detta RNN Encoder-Decoder che è in grado di apprendere ad dove M è il numero di parole di cui è composta allineare i testi, catalogarli e tradurli. la frase in input. Si osservi però che la funzione, prima di produrre x1 , x2 , ..., xM , passa da uno Si pensi ad un bambino che apprende una lin- stato nascosto che si può indicare con ht in cui gua: gli si possono insegnare alcune parole e emerge la dipendenza dal tempo t dovuta all’at- alcune regole grammaticali di base per costruire traversamento della rete neurale deep (si appro- le frasi ma, proseguendo gli studi, sopravven- fondirà in seguito la sua struttura). Così la pro- gono una serie di eccezioni e casi particolari di babilità di ottenere una traduzione Y data una cui si deve tenere conto. È questo il momento in frase di partenza X è la probabilità condizionata: cui si deve accostare allo studio del vocabolario, lo studio dei testi originali. Il sistema di tradu- P (Y|X) = P (Y|x1 , x2 , ..., xM ) = zione automatica neurale di Google (GNMT) si N basa proprio su questo principio: sfruttare i Big Y = P (yi |y0 , y1 , ..., yi−1 ; x1 , x2 , ..., xM ) (2) Data (si vedano i documenti pubblicati quotidia- i=1 namente dall’ONU, tradotti in numerose lingue) per confrontare diverse traduzioni in maniera dove y0 individua l’inizio della frase (ed è in- che la rete neurale possa apprendere a tradur- dipendente dalla frase stessa) e Y è un vettore re frasi e non parole, quindi a tenere conto del N-dimensionale con N che è il numero di parole contesto e del significato nel testo. I computer che compongono la frase in output. analizzano questi testi cercando schemi statistica- Mentre la rete legge i vettori con le parole, si mente significativi, cioè schemi tra la traduzione calcola di volta in volta la probabilità per la paro- Ithaca: Viaggio nella Scienza Educational-I, 2019 • La traduzione nell’era dei Big Data 72
Figura 4: L’architettua del sistema GNMT dotata di un codificatore (a sinistra) con 8 GPU, di cui uno strato bidirezionale, poi un "attention module" e un decodificatore (a destra) con il "softmax layer". Fonte: [6] la successiva sfruttando la (2). In un primo mo- algoritmo detto di beam search per ottenere la mento quindi, la rete processa la frase in input frase Y che massimizza la funzione punteggio attraverso 8 GPU dotate di connessioni residuali s(Y, X) in un modello che però sia già allena- tra loro. In particolare uno degli strati è diretto to a tradurre. Nelle traduzioni si sceglie quindi in maniera opposta rispetto agli altri per cogliere quella che ottiene il punteggio più alto, infatti meglio il senso della frase che si sta traducendo. la funzione s tiene conto della lunghezza della La presenza di numerose GPU e di connessio- frase e delle parole, della probabilità calcolata ni residuali minimizza la possibilità di dimen- in precedenza e di quanto si stia normalizzan- ticare alcune parole nella traduzione, perché la do la lunghezza suddetta. Si è osservato che il frase in input viene continuamente richiamata, raddoppiamento del numero di traduzioni ana- sia nella fase di apprendimento, sia nella fase lizzate durante il beam search, passando da 4-6 a di traduzione vera e propria della macchina. Le 8-12, non ha prodotto un grande miglioramento, connessioni inoltre contribuiscono non poco alla quindi si valutano a priori dei parametri di con- velocità di apprendimento della rete, capacità trollo che ottimizzano il risultato di s(Y, X). Una che viene raggiunta anche grazie al parallelismo volta che la frase viene decodificata negli 8 stra- che caratterizza tutto il modello GNMT. ti di LSTM, passa nel softmax layer, ovvero una Una volta che l’informazione viene processata funzione esponenziale normalizzata che traduce nel codificatore, passa attraverso una struttura effettivamente i vettori in parole fino al carattere di controllo detta "attention module" collegata ad speciale di fine frase. É affascinante come tutto ogni strato del decodificatore (la struttura suc- questo processo, operato da una rete già allenata, cessiva, anch’essa una RNN). All’interno di que- si realizzi in un battito di ciglia. st’ultimo sono presenti sempre 8 GPU che però, questa volta sono direte tutte nello stesso verso Il wordpiece model perché qui si opera la traduzione e il contesto è stato già esaminato nella prima parte della rete. Resta però ancora un problema irrisolto, o appa- Anche qui le GPU sono dotate di connessioni rentemente irrisolto: come fa la rete neurale di residuali per favorirne la velocità sia in appren- Google a tradurre parole rare, o peggio, parole dimento sia in azione, e per evitare di tralasciare di cui non ha mai visto una traduzione in pre- parole o pezzi di frase utili. cedenza? Anche a questo problema, l’algoritmo All’interno del decodificatore viene usato un di Google trova una soluzione molto efficiente: Ithaca: Viaggio nella Scienza Educational-I, 2019 • La traduzione nell’era dei Big Data 73
il cosiddetto wordpiece model. Nella codifica del- tri) che, trasposti in lingua italiana, creerebbero le parole la rete usa suddividere le parole che una ridondanza semantica. Per questo motivo non conosce in pezzi, per poterli ricercare in altri si rende quasi necessaria l’omissione dell’agget- documenti, testi o parole ed imparare autonoma- tivo e della locuzione, poiché per meglio espri- mente il significato di questa parola sconosciuta mere il concetto di "persona superiore" occorre per poterla tradurre al meglio. Lo stesso prin- esplicitare con mezzi linguistici il fatto che una cipio viene applicato alla traduzione dei nomi persona venga considerata superiore da soggetti propri delle cose, infatti essi non vengono tra- terzi (sottointeso). La scelta d’uso del plurale dotti, perché la rete separa dal resto della parola nella frase in lingua italiana (nel testo di parten- la prima lettera maiuscola e poi riconosce se sia za al singolare) è determinata da convenzioni un nome da tradurre o meno in base al conte- linguistiche e contestuali per cui, trattandosi di sto nell’attention module. Per far funzionare bene un enunciato generale su un fenomeno sociale, questo tipo di processamento delle parole, Goo- si fa solitamente riferimento ad una categoria gle non solo si serve di vocabolari composti da di persone e non ad una sola in rappresentanza decine di migliaia di sub-unità di parole, ma in dell’intero gruppo. Dal punto di vista terminolo- più, assegna ad ogni pezzo di parola nella frase gico, la rete neurale sembra fallire nella disambi- se si tratta della posizione iniziale < b >, centrale guazione dei termini Überflieger e zurückstutzen < m > o finale < e >, in maniera da migliorare che identifica, rispettivamente, come "volantino l’accuratezza nella traduzione. alto" (traduzione automatica risultante dalla tra- duzione letterale di über e Flieger) ed "esecuzione del backup", entrambe fuori dal contesto della Limiti e opportunità frase e, quindi, prive di senso. Un caso partico- lare è rappresentato dal termine Schadenfreude, Fino a che punto GNMT è in grado di produrre una delle cosiddette "parole intraducibili" della una traduzione ready-to-use? Qual è il punto del- lingua tedesca. GNMT sembra non dividere il la situazione per la lingua inglese e per le altre termine in unità linguistiche minime per indivi- lingue? Di seguito si propone a scopo esempli- duare un equivalente traduttivo e lo restituisce ficativo la traduzione in italiano di due frasi dal invariato nella traduzione automatica. Si può tedesco (Figura 5) e dall’inglese (Figura 6) svolte affermare che i risultati ottenuti da questa simu- da GNTM e da un traduttore umano. lazione testimonino un margine di successo an- La lingua tedesca possiede una struttura tra le cora molto basso rispetto al livello necessario per più complesse in riferimento alle lingue germa- una comprensione funzionale del testo e per lo niche moderne. La frase proposta nell’esempio svolgimento di attività come il PEMT. è stata estratta da un articolo su uno studio psi- cologico sulla Schadenfreude, ovvero la gioia che Se la traduzione dal tedesco all’italiano ha pre- deriva dalle disgrazie altrui. Osservando le due sentato diverse criticità più o meno gravi, diverso traduzioni, si può notare come la rete neurale di è il caso della traduzione dall’inglese all’italia- Google abbia facilmente identificato la struttura no. La rete neurale di Google fornisce un output della frase, fornendo un output che, dal punto di buona qualità, peccando esclusivamente in di vista strutturale, potrebbe essere considerato questioni di carattere terminologico che, ad ogni accettabile in base alle convenzioni della lingua modo, non costituiscono un ostacolo alla com- di arrivo. Tuttavia, anche un occhio inesperto prensione della frase (vedi conferenze del partito può rendersi conto di come la frase non abbia vs. conferenze di partito). La frase, estratta da un senso compiuto, caratteristica fondamentale per articolo diffuso dallo stesso governo britannico, una buona comprensione e interpretazione del contiene un termine tecnico in ambito giuridico: testo. Nella frase in lingua tedesca sono presenti Queen’s speech. Mentre GNMT lo traduce lette- diversi elementi problematici nel trasferimento ralmente, in lingua italiana si rende necessario da un sistema linguistico all’altro. Primi fra tutti, esplicitare il suo significato per non generare am- l’aggettivo vermeintlich (presunto), il sostantivo biguità e/o fraintendimenti. Discorso della regi- Überflieger (persona superiore/brillante) e la lo- na, traduzione corretta in senso letterale, lascia cuzione in den Augen anderer (agli occhi degli al- intendere qualcosa di sostanzialmente diverso Ithaca: Viaggio nella Scienza Educational-I, 2019 • La traduzione nell’era dei Big Data 74
Figura 5: Traduzione della stessa frase DE→ IT da "Google Translate" e un traduttore umano con valutazione delle traduzioni su una scala da 0.0 (traduzione errata, inefficace e priva di sognificato) a 6.0 (traduzione esatta che riporta il significato della frase di partenza) Figura 6: Traduzione della stessa frase EN→ IT da "Google Translate" e un traduttore umano con valutazione delle traduzioni su una scala da 0.0 (traduzione errata, inefficace e priva di sognificato) a 6.0 (traduzione esatta che riporta il significato della frase di partenza) rispetto al reale significato, ovvero la lettura del Conclusioni programma del nuovo governo da parte della Regina. Tutto sommato, l’output generato dalla rete neu- I nuovi strumenti a disposizione dei traduttori rale si dimostra un buon punto di partenza per nell’era dei Big Data e della rivoluzione digitale il passaggio al Post-editing, permettendo una ri- sono risorse da cui non si può più prescindere. duzione del tempo tecnico richiesto dall’attività La stessa rete neurale di Google si dimostra esse- di traduzione. re una risorsa affidabile in riferimento alla lingua inglese grazie all’enorme quantità di dati con cui la stessa viene istruita. Allo stesso tempo, questo non può ancora essere garantito per altre lingue, come il tedesco, nel cui caso la traduzione auto- Ithaca: Viaggio nella Scienza Educational-I, 2019 • La traduzione nell’era dei Big Data 75
matica si rivela utile se applicata limitatamente Aurora Paladini: Aurora Paladini è una studen- a testi semplificati. Nonostante ciò, i passi da tessa ISUFI del IV anno dell’area di Scienze Uma- gigante compiuti negli ultimi anni lasciano pen- ne e ha conseguito la laurea triennale in Scienza e sare che si possa presto raggiungere un margine tecniche della Mediazione Linguistica con Lode di successo simile a quello per la lingua ingle- presso l’Università del Salento. se. La ricerca ha inoltre allargato le sue frontiere Lorenzo Pellegrino: Lorenzo Pellegrino è uno spostandosi dalla traduzione scritta alla tradu- studente ISUFI al III anno dell’area di Scienze Na- zione istantanea. In seguito al successo delle reti turali e frequenta il III anno del Corso di Laurea per il riconoscimento vocale, Google punta alla in Matematica presso il Dipartimento di Mate- traduzione vocale. Google Translatotron, lancia- matica e Fisica "Ennio De Giorgi" dell’Università to a giugno 2019, è un modello sperimentale di del Salento. traduzione speech-to-speech che ha tutto il poten- ziale di rivoluzionare ancora il mondo digitale e della comunicazione. Z M Y [1] A. De Mauro, M. Greco, M. Grimaldi: “A formal defini- tion of Big Data based on its essential features”, Library Review 65.3 (2016) 122-135. [2] R. Kitchin: “Big Data, new epistemologies and paradigm shifts”, Big Data & society 1 (2014) . [3] K. L. Sakai: “Language acquisition and brain development”, Science 310.5749 (2005) 815-819. [4] P. K. Kuhl: “Brain mechanisms in early language acquisition”, Neuron 67.5 (2010) 715-716. [5] P. Cherubini, V. Zurloni: Psicologia cognitiva. Mente e cervello. Con e-text. Con espansione online. , (2014).447- 489 [6] W. Yonghui, M. Schuster, C. Zhifeng, Q. V. Le, M. Norouzi: “Google’s Neural Machine Translation Sy- stem: Bridging the Gap between Human and Machine Translation”, (2016) . [7] K. Cho, B. van Merriënboer, D. Bahdanau, Y. Ben- gio: “On the properties of neural machine translation: Encoder-Decoder approaches.”, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. (2014) . [8] N. Kalchbrenner, P. Blunsom: “Recurrent continuous translation models”, Proceedings of the ACL Confe- rence on Empirical Methods in Natural Language Proces- sing (EMNLP). Association for Computational Linguistics. (2013) . \ d [ Caterina Milone: Caterina Milone è una studen- tessa ISUFI del IV anno dell’area di Scienze Socia- li e studia Metodologia dell’intervento psicologi- co presso l’Università del Salento dopo aver con- seguito la laurea triennale in Scienza e tecniche psicologiche con Lode nello stesso ateneo. Ithaca: Viaggio nella Scienza Educational-I, 2019 • La traduzione nell’era dei Big Data 76
Puoi anche leggere