Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall'inglese verso l'italiano - e-learning area ...
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano Mirko Tavosanis Dipartimento di Filologia, letteratura e linguistica Università di Pisa Via Santa Maria 36 – 56126 Pisa PI mirko.tavosanis@unipi.it 1 Introduzione Riassunto I sistemi di traduzione automatica stanno assu- Il contributo presenta una valutazione mendo un ruolo sempre più importante nella vita delle prestazioni di Google Traduttore e di quotidiana, da soli o integrati in altre pratiche DeepL attraverso le interfacce web dispo- (Bersani Berselli 2011). La loro diffusione po- nibili al pubblico. Per la valutazione è trebbe anche produrre innovazioni strutturali e tra- stato usato un campione di 100 frasi tratto sformare in profondità alcuni settori lavorativi, a da testi giornalistici in lingua inglese tra- cominciare dall’insegnamento delle lingue stra- dotti in italiano. Le traduzioni prodotte niere (Ostler 2010; Tavosanis 2018). sono state valutate da esseri umani e i ri- Tuttavia, la valutazione delle effettive presta- sultati della valutazione sono stati con- zioni di questi sistemi rimane un problema com- frontati con il calcolo del punteggio plesso sia dal punto di vista teorico sia dal punto BLEU. La valutazione umana dei sistemi di vista pratico. Inoltre, la difficoltà di valutazione automatici ha mostrato livelli di qualità vi- è considerata da tempo uno dei vincoli principali cini a quelli della traduzione umana, men- anche per lo sviluppo dei sistemi di traduzione tre il punteggio BLEU non ha mostrato (Pieraccini 2012, p. 275; Schreibman 2012, p. 85). una stretta correlazione. Per la valutazione sono state sviluppate nume- rose metriche di tipo automatico o semiautoma- Abstract tico; la più usata in tempi recenti è stata BLEU (Papinieni e altri, 2002). Tuttavia, nel corso degli The paper describes an assessment of the ultimi anni è diventato evidente che le metriche performance of Google Translator and più usate per valutare le prestazioni dei sistemi di DeepL when the systems are used through traduzione automatica non sono in realtà in grado their public web interfaces. The assess- di descrivere adeguatamente le differenze e i mi- ment was carried on a sample of 100 sen- glioramenti di prestazioni. Il problema può essere tences from English-language journalistic descritto in generale come problema di scarsa cor- texts translated into Italian. The transla- relazione tra le metriche e il giudizio umano. tion outputs were evaluated by humans Usare come punto di riferimento il giudizio and the results of the evaluation were umano sembra d’altra parte del tutto corretto dal compared with the calculation of the punto di vista metodologico: l’obiettivo dei si- BLEU score. Human evaluation of ma- stemi di traduzione è principalmente quello di for- chine translation has shown quality levels nire traduzioni che gli esseri umani considerino di very close to those of human translation, buon livello. while the BLEU score has not shown a In particolare, la non perfetta correlazione tra strict connection with human evaluation. BLEU e il giudizio umano è stata notata da tempo (per esempio: Callison-Burch, Osborne e Koehn 2006) e diversi valutatori hanno ribadito la neces- sità di considerare la valutazione umana come pri- maria (Callison-Burch e altri 2008: 72). Tuttavia,
il problema si è mostrato con particolare evidenza tore, ma è probabilmente meno usato anche di Mi- negli ultimi anni, in seguito alla rapida introdu- crosoft Translator. Tuttavia, DeepL è frequente- zione dei sistemi di traduzione basati su reti neu- mente segnalato come uno dei migliori prodotti rali. BLEU, come i sistemi di traduzione statistica della sua categoria e nelle valutazioni con BLEU (PNMST) che è stato usato per valutare, si fonda ha ottenuto negli ultimi anni punteggi spesso su- su n-grammi. Si ritiene però che questo meccani- periori a quelli di Google Traduttore (Heiss e Sof- smo mostri un “inherent bias” contro i sistemi che fritti 2018). adottano meccanismi di traduzione non basati su n-grammi, quali appunto i sistemi basati su reti 3 Google Traduttore neurali (Way 2018: 170). Le origini di Google Traduttore risalgono al Diverse verifiche hanno mostrato che BLEU 2003, quando il servizio venne lanciato con il sottovaluta fortemente i risultati dei sistemi di tra- nome di Google Translate. In seguito il servizio è duzione a reti neurali (Bentivogli e altri 2018a; stato rinominato, per l’italiano, come Google Tra- Shterionov e altri 2018). Naturalmente, la validità duttore. di queste verifiche può essere relativizzata alle ca- Alle origini, il sistema si basava su prodotti SY- ratteristiche di specifici campioni. Tuttavia, i dati STRAN. Già nel 2006 Google iniziò comunque a oggi disponibili giustificano l’idea che BLEU non usare un sistema di traduzione statistica svilup- possa essere usato come indicatore generale di pato in proprio, GSMT (Google Statistical Ma- qualità di questi sistemi. chine Translation). Caratteristica di questo si- In questo contesto non mancano dichiarazioni stema è l’uso dell’inglese come lingua ponte, per in cui si rivendica il raggiungimento della “parità” cui le traduzioni tra lingue diverse dall’inglese tra traduzione automatica e traduzione umana per vengono fatte passando comunque da una ver- alcuni sistemi commerciali. Le verifiche indipen- sione in lingua inglese e poi ritradotte – con un denti non hanno però al momento confermato peggioramento significativo della qualità rispetto questi risultati; al contrario, hanno evidenziato alle traduzioni dirette da e verso l’inglese (Tavo- differenze significative (Toral e altri 2018). sanis 2018). Le lingue coperte sono aumentate ra- Dichiarazioni del genere mostrano comunque pidamente e, anche se nell’ultimo anno non ne l’utilità di una valutazione esterna delle presta- sono state aggiunte di nuove, nel luglio del 2019 zioni dei sistemi più usati. Anche il presente con- sono in tutto 103 (la lista completa è disponibile tributo vuole contribuire a questa attività, docu- sul sito https://translate.google.com/), traducibili mentando lo stato delle cose per prodotti di ampia reciprocamente per un totale di poco più di 10.000 diffusione e in un contesto d’uso reale. Alcuni te- diverse combinazioni. sti generati con traduzione automatica sono stati Nel frattempo, Google ha sviluppato il prodotto quindi sottoposti a valutazione umana, assieme a inserendo caratteristiche di intelligenza artificiale prodotti di traduttori umani, con l’obiettivo di: basate sull’apprendimento automatico e sulle reti neurali. Il 15 novembre 2016 è stato quindi annun- 1. fornire una valutazione umana assoluta ciato il passaggio di una parte dei servizi di Goo- delle prestazioni di due diversi sistemi gle Traduttore da GSMT a GNMT (Google Neu- 2. confrontare la valutazione umana con la va- ral Machine Translation). Rispetto al precedente, lutazione BLEU quest’ultimo sistema ha il vantaggio di tradurre, 2 Il contesto della traduzione secondo gli sviluppatori, frase intere e non spez- zoni di frase, curando in particolare la coesione Le verifiche descritte di seguito sono state com- grammaticale, che nei sistemi esistenti non sem- piute usando due sistemi liberamente accessibili pre viene rispettata (Turovsky 2016). Nel marzo al pubblico e spesso indicati come i migliori nel 2017, il sistema GNMT era disponibile per tradu- loro genere: Google Traduttore e DeepL. zioni tra otto lingue: inglese, cinese, francese, te- I due sistemi non sono forse i più utilizzati su desco, giapponese, coreano, portoghese, spagnolo scala mondiale. Si può pensare che Google Tra- e turco. Nell’aprile dello stesso anno è stato esteso duttore sia il sistema più comunemente usato, ma ad altre lingue europee, tra cui l’italiano (Google in assenza di indicazioni ufficiali è possibile che 2017). questo primato vada in realtà assegnato al sistema di traduzione automatica di Facebook. DeepL non solo è sicuramente meno noto di Google Tradut-
4 Deepl 2. È stata trasmessa una parte del contenuto informativo, ma non la più importante Realizzato dall’azienda tedesca DeepL GmbH, il 3. Circa metà del contenuto informativo è sistema di traduzione DeepL è stato reso disponi- stata trasmessa bile al pubblico nell’agosto del 2017 (sito: 4. La parte più importante del contenuto in- https://www.deepl.com/). Rispetto a Google, co- formativo originale è stata trasmessa pre un numero relativamente ridotto di lingue, 5. Il contenuto informativo è stato tradotto tutte di origine indoeuropea: italiano, inglese, te- completamente desco, francese, spagnolo, portoghese, olandese, polacco e russo. Dal punto di vista tecnico, Fluenza l’azienda ha dichiarato che il sistema di tradu- zione si basa su reti neurali, ma non ha fornito al- 1. Impossibile da ricondurre alla norma tre informazioni. 2. Con più di due errori morfosintattici 3. Con non più di due errori morfosintattici 5 Procedura di valutazione e/o molti usi insoliti di collocazioni Per la valutazione del lavoro è stato usato un cor- 4. Con non più di un errore morfosintattico pus di articoli di quotidiani e periodici. Tale scelta e/o un uso insolito di collocazioni è stata fatta in base a diversi fattori: 5. Del tutto corretta • Importanza, in quanto l’italiano gior- All’interno del campione sono state inserite ca- nalistico è centrale nell’architettura sualmente frasi provenienti da un corpus di 15 ar- dell’italiano contemporaneo (Bonomi ticoli di quotidiani e periodici, scelti casualmente 2002, Berruto 2012) sulla base della disponibilità online sia del testo • Verosimiglianza, in quanto la tradu- originale sia di una traduzione in lingua italiana. zione di articoli di questo tipo è un im- In alcuni casi, le traduzioni umane prese in esame piego realistico dei sistemi descritti sono opera di volontari ma sono comunque di buon livello qualitativo. I testi originali in inglese • Disponibilità, in quanto è facile otte- nere ragionevoli quantitativi di articoli sono stati ripuliti e sottoposti alle interfacce web in doppia versione, originali e tradotti di Google Traduttore e DeepL. Poiché queste in- terfacce, nella versione liberamente accessibile, • Praticità, in quanto le traduzioni degli accettano testi di una lunghezza massima di 5000 articoli spesso hanno una corrispon- caratteri, i testi più lunghi sono stati scomposti in denza 1:1 tra le frasi del testo originale blocchi di lunghezza inferiore, rispettando i con- e quelle del testo tradotto. fini di frase (e spesso di capoverso). I blocchi stessi sono stati poi sottoposti individualmente ai Il lavoro è stato condotto su un campione di 100 sistemi. frasi, valutate separatamente (da valutatori di- Al termine della procedura, per ogni articolo versi) per l’adeguatezza (adequacy) e per la erano quindi disponibili: fluenza (fluency). Anche se i risultati delle verifi- che WMT hanno confermato la maggior rilevanza 1. Il testo originale in lingua inglese dell’adeguatezza (Bentivogli e altri 2018b: 62), le 2. La traduzione umana due valutazioni diverse sono state conservate per 3. La traduzione prodotta da Google verificare l’esistenza di differenze nei prodotti 4. La traduzione prodotta da DeepL commerciali. Va comunque notato che dal punto di vista dell’adeguatezza, nonostante sia teorica- Le frasi da esaminare sono state selezionate in mente possibile che una frase tradotta con sistemi modo causale. Sono poi state sottoposte ai valuta- a reti neurali non abbia nulla a che fare contenuti- tori in ordine casuale e senza indicazioni sulla loro sticamente con il testo di partenza, nella pratica origine: i valutatori non avevano quindi elementi non si è prodotto nessun caso di questo genere. esterni per decidere se l’origine di una singola Le scale utilizzate sono state: frase era un traduttore umano, DeepL o Google. Nella valutazione per adeguatezza le frasi erano Adeguatezza accompagnate dal testo originale in lingua in- glese, secondo l’orientamento DA-src (Bentivogli 1. Il contenuto informativo dell’originale è e altri 2018b: 62), mentre nella valutazione per stato completamente alterato
fluenza era disponibile solo il testo italiano. La va- Più consistente è stata la varianza massima per lutazione è stata eseguita su carta, in condizioni l’adeguatezza, con due frasi che hanno ottenuto il controllate, per un tempo medio di un’ora per ogni livello di 1,9592: campione. I valutatori sono stati complessivamente 14: 6 Originale: And though people can be induced hanno valutato l’adeguatezza, 8 la fluenza. La va- to use social media addictively, while ordering lutazione della fluenza è stata condotta su un cam- Deliveroo night after night, pausing only to take pione più esteso di 147 frasi, per rendere la lun- an Uber to the pub, wedding addiction remains a ghezza dell’attività paragonabile a quella della va- rarity. lutazione dell’adeguatezza. Ai fini della valuta- Traduzione Google: E anche se le persone pos- zione sono state tuttavia usate solo le 100 frasi sono essere indotte a usare i social media in modo coincidenti con frasi valutate per adeguatezza. assopito, mentre ordinano Deliveroo notte dopo Il gruppo dei valutatori era interamente formato notte, facendo una pausa solo per portare un Uber da studenti del corso di laurea magistrale in Infor- al pub, la dipendenza da matrimonio rimane una matica umanistica dell’Università di Pisa. Tutti i rarità. valutatori avevano l’italiano come lingua madre e disponevano di una conoscenza della lingua in- Originale: And now the Trump administration, glese di livello B2 o superiore. Nessuno di loro having failed to repeal the ACA when Republi- aveva esperienza di attività redazionale o di revi- cans controlled Congress, is suing to have the sione di traduzioni e nessuno è stato coinvolto whole thing declared unconstitutional in court – nella fase di scelta e preparazione degli articoli. because what could be a better way to start off the Per migliorare l’omogeneità del risultato, una 2020 campaign than taking insurance away from settimana prima della valutazione vera e propria è 20 million Americans? stata fatta una sessione di prova con i valutatori Traduzione umana: E ora l’amministrazione interessati. In questa sessione sono state valutate Trump, non essendo riuscita ad abrogare l’ACA frasi diverse da quelle esaminate in seguito. I pun- quando i repubblicani controllavano il Congresso, teggi assegnati sono stati discussi sulla base dei sta facendo causa per far dichiarare l’intera cosa testi, cercando di arrivare quanto più possibile alla incostituzionale in tribunale - perché quale modo condivisione di parametri per il lavoro effettivo. migliore di togliere l’assicurazione a 20 milioni di americani per iniziare la campagna del 2020? 6 Esito della valutazione Le frasi oggetto di valutazione sono state poi rias- Nel giudizio finale la varianza dei giudizi è stata semblate in tre diversi documenti, a seconda piuttosto ridotta. Le medie della varianza calco- dell’origine, ed è stato calcolato il punteggio lata su ogni singola frase sono state infatti: BLEU per i prodotti della traduzione automatica, confrontati con la traduzione umana. La valuta- Adeguatezza Fluenza zione risultante è stata: Google 0,3982 0,4631 DeepL 0,4312 0,4375 guatezza fluenza Traduttore Media ade- BLEU N. frasi Media Umano 0,4320 0,3432 Totale 0,4192 0,4243 Tabella 1: Varianza media nei giudizi per frasi. Google 37 4,15 3,90 0,2538 Per quanto riguarda la fluenza, la varianza mas- DeepL 39 4,30 3,94 0,3254 sima (0,1728) si è avuta nei giudizi per questa tra- Umano 24 4,60 4,46 n. a. duzione, con sei punteggi 4 e due punteggi 3: Tabella 2: Valutazione complessiva delle tradu- Originale: As Rahme served a frugal dish of zioni. rice in vine leaves, her son unspooled a familiar Palestinian narrative. Per la fluenza, va notato che il punteggio 5 è stato Traduzione DeepL: Mentre Rahme serviva un assegnato all’unanimità solo a pochissime frasi. frugale piatto di riso in foglie di vite, suo figlio ha Tuttavia, alcune frasi sia di Google sia di DeepL sboccato un racconto familiare palestinese. hanno ottenuto questo punteggio massimo, cosa che viceversa non è successa per le traduzioni
umane. Questo giudizio è stato assegnato soprat- Per quanto riguarda BLEU, la correlazione con tutto a frasi brevi, ma non solo a esse. Per esem- la valutazione umana risulta davvero debole. Il ri- pio, sono state valutate 5 queste traduzioni: dotto scarto tra Google e DeepL diventa infatti una differenza del 22%. Soprattutto, però, è note- Originale: Which is weird, because the truth is vole la differenza rispetto ai punteggi BLEU per that everyone’s judging everyone else’s relation- la traduzione umana spesso indicati in bibliografia ships all the time. (Papinieni e altri 2002), che si aggirano attorno a Traduzione DeepL: Il che è strano, perché la 0,6. Per DeepL questo corrisponderebbe a una dif- verità è che tutti giudicano sempre le relazioni al- ferenza del 45,8%, difficile da considerare rappre- trui. sentativa della differenza tra i risultati su una scala di giudizio assoluta. Originale: In an attempt to avert this awful fate, Va inoltre notato che negli ultimi anni i pun- the American Medical Association launched what teggi BLEU di sistemi come Google o Microsoft it called Operation Coffee Cup, a pioneering at- Translator si sono spesso collocati tra 0,2 e 0,4 tempt at viral marketing. (Tavosanis 2018). In questo contesto, se il punteg- Traduzione Google: Nel tentativo di gio di DeepL è piuttosto elevato, quello di Google scongiurare questo terribile destino, l’American si avvicina alla media. Medical Association lanciò quella che chiamò Operation Coffee Cup, un tentativo pionieristico 8 Conclusioni e sviluppi futuri di marketing virale. Il lavoro descritto qui rappresenta una delle prime 7 Esame dei risultati prove di un progetto più ampio, dedicato a stu- diare le possibilità dell’inserimento strutturale dei In risposta alle domande presentate nel paragrafo traduttori automatici nella pratica didattica delle 1 è innanzitutto notevole l’alto livello raggiunto lingue, a vari livelli. Nel giro di pochi mesi do- da entrambi i sistemi. Nessuno dei due può essere vrebbero essere quindi disponibili analisi più ap- considerato all’altezza della traduzione umana, e profondite. non mancano i casi di frasi tradotte in modo molto L’ampliamento dei campioni rappresenta il insoddisfacente, come questa (valutazione media punto più importante per la conferma dei risultati. 1,43): L’affidamento a un unico tipo di testi è infatti un limite evidente (Burchardt e altri 2017: 159-160). Originale: If you are used to the boil-them- L’estensione a tipologie diverse rispetto all’arti- whole, admire, tug-leaf-by-leaf, scape-with-bot- colo di quotidiano o periodico potrebbe verosimil- tom-teeth school of artichoke preparation and ea- mente portare a risultati molto diversi da quelli ot- ting, it comes as a shock when you first see Ro- tenuti qui. mans deal, in typically direct style, with their fa- vourite vegetable. Traduzione Google: Se sei abituato a bollire tutto, ammira, rimorchia la foglia per pianta, scol- pisci i denti di fondo con la preparazione e il con- sumo di carciofo, diventa un vero shock quando vedi per la prima volta i romani, in genere stile diretto, con il loro vegetale preferito. Tuttavia, nel complesso, colpisce che per esempio per l’accuratezza la distanza tra la traduzione umana e DeepL sia pari solo al 6,5%. Il dislivello per quanto riguarda la fluenza è maggiore, ma ri- mane comunque molto contenuto. I dati confermano inoltre la superiorità delle prestazioni di DeepL già segnalata da diverse fonti, anche se la differenza con Google è molto contenuta. Il margine di vantaggio di DeepL è in- fatti solo del 3,5% per l’accuratezza e dell’1% per la fluenza.
Bibliografia Pieraccini, Roberto (2012). The Voice in the Machine. Building Computers that Understand Speech. Bo- Bentivogli, Luisa, e altri (2018a). Neural versus ston: MIT Press. phrase-based mt quality: An in-depth analysis on english–german and english–french. In Computer Shterionov, Dimitar, e altri (2018). Human versus au- Speech & Language, 49, pp. 52-70. tomatic quality evaluation of NMT and PBSMT. In Machine Translation, 32, 3, pp. 217-235. Bentivogli, Luisa, e altri (2018b). Machine Translation Human Evaluation: an investigation of evaluation Tavosanis, Mirko (2018). Lingue e intelligenza artifi- based on Post-Editing and its relation with Direct ciale. Roma: Carocci. Assessment. In Proceedings of the 15th International Toral, Antonio, e altri (2018). Attaining the unattaina- Workshop on Spoken Language Translation, Iwslt, ble? Reassessing claims of human parity in neural pp. 62-69. machine translation. arXiv preprint Berruto, Gaetano (2012). Sociolinguistica dell’italiano arXiv:1808.10432. contemporaneo. Nuova edizione. Roma: Carocci. Turovsky, Barak (2016). Found in translation: More Bersani Berselli, Gabriele (a cura di, 2011), Usare la accurate, fluent sentences in Google Translate. traduzione automatica. Bologna: CLUEB. Google Blog . Dall’inizio del ’900 ai quotidiani online. Firenze: Cesati. Way, Andy (2018). Quality expectations of machine translation. In Translation Quality Assessment, Burchardt, Aljoscha, e altri (2017). A Linguistic Eva- Springer, Cham, pp. 159-178. luation of Rule-Based, Phrase-Based, and Neural MT Engines. In The Prague Bulletin of Mathemati- cal Linguistics, 108, pp. 159-70. Callison-Burch, Chris, e altri (2008). Further meta- evaluation of machine translation. In Proceedings of the third workshop on statistical machine trans- lation, Association for Computational Linguistics, pp. 70-106. Callison-Burch, Chris, Miles Osborne e Philipp Koehn (2006). Re-evaluation the role of bleu in machine translation research. In 11th Conference of the Eu- ropean Chapter of the Association for Computa- tional Linguistics, Association for Computational Linguistics, pp. 249-256. Google (2017). Translation API Language Support. Sito Google . Heiss, Christine e Marcello Soffritti (2018). DeepL Traduttore e didattica della traduzione dall’italiano in tedesco–alcune valutazioni preliminari. In Trans- lation and Interpreting for Language Learners (TAIL). Lessons in honour of Guy Aston, Anna Cili- berti, Daniela Zorzi, a cura di Laurie Anderson, Laura Gavioli e Federico Zanettin, Milano, AItLA, pp. 241-258. Ostler, Nicholas (2010). The Last Lingua Franca. Eng- lish until the Return of Babel. Londra: Allen Lane. Papinieni, Kishore, e altri (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. In ACL-2002: 40th Annual Meeting of the Association for Computational Linguistics, ACL, Stroudsburg, pp. 311-8.
Puoi anche leggere