Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall'inglese verso l'italiano - e-learning area ...

Pagina creata da Paolo Marconi
 
CONTINUA A LEGGERE
Valutazione umana di Google Traduttore e DeepL
 per le traduzioni di testi giornalistici dall’inglese verso l’italiano

                                Mirko Tavosanis
                 Dipartimento di Filologia, letteratura e linguistica
                                Università di Pisa
                        Via Santa Maria 36 – 56126 Pisa PI
                        mirko.tavosanis@unipi.it

                                                1    Introduzione
                Riassunto
                                                   I sistemi di traduzione automatica stanno assu-
Il contributo presenta una valutazione          mendo un ruolo sempre più importante nella vita
delle prestazioni di Google Traduttore e di     quotidiana, da soli o integrati in altre pratiche
DeepL attraverso le interfacce web dispo-       (Bersani Berselli 2011). La loro diffusione po-
nibili al pubblico. Per la valutazione è        trebbe anche produrre innovazioni strutturali e tra-
stato usato un campione di 100 frasi tratto     sformare in profondità alcuni settori lavorativi, a
da testi giornalistici in lingua inglese tra-   cominciare dall’insegnamento delle lingue stra-
dotti in italiano. Le traduzioni prodotte       niere (Ostler 2010; Tavosanis 2018).
sono state valutate da esseri umani e i ri-        Tuttavia, la valutazione delle effettive presta-
sultati della valutazione sono stati con-       zioni di questi sistemi rimane un problema com-
frontati con il calcolo del punteggio           plesso sia dal punto di vista teorico sia dal punto
BLEU. La valutazione umana dei sistemi          di vista pratico. Inoltre, la difficoltà di valutazione
automatici ha mostrato livelli di qualità vi-   è considerata da tempo uno dei vincoli principali
cini a quelli della traduzione umana, men-      anche per lo sviluppo dei sistemi di traduzione
tre il punteggio BLEU non ha mostrato           (Pieraccini 2012, p. 275; Schreibman 2012, p. 85).
una stretta correlazione.                          Per la valutazione sono state sviluppate nume-
                                                rose metriche di tipo automatico o semiautoma-
                 Abstract                       tico; la più usata in tempi recenti è stata BLEU
                                                (Papinieni e altri, 2002). Tuttavia, nel corso degli
The paper describes an assessment of the        ultimi anni è diventato evidente che le metriche
performance of Google Translator and            più usate per valutare le prestazioni dei sistemi di
DeepL when the systems are used through         traduzione automatica non sono in realtà in grado
their public web interfaces. The assess-        di descrivere adeguatamente le differenze e i mi-
ment was carried on a sample of 100 sen-        glioramenti di prestazioni. Il problema può essere
tences from English-language journalistic       descritto in generale come problema di scarsa cor-
texts translated into Italian. The transla-     relazione tra le metriche e il giudizio umano.
tion outputs were evaluated by humans           Usare come punto di riferimento il giudizio
and the results of the evaluation were          umano sembra d’altra parte del tutto corretto dal
compared with the calculation of the            punto di vista metodologico: l’obiettivo dei si-
BLEU score. Human evaluation of ma-             stemi di traduzione è principalmente quello di for-
chine translation has shown quality levels      nire traduzioni che gli esseri umani considerino di
very close to those of human translation,       buon livello.
while the BLEU score has not shown a               In particolare, la non perfetta correlazione tra
strict connection with human evaluation.        BLEU e il giudizio umano è stata notata da tempo
                                                (per esempio: Callison-Burch, Osborne e Koehn
                                                2006) e diversi valutatori hanno ribadito la neces-
                                                sità di considerare la valutazione umana come pri-
                                                maria (Callison-Burch e altri 2008: 72). Tuttavia,
il problema si è mostrato con particolare evidenza       tore, ma è probabilmente meno usato anche di Mi-
negli ultimi anni, in seguito alla rapida introdu-       crosoft Translator. Tuttavia, DeepL è frequente-
zione dei sistemi di traduzione basati su reti neu-      mente segnalato come uno dei migliori prodotti
rali. BLEU, come i sistemi di traduzione statistica      della sua categoria e nelle valutazioni con BLEU
(PNMST) che è stato usato per valutare, si fonda         ha ottenuto negli ultimi anni punteggi spesso su-
su n-grammi. Si ritiene però che questo meccani-         periori a quelli di Google Traduttore (Heiss e Sof-
smo mostri un “inherent bias” contro i sistemi che       fritti 2018).
adottano meccanismi di traduzione non basati su
n-grammi, quali appunto i sistemi basati su reti         3    Google Traduttore
neurali (Way 2018: 170).
                                                             Le origini di Google Traduttore risalgono al
   Diverse verifiche hanno mostrato che BLEU
                                                         2003, quando il servizio venne lanciato con il
sottovaluta fortemente i risultati dei sistemi di tra-
                                                         nome di Google Translate. In seguito il servizio è
duzione a reti neurali (Bentivogli e altri 2018a;
                                                         stato rinominato, per l’italiano, come Google Tra-
Shterionov e altri 2018). Naturalmente, la validità
                                                         duttore.
di queste verifiche può essere relativizzata alle ca-
                                                            Alle origini, il sistema si basava su prodotti SY-
ratteristiche di specifici campioni. Tuttavia, i dati
                                                         STRAN. Già nel 2006 Google iniziò comunque a
oggi disponibili giustificano l’idea che BLEU non
                                                         usare un sistema di traduzione statistica svilup-
possa essere usato come indicatore generale di
                                                         pato in proprio, GSMT (Google Statistical Ma-
qualità di questi sistemi.
                                                         chine Translation). Caratteristica di questo si-
   In questo contesto non mancano dichiarazioni
                                                         stema è l’uso dell’inglese come lingua ponte, per
in cui si rivendica il raggiungimento della “parità”
                                                         cui le traduzioni tra lingue diverse dall’inglese
tra traduzione automatica e traduzione umana per
                                                         vengono fatte passando comunque da una ver-
alcuni sistemi commerciali. Le verifiche indipen-
                                                         sione in lingua inglese e poi ritradotte – con un
denti non hanno però al momento confermato
                                                         peggioramento significativo della qualità rispetto
questi risultati; al contrario, hanno evidenziato
                                                         alle traduzioni dirette da e verso l’inglese (Tavo-
differenze significative (Toral e altri 2018).
                                                         sanis 2018). Le lingue coperte sono aumentate ra-
   Dichiarazioni del genere mostrano comunque
                                                         pidamente e, anche se nell’ultimo anno non ne
l’utilità di una valutazione esterna delle presta-
                                                         sono state aggiunte di nuove, nel luglio del 2019
zioni dei sistemi più usati. Anche il presente con-
                                                         sono in tutto 103 (la lista completa è disponibile
tributo vuole contribuire a questa attività, docu-
                                                         sul sito https://translate.google.com/), traducibili
mentando lo stato delle cose per prodotti di ampia
                                                         reciprocamente per un totale di poco più di 10.000
diffusione e in un contesto d’uso reale. Alcuni te-
                                                         diverse combinazioni.
sti generati con traduzione automatica sono stati
                                                            Nel frattempo, Google ha sviluppato il prodotto
quindi sottoposti a valutazione umana, assieme a
                                                         inserendo caratteristiche di intelligenza artificiale
prodotti di traduttori umani, con l’obiettivo di:
                                                         basate sull’apprendimento automatico e sulle reti
                                                         neurali. Il 15 novembre 2016 è stato quindi annun-
    1. fornire una valutazione umana assoluta
                                                         ciato il passaggio di una parte dei servizi di Goo-
       delle prestazioni di due diversi sistemi
                                                         gle Traduttore da GSMT a GNMT (Google Neu-
    2. confrontare la valutazione umana con la va-
                                                         ral Machine Translation). Rispetto al precedente,
       lutazione BLEU
                                                         quest’ultimo sistema ha il vantaggio di tradurre,
2     Il contesto della traduzione                       secondo gli sviluppatori, frase intere e non spez-
                                                         zoni di frase, curando in particolare la coesione
   Le verifiche descritte di seguito sono state com-     grammaticale, che nei sistemi esistenti non sem-
piute usando due sistemi liberamente accessibili         pre viene rispettata (Turovsky 2016). Nel marzo
al pubblico e spesso indicati come i migliori nel        2017, il sistema GNMT era disponibile per tradu-
loro genere: Google Traduttore e DeepL.                  zioni tra otto lingue: inglese, cinese, francese, te-
   I due sistemi non sono forse i più utilizzati su      desco, giapponese, coreano, portoghese, spagnolo
scala mondiale. Si può pensare che Google Tra-           e turco. Nell’aprile dello stesso anno è stato esteso
duttore sia il sistema più comunemente usato, ma         ad altre lingue europee, tra cui l’italiano (Google
in assenza di indicazioni ufficiali è possibile che      2017).
questo primato vada in realtà assegnato al sistema
di traduzione automatica di Facebook. DeepL non
solo è sicuramente meno noto di Google Tradut-
4        Deepl                                                 2.    È stata trasmessa una parte del contenuto
                                                                     informativo, ma non la più importante
Realizzato dall’azienda tedesca DeepL GmbH, il                 3.    Circa metà del contenuto informativo è
sistema di traduzione DeepL è stato reso disponi-                    stata trasmessa
bile al pubblico nell’agosto del 2017 (sito:                   4.    La parte più importante del contenuto in-
https://www.deepl.com/). Rispetto a Google, co-                      formativo originale è stata trasmessa
pre un numero relativamente ridotto di lingue,                 5.    Il contenuto informativo è stato tradotto
tutte di origine indoeuropea: italiano, inglese, te-                 completamente
desco, francese, spagnolo, portoghese, olandese,
polacco e russo. Dal punto di vista tecnico,                   Fluenza
l’azienda ha dichiarato che il sistema di tradu-
zione si basa su reti neurali, ma non ha fornito al-           1.    Impossibile da ricondurre alla norma
tre informazioni.                                              2.    Con più di due errori morfosintattici
                                                               3.    Con non più di due errori morfosintattici
5        Procedura di valutazione                                    e/o molti usi insoliti di collocazioni
Per la valutazione del lavoro è stato usato un cor-            4.    Con non più di un errore morfosintattico
pus di articoli di quotidiani e periodici. Tale scelta               e/o un uso insolito di collocazioni
è stata fatta in base a diversi fattori:                       5.    Del tutto corretta

          •     Importanza, in quanto l’italiano gior-       All’interno del campione sono state inserite ca-
                nalistico è centrale nell’architettura       sualmente frasi provenienti da un corpus di 15 ar-
                dell’italiano contemporaneo (Bonomi          ticoli di quotidiani e periodici, scelti casualmente
                2002, Berruto 2012)                          sulla base della disponibilità online sia del testo
          •     Verosimiglianza, in quanto la tradu-         originale sia di una traduzione in lingua italiana.
                zione di articoli di questo tipo è un im-    In alcuni casi, le traduzioni umane prese in esame
                piego realistico dei sistemi descritti       sono opera di volontari ma sono comunque di
                                                             buon livello qualitativo. I testi originali in inglese
          •     Disponibilità, in quanto è facile otte-
                nere ragionevoli quantitativi di articoli    sono stati ripuliti e sottoposti alle interfacce web
                in doppia versione, originali e tradotti     di Google Traduttore e DeepL. Poiché queste in-
                                                             terfacce, nella versione liberamente accessibile,
          •     Praticità, in quanto le traduzioni degli
                                                             accettano testi di una lunghezza massima di 5000
                articoli spesso hanno una corrispon-
                                                             caratteri, i testi più lunghi sono stati scomposti in
                denza 1:1 tra le frasi del testo originale
                                                             blocchi di lunghezza inferiore, rispettando i con-
                e quelle del testo tradotto.
                                                             fini di frase (e spesso di capoverso). I blocchi
                                                             stessi sono stati poi sottoposti individualmente ai
Il lavoro è stato condotto su un campione di 100
                                                             sistemi.
frasi, valutate separatamente (da valutatori di-
                                                                Al termine della procedura, per ogni articolo
versi) per l’adeguatezza (adequacy) e per la
                                                             erano quindi disponibili:
fluenza (fluency). Anche se i risultati delle verifi-
che WMT hanno confermato la maggior rilevanza
                                                               1.   Il testo originale in lingua inglese
dell’adeguatezza (Bentivogli e altri 2018b: 62), le
                                                               2.   La traduzione umana
due valutazioni diverse sono state conservate per
                                                               3.   La traduzione prodotta da Google
verificare l’esistenza di differenze nei prodotti
                                                               4.   La traduzione prodotta da DeepL
commerciali. Va comunque notato che dal punto
di vista dell’adeguatezza, nonostante sia teorica-
                                                             Le frasi da esaminare sono state selezionate in
mente possibile che una frase tradotta con sistemi
                                                             modo causale. Sono poi state sottoposte ai valuta-
a reti neurali non abbia nulla a che fare contenuti-
                                                             tori in ordine casuale e senza indicazioni sulla loro
sticamente con il testo di partenza, nella pratica
                                                             origine: i valutatori non avevano quindi elementi
non si è prodotto nessun caso di questo genere.
                                                             esterni per decidere se l’origine di una singola
    Le scale utilizzate sono state:
                                                             frase era un traduttore umano, DeepL o Google.
                                                             Nella valutazione per adeguatezza le frasi erano
    Adeguatezza
                                                             accompagnate dal testo originale in lingua in-
                                                             glese, secondo l’orientamento DA-src (Bentivogli
    1.        Il contenuto informativo dell’originale è
                                                             e altri 2018b: 62), mentre nella valutazione per
              stato completamente alterato
fluenza era disponibile solo il testo italiano. La va-    Più consistente è stata la varianza massima per
lutazione è stata eseguita su carta, in condizioni        l’adeguatezza, con due frasi che hanno ottenuto il
controllate, per un tempo medio di un’ora per ogni        livello di 1,9592:
campione.
   I valutatori sono stati complessivamente 14: 6            Originale: And though people can be induced
hanno valutato l’adeguatezza, 8 la fluenza. La va-        to use social media addictively, while ordering
lutazione della fluenza è stata condotta su un cam-       Deliveroo night after night, pausing only to take
pione più esteso di 147 frasi, per rendere la lun-        an Uber to the pub, wedding addiction remains a
ghezza dell’attività paragonabile a quella della va-      rarity.
lutazione dell’adeguatezza. Ai fini della valuta-            Traduzione Google: E anche se le persone pos-
zione sono state tuttavia usate solo le 100 frasi         sono essere indotte a usare i social media in modo
coincidenti con frasi valutate per adeguatezza.           assopito, mentre ordinano Deliveroo notte dopo
   Il gruppo dei valutatori era interamente formato       notte, facendo una pausa solo per portare un Uber
da studenti del corso di laurea magistrale in Infor-      al pub, la dipendenza da matrimonio rimane una
matica umanistica dell’Università di Pisa. Tutti i        rarità.
valutatori avevano l’italiano come lingua madre e
disponevano di una conoscenza della lingua in-               Originale: And now the Trump administration,
glese di livello B2 o superiore. Nessuno di loro          having failed to repeal the ACA when Republi-
aveva esperienza di attività redazionale o di revi-       cans controlled Congress, is suing to have the
sione di traduzioni e nessuno è stato coinvolto           whole thing declared unconstitutional in court –
nella fase di scelta e preparazione degli articoli.       because what could be a better way to start off the
   Per migliorare l’omogeneità del risultato, una         2020 campaign than taking insurance away from
settimana prima della valutazione vera e propria è        20 million Americans?
stata fatta una sessione di prova con i valutatori           Traduzione umana: E ora l’amministrazione
interessati. In questa sessione sono state valutate       Trump, non essendo riuscita ad abrogare l’ACA
frasi diverse da quelle esaminate in seguito. I pun-      quando i repubblicani controllavano il Congresso,
teggi assegnati sono stati discussi sulla base dei        sta facendo causa per far dichiarare l’intera cosa
testi, cercando di arrivare quanto più possibile alla     incostituzionale in tribunale - perché quale modo
condivisione di parametri per il lavoro effettivo.        migliore di togliere l’assicurazione a 20 milioni di
                                                          americani per iniziare la campagna del 2020?
6    Esito della valutazione
                                                          Le frasi oggetto di valutazione sono state poi rias-
Nel giudizio finale la varianza dei giudizi è stata
                                                          semblate in tre diversi documenti, a seconda
piuttosto ridotta. Le medie della varianza calco-
                                                          dell’origine, ed è stato calcolato il punteggio
lata su ogni singola frase sono state infatti:
                                                          BLEU per i prodotti della traduzione automatica,
                                                          confrontati con la traduzione umana. La valuta-
                    Adeguatezza             Fluenza
                                                          zione risultante è stata:
 Google                  0,3982              0,4631
 DeepL                   0,4312              0,4375
                                                                                          guatezza

                                                                                                      fluenza
                                                            Traduttore

                                                                                         Media ade-

                                                                                                                 BLEU
                                                                         N. frasi

                                                                                                       Media

 Umano                   0,4320              0,3432
 Totale                  0,4192              0,4243

Tabella 1: Varianza media nei giudizi per frasi.
                                                           Google                   37         4,15       3,90 0,2538
Per quanto riguarda la fluenza, la varianza mas-           DeepL                    39         4,30       3,94 0,3254
sima (0,1728) si è avuta nei giudizi per questa tra-       Umano                    24         4,60       4,46    n. a.
duzione, con sei punteggi 4 e due punteggi 3:
                                                          Tabella 2: Valutazione complessiva delle tradu-
   Originale: As Rahme served a frugal dish of            zioni.
rice in vine leaves, her son unspooled a familiar
Palestinian narrative.                                    Per la fluenza, va notato che il punteggio 5 è stato
   Traduzione DeepL: Mentre Rahme serviva un              assegnato all’unanimità solo a pochissime frasi.
frugale piatto di riso in foglie di vite, suo figlio ha   Tuttavia, alcune frasi sia di Google sia di DeepL
sboccato un racconto familiare palestinese.               hanno ottenuto questo punteggio massimo, cosa
                                                          che viceversa non è successa per le traduzioni
umane. Questo giudizio è stato assegnato soprat-           Per quanto riguarda BLEU, la correlazione con
tutto a frasi brevi, ma non solo a esse. Per esem-      la valutazione umana risulta davvero debole. Il ri-
pio, sono state valutate 5 queste traduzioni:           dotto scarto tra Google e DeepL diventa infatti
                                                        una differenza del 22%. Soprattutto, però, è note-
   Originale: Which is weird, because the truth is      vole la differenza rispetto ai punteggi BLEU per
that everyone’s judging everyone else’s relation-       la traduzione umana spesso indicati in bibliografia
ships all the time.                                     (Papinieni e altri 2002), che si aggirano attorno a
   Traduzione DeepL: Il che è strano, perché la         0,6. Per DeepL questo corrisponderebbe a una dif-
verità è che tutti giudicano sempre le relazioni al-    ferenza del 45,8%, difficile da considerare rappre-
trui.                                                   sentativa della differenza tra i risultati su una scala
                                                        di giudizio assoluta.
   Originale: In an attempt to avert this awful fate,      Va inoltre notato che negli ultimi anni i pun-
the American Medical Association launched what          teggi BLEU di sistemi come Google o Microsoft
it called Operation Coffee Cup, a pioneering at-        Translator si sono spesso collocati tra 0,2 e 0,4
tempt at viral marketing.                               (Tavosanis 2018). In questo contesto, se il punteg-
   Traduzione Google: Nel tentativo di                  gio di DeepL è piuttosto elevato, quello di Google
scongiurare questo terribile destino, l’American        si avvicina alla media.
Medical Association lanciò quella che chiamò
Operation Coffee Cup, un tentativo pionieristico        8    Conclusioni e sviluppi futuri
di marketing virale.
                                                        Il lavoro descritto qui rappresenta una delle prime
7    Esame dei risultati                                prove di un progetto più ampio, dedicato a stu-
                                                        diare le possibilità dell’inserimento strutturale dei
In risposta alle domande presentate nel paragrafo       traduttori automatici nella pratica didattica delle
1 è innanzitutto notevole l’alto livello raggiunto      lingue, a vari livelli. Nel giro di pochi mesi do-
da entrambi i sistemi. Nessuno dei due può essere       vrebbero essere quindi disponibili analisi più ap-
considerato all’altezza della traduzione umana, e       profondite.
non mancano i casi di frasi tradotte in modo molto          L’ampliamento dei campioni rappresenta il
insoddisfacente, come questa (valutazione media         punto più importante per la conferma dei risultati.
1,43):                                                  L’affidamento a un unico tipo di testi è infatti un
                                                        limite evidente (Burchardt e altri 2017: 159-160).
   Originale: If you are used to the boil-them-         L’estensione a tipologie diverse rispetto all’arti-
whole, admire, tug-leaf-by-leaf, scape-with-bot-        colo di quotidiano o periodico potrebbe verosimil-
tom-teeth school of artichoke preparation and ea-       mente portare a risultati molto diversi da quelli ot-
ting, it comes as a shock when you first see Ro-        tenuti qui.
mans deal, in typically direct style, with their fa-
vourite vegetable.
   Traduzione Google: Se sei abituato a bollire
tutto, ammira, rimorchia la foglia per pianta, scol-
pisci i denti di fondo con la preparazione e il con-
sumo di carciofo, diventa un vero shock quando
vedi per la prima volta i romani, in genere stile
diretto, con il loro vegetale preferito.

Tuttavia, nel complesso, colpisce che per esempio
per l’accuratezza la distanza tra la traduzione
umana e DeepL sia pari solo al 6,5%. Il dislivello
per quanto riguarda la fluenza è maggiore, ma ri-
mane comunque molto contenuto.
   I dati confermano inoltre la superiorità delle
prestazioni di DeepL già segnalata da diverse
fonti, anche se la differenza con Google è molto
contenuta. Il margine di vantaggio di DeepL è in-
fatti solo del 3,5% per l’accuratezza e dell’1% per
la fluenza.
Bibliografia                                              Pieraccini, Roberto (2012). The Voice in the Machine.
                                                             Building Computers that Understand Speech. Bo-
Bentivogli, Luisa, e altri (2018a). Neural versus            ston: MIT Press.
  phrase-based mt quality: An in-depth analysis on
  english–german and english–french. In Computer          Shterionov, Dimitar, e altri (2018). Human versus au-
  Speech & Language, 49, pp. 52-70.                         tomatic quality evaluation of NMT and PBSMT. In
                                                            Machine Translation, 32, 3, pp. 217-235.
Bentivogli, Luisa, e altri (2018b). Machine Translation
  Human Evaluation: an investigation of evaluation        Tavosanis, Mirko (2018). Lingue e intelligenza artifi-
  based on Post-Editing and its relation with Direct        ciale. Roma: Carocci.
  Assessment. In Proceedings of the 15th International    Toral, Antonio, e altri (2018). Attaining the unattaina-
  Workshop on Spoken Language Translation, Iwslt,           ble? Reassessing claims of human parity in neural
  pp. 62-69.                                                machine        translation.       arXiv       preprint
Berruto, Gaetano (2012). Sociolinguistica dell’italiano     arXiv:1808.10432.
  contemporaneo. Nuova edizione. Roma: Carocci.           Turovsky, Barak (2016). Found in translation: More
Bersani Berselli, Gabriele (a cura di, 2011), Usare la      accurate, fluent sentences in Google Translate.
  traduzione automatica. Bologna: CLUEB.                    Google Blog .
  Dall’inizio del ’900 ai quotidiani online. Firenze:
  Cesati.                                                 Way, Andy (2018). Quality expectations of machine
                                                           translation. In Translation Quality Assessment,
Burchardt, Aljoscha, e altri (2017). A Linguistic Eva-     Springer, Cham, pp. 159-178.
  luation of Rule-Based, Phrase-Based, and Neural
  MT Engines. In The Prague Bulletin of Mathemati-
  cal Linguistics, 108, pp. 159-70.
Callison-Burch, Chris, e altri (2008). Further meta-
  evaluation of machine translation. In Proceedings
  of the third workshop on statistical machine trans-
  lation, Association for Computational Linguistics,
  pp. 70-106.
Callison-Burch, Chris, Miles Osborne e Philipp Koehn
  (2006). Re-evaluation the role of bleu in machine
  translation research. In 11th Conference of the Eu-
  ropean Chapter of the Association for Computa-
  tional Linguistics, Association for Computational
  Linguistics, pp. 249-256.
Google (2017). Translation API Language Support.
  Sito    Google    .
Heiss, Christine e Marcello Soffritti (2018). DeepL
  Traduttore e didattica della traduzione dall’italiano
  in tedesco–alcune valutazioni preliminari. In Trans-
  lation and Interpreting for Language Learners
  (TAIL). Lessons in honour of Guy Aston, Anna Cili-
  berti, Daniela Zorzi, a cura di Laurie Anderson,
  Laura Gavioli e Federico Zanettin, Milano, AItLA,
  pp. 241-258.
Ostler, Nicholas (2010). The Last Lingua Franca. Eng-
  lish until the Return of Babel. Londra: Allen Lane.
Papinieni, Kishore, e altri (2002). BLEU: A Method for
  Automatic Evaluation of Machine Translation. In
  ACL-2002: 40th Annual Meeting of the Association
  for Computational Linguistics, ACL, Stroudsburg,
  pp. 311-8.
Puoi anche leggere