Il Multidimensional Quality Metrics nell'analisi qualitativa della traduzione automatica
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica Gennaro Nolano, Johanna Monti UNIOR NLP Research Group Università degli Studi di Napoli L’Orientale l seguente articolo è un estratto di un lavoro • un vocabolario per la categorizzazione delle I più ampio sulla traduzione automatica del te- sto King, Warrior, Magician, Lover di Robert Moore e Douglas Gillette. Nel corso del suddetto problematiche relative alla qualità; • un meccanismo di assegnazione di un punteg- gio basato sul conteggio degli errori, o sulla loro lavoro questo testo, dopo essere stato analizzato annotazione; linguisticamente, è stato tradotto attraverso i due • una normativa di markup, che include: traduttori automatici Google Translate e DeepL per – un meccanismo XML formale per descrivere poi essere completato in fase di post-editing da tra- i parametri di qualità; duttore umano. Fase essenziale del processo è sta- – diversi attributi del namespace [mqm: ]2 ta sicuramente la valutazione degli errori riscon- che possono essere usati sia con XML che trati nelle due traduzioni automatiche, effettuata con HTML5, progettati per funzionare con il con l’aiuto del Multidimensional Quality Metrics Tag Set Internazionale 2.0 (ITS 2.0); (di qui in avanti indicato con la sigla MQM), una – elementi del namespace mqm: che possono metrica di valutazione per traduzioni e testi più in essere utilizzati per inserire dati MQM in generale. Nell’articolo qui presente si definirà que- un file XML nel caso elementi esistenti non sta metrica e il modo in cui è stata utilizzata nel soddisfino le necessità dell’utente). lavoro summenzionato. • Una serie di linee guida per la selezione di problematiche, basate sulle specifiche ASTM 1 MQM F2575:20143 La base teorica su cui si basa tale modello è di stampo MQM (Harris et al., 2015) offre assolutamente funzionalista, per cui il primo valore a framework for describing and defining che va a valutare è la vicinanza del testo tradotto ai fini quality metrics used to assess the quality of comunicativi proposti dall’originale. Dal documento translated texts and to identify specific issues informativo: in those texts. It provides a systematic fra- MQM is useful for assessing verifiable qua- mework to describe quality metrics based on lities of translations. It is not intended to the identification of textual features. 1 (...) 2 Per namespace (o spazio dei nomi) si intende, in informatica, la ed è formato da: definizione di un contesto per permettere al software di riconoscere ciò su cui deve lavorare. Vengono utilizzati in particolare in XML 1 Un quadro per la descrizione e la definizione di parametri per e HTML, e seguono la sintassi namespace:identificatore. Per la qualità, utilizzato per valutare la qualità dei testi tradotti e per ulteriori informazioni si rimanda a Bray et al. (2009) identificarne problematiche specifiche. Offre un quadro sistematico 3 Per un’analisi più approfondita è possibile consultare l’indirizzo per descrivere parametri di qualità basato sull’identificazione di https://www.gauchatranslations.com/wp-content/uploads/ caratteristiche testuali.(Traduzione mia) 2017/06/ASTM-General-rv-2016-03-21.pdf
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica address purely subjective criteria (such as • Verità; “artistry” or “elegance”) that may be of key • Altro. importance in some circumstances. Rather, e verranno in seguito analizzate nel dettaglio; it provides a functional approach to quality Errore: viene definito errore una problematica la cui that seeks to see whether a translation meets incorrettezza è stata verificata, in seguito a un specifications and to identify aspects that may primo controllo; fall short of expectations.4 Gravità: indica il grado di gravità di una particola- Questo significa quindi che esso da solo non basta a re istanza di una problematica. Il modello base verificare la qualità di determinati testi come pubblici- di MQM utilizza quattro livelli di gravità: nulla, tari, divulgativi o letterari, per i quali un certo livello di marginale, grave e critica; soggettività nel controllo della qualità non è solo utile, Metodo: un modo di valutare alcuni aspetti della ma necessario e richiesto. Come abbiamo già visto in qualità di una traduzione; precedenza, la tipologia testuale e l’ambito di studio Parametro: un aspetto della traduzione che definisce di King, Warrior, Magician, Lover fanno sì che nel testo determinate aspettative del prodotto tradotto. Un l’autore non sia completamente invisibile, ma che, anzi, esempio di parametro potrebbe essere il locale; la sua presenza è molto spesso parte integrante del Penalità per l’errore: è il punteggio assegnato ad significato del libro, e per tale motivo il quadro MQM ogni errore in un testo secondo il sistema di non poteva essere l’unico parametro utilizzato, ma, ciò misurazione analitico; nonostante, si è rivelato uno strumento estremamen- Peso: un valore numerico che indica quanto è impor- te utile per valutare il lavoro effettuato dai traduttori tante una determinata problematica nella valuta- automatici presi in esame. zione generale della qualità. Il peso di default è 1.0, e a peso maggiore corrisponde importanza maggiore, con il valore 0 che indica una proble- Termini utilizzati in MQM matica accertata ma non contata nel punteggio L’analisi di qualità in MQM passa attraverso l’utilizzo MQM. Il peso viene utilizzato come moltiplicatore di una terminologia particolare, consta dei seguenti delle penalità per errore; termini, alcuni dei quali riprendono a piene mani dalla Problematica: viene definita problematica un proble- teoria della traduzione: ma potenziale riscontrato nel testo. Ciò significa Accuratezza: il grado di conformità del contenuto del che una problematica potrebbe anche rivelarsi es- testo d’arrivo al contenuto del testo di partenza; sere una scelta stilistica o linguistica, ma in prin- Adeguatezza: sinonimo di accuratezza, solitamen- cipio reputata un possibile errore da un processo te usato per la valutazione di testi tradotti con automatizzato o da un lettore umano; traduttori automatici; Qualità: l’adesione del prodotto a specifiche partico- Categoria di dati: termine teorico utilizzato per de- lari, che nel caso di testo tradotto sono un grado finire un particolare tipo di informazione (come di accuratezza e di fruibilità relativi al pubblico di peso, tipologia di problematiche e simili), utile a arrivi e ai fini del prodotto finale. Tale accuratez- descrivere la qualità della traduzione; za e tale fruibilità entra in relazione con tutte le Dimensione: un qualunque aspetto, relativo alla strut- altre eventuali specifiche negoziate tra cliente e tura superficiale di una traduzione, che rientri traduttore; nel calcolo della valutazione della qualità. Le Sistema di misurazione: in MQM un sistema di mi- dimensioni utilizzate in MQM sono: surazione definisce quanto un testo soddisfa i re- • Accuratezza; quisiti di qualità. Esso consta di una o più pro- • Compatibilità5 ; blematiche attraverso cui è valutato il testo, e un • Convenzioni del locale; metodo di valutazione olistico o analitico: • Fruibilità; Sistema di misurazione analitico: un sistema • Internazionalizzazione; di misurazione che si basa sull’identifi- • Stile; cazione e la successiva classificazione di • Struttura; problematiche all’interno di un testo; • Terminologia; Sistema di misurazione olistico: un sistema di 4 MQM misurazione basato su questioni o dichiara- è utile per valutare qualità quantificabili nelle traduzioni. Non è pensato per descrivere criteri puramente soggettivi (come zioni (accompagnate da definizioni che le ad esempio l”’abilità artistica” o l”’eleganza”) che potrebbero essere rendono più chiare), corrispondenti a tipi di di importanza centrale in alcune circostanze. Piuttosto, offre un problematiche, utilizzate come base per la approccio funzionale alla qualità che cerca di valutare se una tra- duzione soddisfi i requisiti e identifichi aspetti che potrebbero non valutazione del testo, insieme a una scala di essere all’altezza delle aspettative.(Traduzione mia) valori utilizzata per valutare i singoli elemen- 5 Questa dimensione è da considerarsi obsoleta, e nel documento ti e standard di qualità per livelli specifici di ne si sconsiglia l’utilizzo, conservandone la descrizione solo per prestazione; motivi di compatibilità con versioni passate. Per questo motivo non verrà ulteriormente trattata in questa sede. Specifiche: una descrizione dei requisiti di una tradu- Page 2 of 11
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica zione. MQM utilizza un sottogruppo delle spefiche Design (design): comprende problematiche relati- definite in ASTM F2575-146 . ve alla presentazione superficiale del prodotto tradotto; Terminologia (terminology): comprende problema- 1.1 Problematiche tiche relative all’utilizzo di una terminologia speci- MQM definisce più di 100 categorie di problematiche fica (non importa se essa sia specifica di un genere (Arle et al., 2015), ricavate da una disamina di sistemi o specifica perché desiderata dal cliente); di valutazione della qualità, sia basati su accertazione Verità (verity:) comprende problematiche relative al- automatizzata delle problematiche, sia basati sul lavo- l’idoneità del contenuto al locale e al pubblico di ro di revisori umani. arrivo (un eventuale riferimento non necessario a Tali categorie sono inserite in una gerarchia di speci- una legge o a una festività anglosassone in un te- ficazione che va dal generale al particolare. È quindi sto per un pubblico italiano rientrerebbe in questa possibile, qualora richiesto dall’analisi, utilizzare solo dimensione); uno specifico livello di gerarchia al fine di avere una Altro (other:) comprende problematiche non defini- certa granularità in fase di valutazione. In generale, bili in nessuna delle dimensioni precedenti. nel documento originale si consiglia all’utente: A queste dimensioni (definite in questo caso come “ge- metrics should check the fewest number of nitori” delle problematiche più specifiche) corrispon- issues possible to achieve the requirements of dono poi le specifiche problematiche riscontrabili nel users.7 (...) corso di una traduzione. Come già menzionato in pre- cedenza, tali problematiche sono più di 100, ma per un Al livello più alto (e quindi più generale) le problema- utilizzo generale MQM descrive un “nucleo” (definito tiche vengono ricategorizzate in diverse dimensioni in originale MQM core) che comprende 20 tipologie di superiori, identificate da un nome (nel presente lavoro problematiche (tra cui rientrano le dimensioni descrit- tradotto in italiano) e da un tag, definito nel docu- te in precedenza) tra quelle più comuni nella verifica mento originale come “valori ID” (nel presente lavoro della qualità in un testo tradotto. Questa semplifica- lasciati in lingua inglese): zione, in generale indicata dalla guida MQM come è utile soprattutto a mantenere un alto livello di opera- Accuratezza (accuracy): comprende problematiche bilità tra i sistemi, che è uno degli obiettivi principali relative al rapporto tra il testo d’origine e il testo dell’utilizzo di MQM. di arrivo, tra cui figurano, ad esempio, eventua- Il nucleo di MQM è composto dalle seguenti tipologie li slittamenti semantici e aggiunta/omissione di di problematiche: contenuto; Convenzioni del locale (locale-convention:) • Accuratezza(accuracy); comprende problematiche relative al man- Aggiunta (addition): il prodotto di arrivo inlu- cato rispetto di convenzioni relative al locale di de porzion non presenti nel prodotto di arrivo (come ad esempio l’utilizzo di determinati partenza; simboli numerici, o traslitterazioni); Errori di traduzione (mistranslation): il conte- Fruibilità (fluency): comprende problematiche relati- nuto del prodotto di arrivo non rappresenta ve all’aspetto linguistico del prodotto (ovvero alla accuratamente il contenuto del prodotto di sua aderenza a un determinato codice linguistico) partenza ; che, in quanto tali, possono essere applicate tanto Mancata traduzione (untranslated): parte del a un testo tradotto quanto a un testo originale contenuto che sarebbe dovuto essere tradotto indipendentemente; è stato lasciato in originale; Internazionalizzazione (internationalization:) Omissione (omission): mancanza nel testo di ar- comprende problematiche relative alla prepara- rivo di contenuto presente nel prodotto di zione del prodotto di partenza per una futura partenza; traduzione; Style(style:) comprende problematiche relative sia • Convenzioni del locale(locale-convention); agli stili definiti formalmente (nelle guide di sti- • Fruibilità(fluency); le), sia a quelli definiti informalmente (come ad Grammatica (grammar): problematiche relati- esempio potrebbe essere la richiesta di un cliente ve alla grammatica o alla sintassi del di avere un testo dallo “stile facile”); testo; 6 In ASTM F2575-14, le specifiche riguardano i parametri della Incoerenza (inconsistency): il testo presenta traduzione (ovvero le specifiche negoziate tra cliente e traduttori), le incoerenze interne; informazioni del contenuto di partenza, i requisiti del contenuto di Ortografia (spelling): problematiche relative al- arrivo, i parametri del processo di traduzione, l’ambiente di lavoro e l’ortografia delle parole; le relazioni delle parti interessate con il progetto. 7 [...] la metrica dovrebbe contenere il minor numero possibile di Registro grammaticale (grammatical-register): problematiche necessarie a venire incontro alle richieste degli utenti. problematiche relative a un’incongruenza (Traduzione mia) tra il registro richiesto e quello utilizzato; Page 3 of 11
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica Tipografia (typography): problematiche relati- default, il valore assegnato al peso è 1.0, e può ve alla rappresentazione tecnica del prodot- essere aggiornato dall’utente a seconda di bisogni to; specifici; Indefinito (unintelligible): problematica la cui Gravità: i livelli di gravità sono definiti attraverso esatta natura non è determinabile, ma che un grado di gravità e un numero identificato co- ciò nonostante causa gravi problemi nella me moltiplicatore di problematica, utilizzato del- fruibilità del testo; la formula per il calcolo della qualità totale del • Internazionalizzazione(internationalization); contenuto. I livelli definiti sono i seguenti: • Stile(style); • Nulla:0. Problematiche con questa gravità • Struttura(design); si riferiscono a entità che devono essere evi- • Terminologia (terminology); denziate per poi venire in eseguito analizzate • Verità(verity); o risolte, ma che non hanno peso negativo per la traduzione. Questo livello di gravità Completezza (completeness): il testo è incom- può essere visto come un segnale di avvi- pleto; so che non comporta alcuna penalità, come Requisiti legali (legal-requirements): il testo possono essere “errori preferenziali” (ovve- non soddisfa i requisiti legali indicati nelle ro entità non errate di per sé, ma per cui il specificazioni; revisore o il cliente potrebbe preferire una so- Contenuto specifico del locale (locale-specific-content): luzione diversa) o errori sistematici ripetuti problematiche relative al mantenimento di e facilmente risolvibili. contenuto specifico al locale di partenza; • Marginale:1. Problematiche con questa gra- • Altro(other). vità non hanno alcun impatto sull’usabilità o la comprensibilità del contenuto. Sono errori Estensioni dell’utente di serverità minore quelli facilmente risolvi- L’utente ha la possibilità di definire proprie problema- bli del lettore/utente senza che l’usabilità tiche (benché gli stessi creatori consiglino di limitarsi ne venga intaccata, e per tale motivo la loro alle problematiche pre-definite da MQM), le quali de- risoluzione è a discrezione dei responsabili vono essere necessariamente definite dalle seguenti del contenuto. Ne è un esempio uno spazio informazioni: aggiuntivo in seguito a un punto. • Grave:10. Problematiche di questo tipo in- • Nome della problematica; taccano l’usabilità o la comprensibilità del • Valore ID, un QName8 , utilizzato come identifi- contenuto, senza però renderlo inutilizzabile. catore XML del tipo di problematica. L’ID deve Rientrano in questa categoria errori che non essere formato da un nome locale (definito dal- possono essere sempre corretti dal lettore/u- l’utente) accompagnato dal prefisso x-, che ne tente, ed è quindi generalmente consigliato indica l’appartenza alla lista di problematiche de- correggerli prima dell’utilizzo del contenuto. finite dall’utente. Un esempio potrebbe essere Ne può essere un esempio un errore orto- x-respeaking-error; grafico, che renderebbe difficile, ma non im- • Una problematica genitore, ovvero il valore ID possibile, comprendere il significato di una di una tipologia di problematiche più generale parola. che comprende quella definita dall’utente. La pro- • Critico:100 Problematiche critiche rendono blematica genitore può essere sia una tipologia il contenuto inadatto all’uso. Se l’errore non definita dall’utente che una tipologia pre-definita permette al lettore/utente di utilizzare il con- in MQM; tenuto come pianificato, o se porta alla pre- • Definizione, ovvero una spiegazione della tipolo- senza di informazioni errate che possono cau- gia di problematica. sare danni all’utente, esso deve essere clas- sificato come critico, e in quanto tale deve essere corretto prima dell’utilizzo del prodot- 1.2 Assegnazione del punteggio to, poiché anche un solo errore critico po- MQM offre un metodo pre-definito per assegnare trebbe creare seri problemi. Ne è un esempio un punteggio alla qualità di una data traduzione, un grave errore grammaticale che modifica attraverso l’utilizzo dei seguenti valori: il significato nel testo. Peso: il valore assegnato a ogni singola problematica Utilizzando i valori sopra descritti è possibile calcolare nel calcolo della qualità del contenuto finale. Di la penalità (P) del contenuto d’arrivo e di quello di partenza, attraverso la seguente formula: 8 Un QName, ovvero dall’inglese Qualified Name, è un nome qualificativo unico per indicare un elemento, un attributo o un iden- P = (P M + P G ∗ M G + P C ∗ M C)/N P tificatore in un documento XML. È formato da un nome locale a cui è affibbiato un prefisso, corrispondente al suo namespace. Dove Page 4 of 11
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica • PM = numero di problematiche con gravità – Id identificativo del traduttore automatico “marginale”; preso in esame (GT per Google Traduttore e • PG = numero di problematiche con gravità DL per Deepl); “grave”; – Sezione estratta dal testo in cui si è verificata • PC = numero di problematiche con gravità la problematica; “critica”; – Tipologia di problematica secondo la lista • MG = moltiplicatore delle problematiche “gravi”; indicata in precedenza; • MC = moltiplicatore delle problematiche “criti- – Valore numerico del livello di gravità. che”; • Per righe le singole problematiche. • WC = numero di parole del contenuto. Notiamo innanzitutto che nella nostra analisi il peso Infine, è possibile calcolare la qualità finale del delle problematiche è considerato sempre di default contenuto (TQ) con la formula 1.0, così che abbiano tutte la stessa importanza nel calcolo finale. Inoltre, la penalità per il testo di parten- T Q = 100 − T P + SP za SP ha valore 0, in quanto il testo originale su cui abbiamo lavorato non presentava alcuna problematica. Dove Una seconda nota indicativa riguarda la finalità della • TP (Target content penalties) = penalità per il traduzione, il suo skopos (Vermeer e Reiß, 1984). Se- testo di arrivo; condo la definizione summenzionata di MQM si nota • SP (source content penalteis) = penalità per il subito che quest’unità di misura è legata all”’uso” che testo di partenza. si farà del prodotto finale. Nel nostro caso, quest’uso può essere identificato con la completa comprensione, Come già menzionato in precedenza, ogni problema- da parte di un pubblico più o meno identificato, del tica ha, di default, un peso uguale a 1.0. Tale valore testo in ogni sua parte. Una mancata comprensione può essere però modificato a seconda delle necessità potrebbe nascere da situazioni diverse: prima di tutto, dell’utente, così che, ad esempio, un determinato tipo potrebbe essere causata da un’errata o mancata tra- di errore possa avere un peso maggiore nel calcolo del duzione della terminologia. A queste problematiche punteggio della qualità del prodotto. è stata assegnata gravità di valore 10 o 100, seppur Si fa notare che la presenza delle penalità relative al facilmente risolvibili aggiungendo o modificando il testo di partenza nel calcolo della qualità del conte- glossario dei traduttori automatici. nuto finale implica che, qualora il testo sorgente sia a Una seconda causa di mancata comprensione del testo disposizione del traduttore, è sua ulteriore responsabi- potrebbe essere invece un errore ‘grossolano’, e con lità andare a risolvere eventuali problemi nati da un questo termine definiamo di visibilità elevata, ma la cui testo difettoso. Nel caso il testo di partenza non fosse risoluzione è impossibile senza avere il testo originale disponibile, la sua penalità è di default calcolata come a propria disposizione (questi errori rientrano molto 0, così da non influire sul punteggio finale. spesso nella categoria mistranslation di elevata lette- ralità della traduzione, con una gravità ovviamente di 100). 2 Utilizzo pratico dello standard Una terza causa potrebbe essere la mancata aderen- za alle aspettative del pubblico, per cui si lascia per MQM implicito un’informazione che deve invece essere espli- cata perché si possa comprendere un passaggio. Per 2.1 Definizioni necessarie prima dell’u- evidenziare problemi di questo tipo, è necessario pri- tilizzo ma di tutto identificare le caratteristiche del teorico pubblico di arrivo. In linea puramente astratta, quin- Nel presente lavoro lo standard di valutazione MQM è di, definiremo il lettore medio della nostra traduzione stato principalmente utilizzato per valutare i risultati come: ottenuti dai traduttori automatici Google Traduttore e DeepL sul testo da noi preso in esame. In particolare, il • un madrelingua italiano; segmento tradotto è stato una selezione dal libro inte- • senza un alto livello di conoscenza della lingua ro, ovvero il capitolo Introduzione intero accompagnato inglese; da una sezione esemplificativa di ognuno dei capitoli • senza un alto livello di conoscenza della cultura dedicati ai quattro archetipi principali. In totale, quin- di partenza (nel nostro caso quella statunitense); di, il testo tradotto è definito da cinque capitoli diversi: • senza un alto livello di conoscenza dell’ambito di Introduzione, King, Warrior, Magician e Lover. studio del testo né della relativa tipologia testuale. La valutazione delle problematiche è stata effettuata attraverso la creazione di tabelle SQL strutturate nel Il primo punto è risolvibile accertandosi che il testo seguente modo: utilizzi un linguaggio coerente a quello che verrebbe utilizzato se fosse un testo originale in lingua italiana, • Per colonne: anche se, come abbiamo notato in precedenza, molto Page 5 of 11
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica spesso in caso di generi testuali senza una forte tradi- Altre problematiche potrebbero riferirsi anche al zione nella lingua/cultura d’arrivo, si potrebbe tendere carattere utilizzato, alla struttura del testo o alla sua allo straniamento anche del linguaggio utilizzato (o formattazione, fatto eventualmente riguardante non della strutturazione del testo). I tre punti rimanen- solo il testo cartaceo, ma anche quello digitale, spesso ti possono essere risolti in diversi modi, ad esempio, segnato da limitazioni di diverso tipo (come potrebbe attraverso il mantenimento dell’espressione originale essere, ad esempio, il peso del file). con l’eventuale aggiunta di una nota (a piè pagina o Nel secondo gruppo rientravano invece problematiche inclusa nel testo, segnalata o meno), oppure attraverso, più difficili da risolvere, riguardanti il punto di vista del laddova sia possibile, di tecniche di addomesticamen- testo. Queste problematiche nascono, sostanzialmente, to. Queste risoluzioni, in ogni caso, sono risolvibili, dalle diverse sfumature di significato che possono non in ambito lavorativo, solo da un chiarimento da parte esistere tra le lingue (ad esempio nell’assegnazione del cliente. Ovviamente, laddove il traduttore fosse del genere proprio della lingua italiana) oppure dai libero di agire liberamente, è egli stesso a decidere cambiamenti culturali avvenuti tra la pubblicazione come risolvere la cosa. del libro e la sua traduzione (come già menzionato, Abbiamo inoltre menzionato a più riprese la necessità il testo è stato pubblicato nel 1991, quasi vent’anni di chiarire con il cliente, in fase di pre-trasferimento, prima della traduzione da noi effettuata). come risolvere determinati punti critici nel testo. Que- sto chiarimento diventa assolutamente necessario nel momento di definizione di cosa dev’essere calcolata Problematica Soluzione come problematica e di quanto questo influisca sulle Traduzione di ‘femi- Piuttosto che tradurre con aspettative del prodotto finale, e per questo sarà neces- nists’ ‘femministe’, si è preferi- sario in questa sezione discuterne. to la personalizzazione del Abbiamo già definito questi punti critici risolvibili solo movimento, che non solo attraverso una disambiguazione da parte del cliente è una tecnica molto utiliz- come suddivisibili in due aree principali: zata nella lingua italiana, ma che permette di mette- • Problematiche tecniche; re completamente da parte • Problematiche etiche. il genere della parola. Traduzione di ‘gen- Abbiamo preferito il termi- Nel primo gruppo rientravano le seguenti questioni, der confusion’ ne ‘confusione dell’identi- che indicheremo assieme alla soluzione che abbiamo tà di genere’, che rimanda deciso di utilizzare (tenendo ben presente che non vuo- a tutta una teoria assente le essere una soluzione oggettiva, ma semplicemente nel testo di partenza per ciò che è stato scelto in questa sede): questioni cronologiche. Presenza di termini Mantenuti in italiano Problematica Soluzione generalmente consi- Riferimenti a fatti Mantenimento della forma derati ‘di cattivo gu- e concetti poco o originale con aggiunta di sto’ (come parolac- per nulla noti dal note a piè pagina ce) pubblico d’arrivo, o persino assenti nella Tabella 2: Risoluzione di problematiche di tipo etico cultura d’arrivo Riferimento al letto- Tradotto con forme imper- Queste questioni sono state prese in considerazione re sonali più formali nell’utilizzo dei software di traduzione automatica, e, Utilizzo di termini Scelta la forma italiana per definizione, problematiche legate a questi ambi- in lingua inglese lad- ti sono state tutte considerate con una gravità molto dove l’italiano può bassa (in generale, 0), proprio perché non intaccano scegliere tra questi la comprensione del testo, ma sono ‘preferenze’ della e la forma italiana cultura d’arrivo o del traduttore/cliente. Utilizzo del tratti- Mantenuto anche in italia- Sono state invece considerate problematiche con valo- no per segnalare le no re 1 quelle problematiche che intaccavano la lettura incidentali senza però complicare la comprensione del testo. Que- Traslitterazioni dei Utilizzo della traslitterazio- ste problematiche sono facilmente visibili e risolvibili nomi russi ne scientifica piuttosto che dal lettore anche senza un’elevata conoscenza della quella anglosassone lingua inglese o della disciplina. Queste problematiche Segnalazione di ter- Utilizzo del corsivo sono quelle espressioni, ben note agli studenti di lingua mini tecnici straniera, che ‘funzionano, ma non suonano bene’. Ne sono un esempio l’aggiunta di una d eufonica laddove Tabella 1: Risoluzione di problematiche di tipo tecnico l’italiano non ne sente il bisogno (ad un altro); l’uti- Page 6 of 11
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica lizzo di un apostrofo al posto dell’accento (E’ sempre di intere espressioni in lingua inglese (“Forward, al- sveglio); mantenimento di un termine di lingua inglese ways forward, always forward”); traduzione di nomi laddove in italiano si può utilizzare sia questo che il che non vengono tradotti in italiano (permettendo a termine italiano (leadership); utilizzo di una translit- Saulo...); mancata traduzione o traduzione errata di terazione non scientifica (Mikhail Gorbaciov); utilizzo convenzioni del locale d’arrivo (a.c.e per A.C.10 ); tra- di un articolo dal genere errato (il jihad9 ); mancanza duzione di sezioni che dovevano rimanere in lingua della lettera maiuscola (cristianesimo); mancanza di inglese (pronunciato “impasto, traduzione che non fun- spazi (ea riscrivere) e simili. ziona perché il termine inglese dough ha ovviamente Valore 10 è stato assegnato a quelle problematiche che una pronuncia completamente diversa dalla proposta rendevano il testo difficile da leggere, senza però ren- italiana, oppure quello che il samurai chiamava fare, derlo completamente incomprensibile. Problematiche dove il termine tradotto con fare era do, che, nono- di questo tipo possono spesso essere risolte, seppur stante l’omografia con il verbo inglese, è un termine con un certo lavoro da parte del lettore. Ne sono un in lingua giapponese non segnalato); traduzione con esempio titoli di libri, di film o di canzoni lasciati in una parte del discorso che fa perdere il significato al- lingua originale (The Territorial Imperative, Onward l’espressione (per poi ridiscendere - o decadimento). Christian Soldiers); utilizzo di termini che, pur mante- Definite le problematiche secondo lo schema summen- nendo il significato originale, non vengono utilizzati in zionato, è possibile proseguire con l’analisi dei dati italiano in quella specifica espressione (e quindi “salta” raccolti sui due traduttori automatici Google Translate in battaglia, a cercare i punti non custoditi); espressioni e Deepl. letterali dall’inglese (Dice poco, Il sollevarsi dell’op- presso); traduzione di sinonimi con lo stesso termine, 2.2 Analisi dei dati che porta a ripetizioni (votare e votare); utilizzo di una preposizione sbagliata (stimola l’uomo (...) per Riprendiamo le formule proposte da dalla documen- compiere); traduzione dello stesso termine inglese con tazione MQM per il calcolo della penalità del testo di termini diversi, laddove è utilizzato per motivi stilistici arrivo: (e l’esitazione(può portare)all’inerzia. L’inazione...); il mancato utilizzo dell’aggettivo o avverbio ‘proprio’ P = (P M + P G ∗ M G + P C ∗ M C)/W C (1) (porta ad un’intensa esperienza della sua vita), e simili. Infine, il valore 100 è stato assegnato a problemati- e: che che rendevano impossibile la comprensione del T Q = 100 − T P + SP testo da parte del lettore, impossibili da risolvere sen- Ricordiamo inoltre che, per motivi di semplificazione, za la consultazione del testo originale e un certo livello nel nostro caso la penalità per il testo originale (SP) di conoscenza della lingua inglese. Rientrano in que- avrà valore 0, motivo per cui possiamo semplificare la sta categoria quindi, non solo passaggi che perdevano seconda formula in: completamente significato, ma anche passaggi che as- sumevano significati assolutamente diversi da quello T Q = 100 − T P (2) originale, fenomeno ancora più subdolo per il lettore, che non si accorgerebbe nemmeno della presenza di La prima questione sarà dunque calcolare il word-count un problema. Sono esempi di problematiche di que- del testo tradotto. Nel caso l’utente usi un editor di sto tipo traduzioni letterali di espressioni inglesi che testo come Word o OpenOfficeWriter, il conteggio delle rappresentano, come vedremo, la maggior parte del- parole sarà effettuato in automatico dal software, nel le problematiche riscontrate in corso d’opera (soldati caso invece si usi (come nel nostro caso) LATEX, l’utente della fortuna per soldiers of fortune, shock da conchi- avrà diverse opzioni a sua disposizione per effettuare glia per shell-shock, i tessuti sporchi per soiled tissues); il conteggio: il mantenimento di forme inglesi non utilizzate in ita- • Utilizzo di un pacchetto come può essere liano (Tyrant); l’affibiazione di aggettivi al sostantivo TexCount; sbagliato (La storia della moglie del militare solitario • Utilizzo di uno strumento online, come ad e rifiutato, laddove il testo originale definiva solitaria esempio quello disponibile su wordcounter.io o e rifiutata la moglie); inconsistenze nella traduzione wordcounter.net; (..dei GI americani in Vietnam (...) in cui diversi IG ...); • Utilizzo di un codice JavaScript inserito in Adobe disambiguazione errata di un termine con più traduzio- Reader. ni in lingua italiana (il termine minister, ad esempio, 10 Interessante notare come la forma inglese b.c.e. sia probabil- veniva sempre tradotto con ministro e mai con sacer- mente l’espressione he ha ricevuto più variabili di traduzioni (errate) dote, facendo pensare al ministro come figura politica tra i due traduttori automatici. Per citarne alcune: a.c.e.; a.c.e.e.; piuttosto che come figura religiosa); mantenimento a.e.; bce; etc. Nel calcolo delle problematiche, ovviamente, non tutte queste varianti hanno avuto lo stesso valore: bce, pur essendo 9 Bisogna notare che, in questo caso, almeno, la scelta del genere errata nell’uso italiano, è risolvibile dall’utente, seppur con un certo della parola è arbitraria. Se il termine, infatti, è di genere maschile lavoro, e quindi vale come valore 10; a.c.e.e., d’altro canto, seppur in lingua araba, in italiano esso viene utilizzato molto più spesso al risolvibile ‘logicamente’ quando si ritrova vicino una data, non è così femminile. semplice da comprendere per il lettore. Page 7 of 11
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica Nel nostro caso, il conteggio delle parole riscontrato nel Traduttore Numero er- Media della testo originale e nelle traduzioni (effettuato, nel nostro rori gravità caso, attraverso uno strumento online) è mostrato nella GT 589 59 tabella seguente: DL 513 62 Sezione Testo ori- Google Deepl Tabella 6: Errori totali e media della gravità ginale Tradutto- re Se è vero che ancora una volta il traduttore DeepL pare avere la meglio con un numero di errori inferiore a Totale 16267 15695 15764 quelli riscontrati nella traduzione di Google Traduttore, Introduzione 1612 1564 1548 è anche vero che la media ci dimostra che, in generale, Il Re 3833 3727 3720 questi errori hanno un peso maggiore sulla lettura del Il Guerriero 4910 4820 4849 testo. Ma è anche vero che tale media superiore è Il Mago 3738 3561 3599 dovuta al numero minore di errori piuttosto che al L’Amante 2174 2023 2048 valore stesso degli errori, infatti gli errori riscontrati sono stati catalogati nella maniera seguente: Tabella 3: Conteggio delle parole del testo originale e della sua traduzione. Traduttore Gravità Conteggio GT 100 333 Nelle tabelle mostrate di seguito è possibile invece 10 158 vedere il totale delle penalità, calcolate attraverso la 1 85 formula 1, della sezione di testo tradotta e del singoli 0 13 capitoli, insieme al livello di qualità calcolato attraverso DL 100 305 la formula 2. 10 123 1 72 Sezione Google Tra- Deepl 0 13 duttore Totale 2,23 2,01 Tabella 7: Conteggio degli errori per gravità. Introduzione 1,85 1,02 In generale, si può dire che si sono riscontrati più Il Re 1,58 1,97 errori nella traduzione di Google Traduttore rispetto Il Guerriero 2,43 2,06 a quella di DeepL. Questa differenza si nota, in parti- Il Mago 2,42 2,33 colare, per gli errori di gravità 100. In entrambi i casi, L’Amante 2,90 2,19 infatti, si tratta degli errori riscontrati con maggiore frequenza (più del doppio degli errori gravi per ambo Tabella 4: Conteggio delle penalità. i traduttori). Nella figura 1 sono mostrate le tipologie di errori ri- scontrati tra i due traduttori, sulle quali è il caso di soffermarci per fare alcune osservazioni. Prima di tut- Sezione Google Tra- Deepl to, si nota che alcune delle problematiche presenti nel duttore nucleo MQM sono totalmente assenti dal testo tradot- Totale 97,77 97,99 to. In generale, questo avviene poiché la preparazione Introduzione 98,15 98,98 del testo è avvenuta sotto lo sguardo di un traduttore Il Re 98,42 98,03 umano: per questo motivo, problematiche come quelle Il Guerriero 97,57 97,94 di design, internazionalizzazione e completezza non po- Il Mago 97,58 97,67 tevano apparire. La terza problematica a non apparire L’Amante 97,10 97,81 è legal-requirements che, vista la tipologia testuale e l’assenza, almeno nelle sezioni tradotte, di specifiche Tabella 5: Conteggio della qualità del testo. legali, è necessariamente assente dalla nostra analisi. Se queste sono le problematiche completamente assen- ti, è anche interessante invece notare le problematiche Notiamo che, in generale, il software di traduzione che si sono presentate con maggior frequenza nel no- DeepL ha ottenuto un punteggio di qualità maggiore stro lavoro. Uno sguardo ci basta a osservare che la rispetto al software di Google Traduttore, ottenendo tipologia mistranslation è quella maggiormente presen- un punteggio peggiore solo nel secondo capitolo. Ma te (tra i due traduttori si contano 513 problematiche quest’affermazione è troppo riduttiva per definire la di questo tipo, circa il 46% del totale, seguita da fluen- qualità del lavoro dei due traduttori, e per accorgercene cy (155 problematiche, circa il 14% del totale) e da basta andare a calcolare il gli errori totali riscontrati e grammar (123 problematiche di questo tipo, che am- la media della loro gravità montano all’11% del totale). Page 8 of 11
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica Figura 1: Tipologia degli errori tra Google Traduttore e DeepL Ci soffermeremo quindi in particolare su queste tre • Conversione di unità di misura (unit-conversion): tipologie nei paragrafi che seguono. il testo tradotto non presenta le conversioni ne- cessarie delle unità di misura che invece ci si Mistranslation aspetterebbe. Ricordiamo che l’analisi attraverso MQM può avere di- Possiamo dire che, in generale, la tipologia di mistran- verse tipologie di profondità, a seconda delle necessità slation maggiormente presente nelle nostre analisi è del lavoro in corso. Nel nostro caso, ad esempio, è overly-literal. È indubbio che il traduttore automatico, possibile andare più in profondità per quanto riguarda essendo una macchina, non ha la possibilità (ancora, gli errori di tipo mistranslation, visto il peso che hanno perlomeno) di intendere in quale situazione un ter- avuto nella valutazione finale. mine viene utilizzato con un suo significato traslato e Un livello di profondità diverso indica, in sostanza, tenderà, generalmente, a tradurlo con il suo significato l’aggiunta di problematiche figlie, nel nostro caso: diretto. Questo è vero per molte parole lessicali, come • Traduzione ambigue (ambigous-translation): la ad esempio: traduzione introduce un’ambiguità assente nel testo originale; • Draw his sword : disegna la sua spada invece di • Data/orario (date-time): non c’è concordanza tra estrae la sua spada; le date o gli orari del testo originale e quelle del • The planes : gli aereoplani, laddove il testo faceva testo di arrivo; invece riferimento ai piani della realtà; • Entità, ovvero nomi propri o luoghi (entity): no- • Indiana Jones is racing the Nazis : sta correndo i mi propri o di luoghi non combaciano tra testo nazisti; originale e testo tradotto; • is going : è partita invece di è azionata; • False friend (false-friend): nella traduzione appare • the witch burnings : bruciature delle streghe, erroneamente una parola solo superficialmente invece di roghi; simile alla parola utilizzata nel testo originale; • “straight” professions : professioni “dirette”, • Traduzione errata di relazioni tecniche (technical- invece di professioni “normali”; relationship): la traduzione, pur apparendo cor- • blues, oranges, whites, reds, and maroons : blu, retta dal punto di vista grammaticale, descrive arance, bianchi, rossi, in cui il traduttore non è una relazione tra oggetti che è errata nell’ambito riuscito ad evincere dal contesto che, nonostante spacialistico di cui si sta trattando; il plurale, si trattava di un colore e non del frutto; • Numeri (number): i numeri non sono costanti tra • body locks : serrature del corpo, invece di prese; testo originale e traduzione; • interview : intervista, invece di colloquio. • Troppo letterale (overly-literal): il testo è stato Così come per alcune intere espressioni idiomatiche, tradotto in maniera molto letterale; che vanno a perdere completamente il loro significato: • Non dovrebbe essere stato tradotto (no-translate): sezioni che sarebbero dovute rimanere in lingua • Save the day : salva la giornata, invece di risolve originale sono state tradotte; la situazione; Page 9 of 11
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica • in terms little short of libidinous : in termini po- In generale, questo tipo di problematiche raramente co brevi di libido, invece di termini a dir poco ha raggiunto una gravità 100 (42 esempi su un totale libidinosi; di 155), e in generale definiva sezioni di testo che • the story goes : così va la storia, e non come vuole potevano ‘suonare male’ nella lettura del testo, ma la leggenda; senza intaccarne completamente la comprensione. • soldiers of fortune : soldati della fortuna, e non mercanari; Grammar • treading the water : calpestare l’acqua, invece di Le problematiche riscontrate in questa categoria pos- tentare di restare a galla; sono essere riportate a tre sottotipologie differenti, • broke new ground : ha rotto un nuovo terreno, classificabili nelle tre sottotipologie: invece di aprire nuove strade. • function-words (ovvero uso incorretto, aggiun- e per alcuni false friend come: ta o omissione nella traduzione di una parola • Feast: festa; funzionale); • Minister: ministro, invece di sacerdote (seppur • word-form (ovvero un problema con la forma l’utilizzo del termine ‘ ministro’ per indicare un grammaticale di una parola); uomo di Chiesa sia utilizzabile nella lingua ita- • word-order (ovvero relativo all’ordine delle liana, esso è spesso accompagnato da ‘di Chiesa’, parole). e il suo utilizzo senza specificazioni riporta, più Problemi relativi alle parole funzionali sono stati ad comunemente, alla sua valenza politica). esempio: Ma se questi errori possono essere comprensibili, in • (...) exploits and abuses others : sfrutta e abusa parte soprattutto perché appaiono anche nelle prime degli altri; fasi di apprendimento di una lingua straniera, non • (...) starved for King energy : affamato per è stato sempre possibile individuare chiaramente la l’energia del Re; causa di una traduzione errata: • It is to him that people go (...) : È a lui che le persone vanno. • Canaanite god Baal’s love : l’amore del dio canadese, invece di cananeo; In generale, possiamo dire che in questa sottocategoria • Christ child : il figlio di Cristo; rientrano la maggior parte delle problematiche di tipo • The weak father : il debole del padre; grammaticale. • show the sad fact : mostrano il dispiacere; Un discorso a parte andrebbe fatto per la traduzione • ne’er-do-well dissidents : dissidenti benestanti. dei possessivi, che, anche nel caso di identità soggetto e possessore dell’oggetto, non sono stati praticamente Alcuni di questi errori possono essere riportati ai già mai tradotti con l’aggettivo proprio. menzionati problemi relativi alla risoluzione, da parte Per quanto riguarda la forma grammaticale delle parole dei software ad architettura NMT, di problematiche invece: relative alla traduzione di termini nuovi o rari. • Not only does the fencer train his body, (...) : Non solo lo schermidore addestrano il suo corpo; Fluency • It was the magicians (...) who created civilization Le problematiche di questo tipo sono le seconde per (...) : Furono i maghi (...) che creò la civiltà; frequenza. In questo caso, il nucleo MQM offriva già • and touches the Ark to steady it.: e tocca l’Arca delle problematiche più specifiche riguardo la fruibilità per fermarlo. del testo, ma nella nostra analisi la problematica ge- In questa categoria sono inoltre rientrati tutti gli errori nitore ha riscontrato una frequenza molto più elevata relativi all’aspetto verbale: di quelle figlie. Questa tipologia, come viene descritto dalla documentazione ufficiale MQM, è relativa alle • Native American men lived and died with the War- problematiche possono essere identificate anche senza rior energy informing even the smallest of their effettuare comparazioni tra il testo originale e il testo acts (...) : i nativi americani vissero e morirono tradotto, essendo indipendenti dallo status di traduzio- con l’energia del Guerriero informando anche i ne del testo analizzato. più piccoli dei loro atti; Molte di queste problematiche riguardavano la scelta di • And it also proclaimed that there was only one termini che creavano un certo rumore nella traduzione, direction : E ha anche proclamato che c’era una come ad esempio: sola direzione(...). • praticare la sopravvivenza; Alcuni problemi, ovviamente, sono qui derivati dalla • con una mano di ferro; presenza nella lingua italiana di forme grammaticali • un nemico travolgente; assenti invece nella lingua inglese, come le marcature • impartiva loro segreti. di genere. Altri problemi sono invece sorti in situazioni Page 10 of 11
Il Multidimensional Quality Metrics nell’analisi qualitativa della traduzione automatica difficilmente spiegabili, come soggetti plurali accom- pagnati da verbi al singolare (anche se, in alcuni ca- si, questo è stato causato dalla distanza che c’era tra soggetto e verbo, come possiamo vedere nel secondo esempio tra quelli sopra citati). Infine, problematiche grammaticali sono comparse in relazione all’ordine delle parole nella traduzione: • per miracolosamente trasformare; • un gentile zio. In ogni caso, a prescindere dalla gravità di queste problematiche, si sono rivelate, insieme a quelle del- la tipologia più generale fluency, le più semplici da individuare. Conclusioni Lo standard MQM si è rivelato uno degli strumenti più utili nel corso del lavoro svolto, in particolare per le possibilità che offre nei confronti di un eventuale post-editing successivo, per il quale permette di avere una classificazione e categorizzazione degli errori di enorme valore. Nel mondo attuale, in cui i dati e la loro analisi sono diventati essenziali per qualunque professione, un’analisi di questo tipo, standardizzata e riutilizzabile, è di valore innegabile. Bibliografia Arle, Lommel et al. (2015). Multidimensional Quality Metrics (MQM) Issue Types. url: {http://www.qt21. eu/mqm-definition/issues-list-2015-12-30. html}. {Consultato il 11/11/2018}. Bray, Tim et al. (2009). Namespaces in XML 1.0 (Third Edition). url: {https : / / www . w3 . org / TR / REC - xml- names/#URIRef}. {Consultato il 07/11/ 2018}. Harris, Kim et al. (2015). Multidimensional Quality Metrics (MQM) Definition. A cura di Arle Lommel (DFKI), Aljoscha Burchardt (DFKI), Hans Uszko- reit (DFKI). url: {http : / / www . qt21 . eu / mqm - definition / definition - 2015 - 12 - 30 . html } . {Consultato il 23/10/2018}. Vermeer, Hans Josef e Katharina Reiß (1984). Grund- legung einer allgemeinen Translationstheorie. A cura di Tübingen, Niemeye. Page 11 of 11
Puoi anche leggere