Utilizzo della risorsa Treebank per il tuning di un sistema di traduzione

Pagina creata da Simone Mariani
 
CONTINUA A LEGGERE
Utilizzo della risorsa Treebank per il tuning di un
                     sistema di traduzione

                             Francesca Fanciulli, Remo Raffaelli

                                    Synthema s.r.l.
                               Lungarno Mediceo, 40
                                 56100 Pisa - Italia
                       {fanciulli, raffaelli}@synthema.it
                            http://www.synthema.it

       Abstract. Le attività qui descritte esemplificano uno dei possibili usi di una
       Treebank. Le notazioni sintattiche e semantiche contenute nella risorsa
       Treebank sono state utilizzate per realizzare il tuning di un sistema di
       traduzione già esistente, nella versione italiano-inglese. Il lavoro si è articolato
       in una prima fase di estrazione delle informazioni dalla risorsa, in una di analisi
       e trasformazione di tali informazioni estratte, ed in una fase conclusiva di
       verifica e valutazione dello stato finale del sistema di traduzione.

1    Introduzione

La valutazione della risorsa Treebank, nei suoi diversi livelli di annotazione, è stata
condotta utilizzando PeTra® per Word 2.0: il sistema applicativo di traduzione
automatica sviluppato da Synthema. Verranno forniti: una descrizione del sistema di
traduzione, gli interventi realizzati con le informazioni prelevate dalla TreeBank, le
modalità della valutazione e l'analisi dei risultati ottenuti.

2    Descrizione del sistema di traduzione

Il sistema di traduzione automatica realizzato da Synthema (PeTra® per Word 2.0) è
un'applicazione basata sul formalismo delle Slot Grammar, definito da Michael
McCord (IBM T. J. Watson Research Center). E' un prodotto completo e funzionante,
utilizzato con buoni risultati nella traduzione automatica in ambiente Windows.
   Il sistema include:
• un componente di analisi per la lingua Italiana
• un dizionario bilingue, con opportune funzionalità di disambiguazione lessicale
   ('transfer' lessicale);
• un componente per il 'transfer' ('transfer' sintattico), con relativa grammatica
                         Æ
   contrastiva Italiano Inglese;
• un componente di generazione morfologica per la lingua inglese.
Analisi. L'Analizzatore morfologico si occupa di individuare i possibili Lemmi da cui
derivano le forme flesse presenti nel testo sorgente.
   Siamo partiti da un dizionario composto da più di 20.000 lemmi, con informazioni
relative alla POS ('Part Of Speech') e alle caratteristiche sintattiche in termini di Slot.
Questi corrispondono ad argomenti logico-funzionali delle parole ed hanno anche una
natura morfosintattica: le regole di analisi specificano le condizioni di riempimento
degli Slot consentendo la costruzione di un albero per la rappresentazione della frase.
Il parser procede tentando di applicare le regole di analisi; con esse costruisce i
legami funzionali fra due elementi, dei quali uno va a riempire uno Slot dell'altro
diventandone un modificatore; itera, poi, il procedimento applicando le regole alle
teste dei sottoalberi creati, fino alla costruzione di un albero che rappresenti l'intera
frase.
Dizionario bilingue. Questo dizionario contiene la traduzione dei termini, talvolta
ricavabile da opportuni test ('transfer' lessicale). La costruzione dell’albero consente
la scelta di una sola POS per ogni termine, mentre i legami funzionali consentono la
disambiguazione sulla base delle condizioni specificate in termini di Slot: la
traduzione di un verbo, ad esempio, può dipendere dal termine che ne “riempie”
l’oggetto.
Transfer sintattico. La generazione di una frase inglese corretta richiede spesso
trasformazioni strutturali. Le regole di 'transfer' gestiscono la corrispondenza delle
diverse strutture. Queste trasformazioni sono sia di natura generale (ad esempio,
soggetto espresso in inglese e soggetto sottinteso in italiano) che legate a particolari
costruzioni di specifici lemmi.
   Per esempio, l'albero di "Gli piacciono questi libri" è:
  Syntactic analysis no.1
  -------------------------------------------------------------
  +--- iobj egli    noun(pron(pers),[pers3,m,sg,dat|pre])
  o--- top piacere verb(fin([pers3|pl],pres,ind)
  | +- ndet questo det([m,pl|X4],demo)
  +-| subj libro1 noun(cn,[m|pl],X3)
  -------------------------------------------------------
ma, saltando i passaggi intermedi, diventerà:
  Restructured tree.
  -------------------------------------------------------
  +--- subj he       noun(pron(pers),nom,pers3-sg-m)
  o--- top like      verb(ind:top,fin(pers3-sg-m,pres))
  | +- ndet this     det(nom,pers3-pl-m,X3)
  +-| obj book       noun(cn,acc,pers3-pl-m,X3)
  -------------------------------------------------------
  He likes these books.
3     Realizzazione delle modifiche al sistema di traduzione

3.1   Miglioramento della copertura

La prima fase del raffinamento del sistema di traduzione si è focalizzata sul
miglioramento della copertura, secondo tre linee principali:
a. Inserimento delle parole sconosciute, realizzato a livello di dizionario
   All'interno dei file in input alla Treebank, sono state reperite le informazioni
   relative alla POS, alle caratteristiche morfologiche e sintattiche indispensabili
   all'utilizzo della parola da parte del sistema.
b. Analisi delle espressioni polilessicali provenienti dall'annotazione morfologica
   Questa attività ha richiesto una particolare fase di analisi dei termini stessi: deve
   essere evitato il rischio di bloccare il riconoscimento di una sequenza di parole se
   questa viene utilizzata in contesti diversi da quello dell'espressione polilessicale.
c. Analisi delle espressioni polilessicali provenienti dall'annotazione semantica
   Sono state individuate le forme aventi rilevanza ai fini della traduzione e quindi
   formalizzate all'interno del sistema, sempre seguendo i criteri descritti al punto
   precedente.

3.2   Miglioramento dell'analisi

Per questa attività, che ha coinvolto numerosi componenti del sistema, è stato
utilizzato sia ValTas, l'interfaccia grafica di consultazione della Treebank, sia le
equivalenti informazioni rese disponibili in modo testuale.
   La nostra grammatica per la definizione dei legami sintattici si articola in due parti
logiche distinte:
− una, codificata all'interno del dizionario nella parte di analisi relativa alla sintassi,
   che definisce le proprietà che caratterizzano i termini e le loro capacità di
   aggregarsi con altri componenti della frase;
− una, definita in un file opportuno in Prolog, che realizza la composizione degli
   elementi per la ricostruzione dell'albero sintattico di copertura.
   Le informazioni presenti nella Treebank sono state reperite secondo lo schema:
1. analisi degli alberi sintattici di copertura, a partire da una traduzione scorretta
2. individuazione della corrispondente annotazione all'interno della Treebank
3. estrazione di tutte le strutture analoghe
4. analisi delle informazioni recuperate e inserimento, dove opportuno, di nuove
   informazioni all'interno della grammatica.
   Tali attività sono state svolte sia singolarmente sui tre livelli di annotazione
(funzionale, a costituenti, semantico), sia utilizzando la combinazione dei due livelli
sintattici o dell'annotazione semantica con quella funzionale.
   Occorre precisare che per la realizzazione del punto 3. sono stati elaborati alcuni
programmi in grado di accedere alla trascrizione testuale delle annotazioni. Questa
modalità di accesso alle informazioni della Treebank è molto simile, a livello logico,
alla modalità con cui sarà possibile accedere alla versione finale della Treebank
stessa, quando questa sarà disponibile in formato XML e quindi interrogabile con
opportuni linguaggi.
    In seguito, le interrogazioni realizzate sull'annotazione funzionale (la più ricca di
informazioni nella versione della trascrizione testuale) verranno descritte specificando
solo i campi significativi ai fini dell'interrogazione.
    Per quanto riguarda le attività di modifica relative alla grammatica di PeTra, verrà
illustrato il tipo di informazione inserito e se ne indicherà la finalità. In questa attività,
anche la modifica più piccola comporta una serie di operazioni che non verranno
descritte ad ogni passo, ma che sono indispensabili per non introdurre rumore sul
lavoro già realizzato. Il formalismo della grammatica, infatti, si basa sull'applicazione
di proprietà comuni a categorie di termini, richieste dalla modalità di funzionamento
del nostro sistema linguistico e identificate per rispondere a specifiche esigenze della
traduzione; non sempre tali categorie si ritrovano nella grammatica descrittiva
tradizionale. Questo significa che la minima modifica alle informazioni introdotte può
causare effetti collaterali a catena, per scongiurare i quali occorre realizzare numerose
verifiche sia su frasi contenenti la tipologia su cui si sta lavorando, sia su frasi simili
per le quali valgono regole diverse. La verifica conclusiva viene realizzata su porzioni
di testo generico. Solo a questo punto è possibile passare alla fase successiva. Si può
quindi dedurre la mole di lavoro che anche la modifica più banale comporta.
    Siamo intervenuti: sulla parte di analisi del dizionario, sulla grammatica e sul
transfer.

3.2.1    Modifiche al dizionario

Modifiche al dizionario derivanti dall'annotazione sintattica
Reggenze: Una delle maggiori difficoltà in un sistema di traduzione è l'individuazione
delle corrette dipendenze di gruppi nominali introdotti da preposizione, dipendenti sia
da verbi (complementi indiretti) che da sostantivi. L'esplicitazione delle reggenze
aiuta ad individuare la corretta dipendenza discriminando sia tra sostantivi e verbi
(senza di esse vengono privilegiati i verbi) che tra verbi e verbi. Abbiamo quindi
individuato nella Treebank le reggenze presenti, espresse sotto forma di introduttori,
ed inserito nel nostro sistema quelle mancanti. Questa informazione risulta
particolarmente importante in quanto compare difficilmente in dizionari tradizionali.
   Sono state individuate reggenze tipiche come incontro con o simposio su.
Espressioni polilessicali: Il contesto ristretto dei testi selezionati comporta un uso
dell'italiano costellato di espressioni tipiche o termini "specialistici". Il nostro sistema
mal interpretava certe costruzioni o traduceva letteralmente sequenze aventi
traduzioni specifiche. Abbiamo perciò realizzato un programma per l'estrazione delle
terminologie presenti, a partire dalla trascrizione dell'annotazione funzionale.
   In PeTra sono considerate espressioni polilessicali le sequenze di termini che
necessitano di una particolare traduzione o che occorre bloccare per evitare di
interpretare male la costruzione dell'albero. Tali espressioni hanno diverse
caratterizzazioni, ciascuna delle quali richiede un trattamento opportuno:
a. espressioni polilessicali invariabili (es. made in Italy)
b. espressioni polilessicali con sequenza costante, in cui i singoli componenti
   ammettono la flessione (es. bilanci/io provvisori/io)
c. espressioni polilessicali che possono presentarsi con dei modificatori, con il solo
   vincolo delle relazioni sintattiche (es. assestare [velocemente] i conti1)
   Le tre situazioni vengono risolte in maniera diversa:
a. inserendo una entrata specifica nel dizionario
b. aggiungendo al termine reggente una nuova analisi, che scatti qualora il termine sia
   accompagnato dal resto della sequenza
c. disambiguando l'analisi, sulla base del valore dei complementi
   Abbiamo estratto le dipendenze indirette con testa nominale e con testa verbale, e
le dipendenze dirette con testa nominale e con testa verbale.
   Il programma che estrae l'elenco dei complementi indiretti retti da testa nominale o
verbale cerca le annotazioni sintattiche funzionali caratterizzate dai seguenti tratti:
Tipo relazione2:              (Mod | Arg) per i sostantivi
                              (Obl | Mod | Ogg_i) per i verbi
Testa :                       POS: S | V
Dipendente nominale:          POS: S
                              Introduttore: not""
e restituisce la sequenza:
   lemma_testa introduttore lemma_dipendente
   L'elenco ottenuto è stato poi esaminato manualmente: nella scelta ci siamo fatti
guidare soprattutto dalla corrispondente traduzione. Sono state individuate situazioni
come calo delle vendite o apertura del mercato. Per ciascun elemento rimasto è stato
deciso l'intervento più opportuno (secondo quanto descritto ai punti a., b., c.).
   In questo modo:
   per calo delle vendite è stata aggiunta, all'entrata calo, un'analisi per bloccare la
sequenza calo/i delle vendite;
   per apertura del mercato è stata inserita, all'entrata apertura, una specifica
traduzione nel caso in cui il lemma abbia il complemento di specificazione riempito
da mercato (o da una sua flessione)
   Per la dipendenza diretta con testa nominale o verbale è stata realizzata una
interrogazione con i seguenti criteri:
Tipo relazione2:              not(Cong) per i sostantivi
                              (Ogg_d) per i verbi
Testa:                        POS: S | V
                              Sfeat: V*T3 per i verbi
Dipendente nominale:          POS: S
                              Introduttore: ""
   Le coppie di sostantivi e le occorrenze dei complementi diretti sono stati scremati
secondo il senso e la traduzione; il resto è stato inserito nel dizionario secondo i criteri

1 assestarsi si traduce genericamente con to settle in, mentre assestare i conti diventa to balance
   the account
2
  Per le relazioni sono state adottate le abbreviazioni: Mod=modificatore, Arg=argomento,
   Obl=argomento obliquo, Ogg_i=oggetto indiretto, Cong=congiunzione, Ogg_d=oggetto
   diretto. Per ulteriori approfondimenti si rimanda a Pirrelli et al. in questo volume.
3
  V*T: stringhe che iniziano con V, terminano con T, con zero o più caratteri compresi. Questo
   simbolismo evita di dover elencare le sigle VGT, VIRT, …, relative a verbi transitivi.
descritti. Tra gli inserimenti abbiamo: forza lavoro e fine anno, o accogliere gli
accantonamenti e accusare una difficoltà.
Specifiche consultazioni: Oltre alle ricerche sistematiche appena descritte, sono state
realizzate ricerche mirate alle singole costruzioni, tra cui due non previste a priori:
l'impostazione dell'ausiliare in verbi intransitivi, e la molteplicità delle accezioni per
una stessa variante grafica.
    In PeTra sono esplicitati, per i verbi intransitivi, gli ausiliari necessari alla
costruzione dei tempi composti; per alcuni verbi, però, tale informazione non era
corretta. Con un nuovo programma di interrogazione della trascrizione funzionale,
sono stati estratti i verbi aventi il tratto Sfeat relativo ai verbi intransitivi e il tratto
Ausiliare con il valore avere. Abbiamo quindi verificato le informazioni riportate nel
nostro dizionario e apportato gli eventuali aggiustamenti. Questo esame imprevisto
della Treebank ci ha permesso di reperire informazioni importanti: il suo uso si
dimostra quindi versatile e aperto ad analisi inattese.
    Sempre analizzando le frasi tradotte, abbiamo rilevato che per alcuni lemmi
mancavano delle accezioni. Ad esempio, romanzo era presente solo come sostantivo e
non come aggettivo (filologia romanza), e proprio mancava come aggettivo
possessivo. Per quest'ultimo, nella Treebank abbiamo estratto le relazioni Mod con
testa nominale e dipendente caratterizzato da una POS con valore di aggettivo
possessivo e lemma proprio.

Modifiche al dizionario derivanti dall'annotazione semantica
Inserimento dei semantic type disponibili: L'analisi dell'annotazione semantica ha
causato l'inserimento di numerosi semantic type nel dizionario. In PeTra, i semantic
type determinano la corretta traduzione di un termine se in relazione con un altro
appartenente ad una particolare categoria. Ad esempio, versare si può tradurre to
pour, ma se è seguito da un complemento oggetto di tipo money si traduce to deposit
    Il nostro lavoro si è articolato nei seguenti passi:
− individuazione dei termini annotati semanticamente nella Treebank
− individuazione del senso corrispondente all'interno di ItalWordNet
− individuazione del semantic type corrispondente in PeTra
− inserimento del semantic type nel dizionario, nella parte di analisi relativa al
    lemma
− verifica del rispetto della corretta traduzione in relazione ai termini in cui è
    utilizzato.
    Abbiamo inserito il semantic type ad un numero consistente di lemmi e, come ci si
poteva aspettare sulla base del corpus selezionato, quello più utilizzato è stato money.
    Il lavoro effettuato ha portato, oltre all'inserimento dei semantic type già previsti,
all'individuazione di un nuovo senso, il cui utilizzo, a partire dalle informazioni
contenute in ItalWordNet, è stato mediato dalle necessità della traduzione.
    Il nuovo semantic type è in relazione al senso qualità di ItalWordNet, al quale
siamo arrivati utilizzando la catena degli iperonimi di termini come coraggio,
importanza, esperienza, … che in italiano si legano al verbo avere (avere coraggio,
avere importanza, …) ma che in inglese vengono retti dal verbo essere (to be brave,
to be important). Tale semantic type è stato inserito nella gerarchia di PeTra e
associato ai termini elencati; una nuova disambiguazione è stata aggiunta in
corrispondenza dell'entrata avere se seguito da un termine di questa categoria.
C'è da osservare che non tutte le qualità verranno classificate con il nuovo semantic
type: anche in questo caso le informazioni estratte vengono filtrate da criteri di
necessità vincolati alla logica della traduzione. Ne segue che le qualità che non
richiedono il to be non rientreranno in questa nostra categoria.

Modifiche al dizionario derivanti dall'annotazione semantica combinata con la
sintassi
Partendo dall'annotazione semantica sono state individuate tutte le parole aventi più di
un senso, ciascuno con una diversa traduzione dipendente dal significato. Ne sono
state analizzate le annotazione sintattiche con ValTas per l'individuazione di
costruzioni che caratterizzano la parola in relazione al significato. Ad esempio, la
parola articolo quando è modificata da un numerale cardinale individua una parte di
una legge. Le opportune disambiguazioni sono state inserite nel dizionario.

3.2.2    Modifiche alla grammatica.
Gli interventi sulla grammatica sono qui suddivisi in base alla tipologia delle regole
coinvolte. Tali regole, infatti, non sono tutte dello stesso tipo: alcune si occupano di
costruire l'albero di copertura, altre di cancellare l'alternativa di un albero errato, ed
altre ancora di attribuire una probabilità ad una costruzione individuata.

Raffinamento delle regole per la costruzione dell'albero
Interventi piuttosto consistenti sono stati realizzati in relazione ai participi interpretati
come aggettivi. Nell'ottica di un sistema di traduzione automatica la distinzione tra
aggettivi e participi passati omografi diventa rilevante solo quando le due traduzioni
differiscono (es. pulito agg. clean, p.p. cleaned). In PeTra è stata adottata la strategia
di inserire il lemma aggettivale solo per gli omografi aventi diversa traduzione, così
da non duplicare inutilmente gli alberi di analisi. In questi casi, la grammatica
individua l'analisi corretta con opportune regole di cancellazione. Ad esempio, in
combinazione con gli ausiliari viene scelto il lemma verbale: la scelta si realizza
"cancellando" l'alternativa del lemma aggettivale. Con un sostantivo, invece, prima
della modifica, veniva scelto sempre il lemma aggettivale: questo provocava il
mancato aggancio di alcuni tipi di modificatori. In presenza di complementi indiretti
retti da una forma che può essere sia aggettivo che verbo, occorre quindi privilegiare
il verbo tramite regole di cancellazione per l'aggettivo.
    Con altre annotazioni abbiamo individuato le modalità per le quali quanto,
pronome relativo, si lega al participio passato. In questo caso la porzione di frase
contenente il participio passato è annotata come frase participiale (SV3) nei
costituenti, mentre nel funzionale quanto è la testa in una relazione Mod con il
participio come dipendente verbale.
    Utilizzando ValTas abbiamo individuato la presenza di lo come predicato preposto:
tale costruzione è stata aggiunta nella grammatica di PeTra. Per completare questa
modifica sono state inserite delle regole di transfer, come vedremo in seguito.
    In PeTra non era previsto che un sostantivo venisse modificato da un aggettivo
espresso come inciso (tra virgole) seguito da altri complementi indiretti, come in frasi:
          […] dopo il restyling del gruppo, necessario per […,…]
Nel funzionale esiste una relazione Mod tra il sostantivo e l'aggettivo che regge
l'inciso (parte sottolineata, nell'esempio), mentre nei costituenti l'inciso è denotato
come sintagma aggettivale (SA), al cui livello più alto è presente un aggettivo (il
dipendente modificatore della relazione del funzionale), che con il sostantivo a cui si
riferisce forma un sintagma nominale (SN).
   E' stata ampliata la regola che lega un determinatore (articolo, aggettivo
dimostrativo,…) ad un sostantivo, al fine di generare anche il legame tra
determinatore e aggettivo sostantivato, come nel caso di quest'ultimo. In PeTra, per
convenzione, non viene inserita la classificazione di sostantivo per quei lemmi che
sono essenzialmente aggettivi: l'uso come sostantivo viene riconosciuto e quindi
generato in fase di analisi. Tale costruzione mancante è stata individuata nel
funzionale tramite la relazione Mod(ultimo.POS=S, questo.POS=DD) in cui
dipendente e testa hanno lo stesso genere e numero (Mfeat uguale).
   La sequenza prima ancora che non veniva individuata in PeTra. In frasi del tipo:
          […] era già stato concordato prima ancora che si svolgessero le elezioni
non era riconosciuta come introduttore di una subordinata. Dall'esame di entrambe le
annotazioni sintattiche si è compreso che l'introduttore della subordinata svolge un
ruolo di comparazione temporale andando a modificare il verbo della reggente.

Raffinamento delle regole di cancellazione
Le regole di cancellazione eliminano particolari accezioni di un lemma in base alle
informazioni morfosintattiche dell'elemento e di quelli adiacenti. Questo limita i
tentativi effettuati nell'analisi.
   Per i sostantivi e i verbi omografi, sono state ridefinite le circostanze per la
cancellazione del sottoalbero contenente il sostantivo. Dai risultati dell'interrogazione
funzionale è emerso che i verbi aventi come tratto morfologico la prima persona
dell'indicativo presente (S1IP), sia per le teste che per i dipendenti, sono scarsamente
rappresentati. Ciò ha portato al riesame dei criteri che preferivano il verbo al
sostantivo.
   La Treebank ci ha permesso di migliorare l'analisi di più. Dall'annotazione
funzionale abbiamo estratto tutte le presenze di più ed il relativo contesto: sono
scaturite una nuova regola di cancellazione ed una limitazione ad una regola di
cancellazione esistente. E' risultato, infatti, che tutti i più che modificano un aggettivo
sono avverbi: la nuova regola di cancellazione elimina più come preposizione se
seguito da un aggettivo (la costruzione errata ricadeva nella più generale regola
positiva per la quale una preposizione può precedere un aggettivo). Inoltre, più come
preposizione non veniva cancellato nel caso in cui fosse seguito da un numerale:
adesso non viene cancellato anche nel caso sia seguito da un determiner.
   Al come era attribuita l'etichetta di avverbio interrogativo e il soggetto posposto
veniva interpretato come complemento oggetto, in frasi del tipo:
          Non si tratta di prendere decisioni affrettate , come paventa il ministro […].
Si è individuato:
- nei costituenti, una frase (F) introdotta da come congiunzione (POS=Conj) e,
- nel funzionale, un verbo transitivo di modo finito che svolge il ruolo di testa in una
    relazione soggetto (Sogg), con soggetto posposto, e sprovvisto della relazione di
    oggetto diretto (Ogg_d).
Il problema era causato da una regola di cancellazione per l'eliminazione dei
sottoalberi relativi a frasi non interrogative, prive (apparentemente!) di soggetto. Tale
regola è stata inibita nel caso in cui F dipenda da come in qualità di congiunzione.
Modifica delle preferenze e delle restrizioni
 Il terzo tipo di regole assegna le penalità: in caso di ambiguità si costruiscono tutti gli
alberi possibili, ma non tutti con lo stesso valore di probabilità. Se, procedendo nella
costruzione dell'albero, le ambiguità non scompaiono, i sottoalberi con maggiore
penalizzazione vengono eliminati. Con le annotazioni funzionali sono state ridefinite
alcune situazioni:
    sono: mancavano informazioni per la scelta tra i due omografi. La prima persona
dell'indicativo presente è risultata scarsamente presente nel corpus, richiedendo così
una penalità: al momento della costruzione dell'albero, in caso di completa ambiguità,
viene data la preferenza alla terza persona plurale.
    ieri: gli avverbi di tempo compaiono spesso come teste in relazioni di tipo Mod.
Nell'annotazione a costituenti, il modificatore può essere: una congiunzione (anche
ieri) o un avverbio (proprio ieri) in unione con i quali si genera un sintagma
avverbiale (SAVV); un sostantivo (ieri pomeriggio) con il quale genera un SN. In
questo secondo caso la costruzione non può essere ammessa con tutti i sostantivi, in
particolare deve essere evitata con i nomi propri. In situazioni come: "[...] ha spiegato
ieri Mandela […]", ieri e Mandela generavano un sostantivo composto. Nella
Treebank non sono state individuate tali situazioni, ma solo quelle dei tre tipi sopra
descritti. E' stata perciò implementata la restrizione sul tipo di nomi che possono
modificare un avverbio di tempo.
    dopo: il sistema non ne individuava correttamente l'uso come preposizione o
avverbio. Nei costituenti, la preposizione induce l'attribuzione di sintagma
preposizionale (SP) a tutto il gruppo che regge. Nel funzionale abbiamo osservato che
dopo non può essere avverbio quando è immediatamente seguito da un sostantivo con
ruolo di modificatore di un verbo, per il quale la relazione di soggetto sia già stata
saturata. Ad esempio, nella frase:
           […] dopo la libertà politica venga davvero anche l'eguaglianza […]
abbiamo le seguenti annotazioni funzionali:
           Mod(venire, libertà)
           Sogg(venire, eguaglianza)
    E' quindi stata modificata la regola che prende dopo come avverbio se:
− è seguito da un sintagma nominale, con il quale crea un gruppo preposizionale
− il verbo da cui dipende il gruppo preposizionale ha lo slot soggetto già saturato
La modifica comporta una penalizzazione sulla scelta di dopo come avverbio se la
verifica delle due condizioni dà esito positivo.

3.2.3     Modifiche al transfer.
Gli interventi descritti hanno permesso di riconoscere nuove strutture, per le quali è
stato necessario scrivere anche regole di transfer strutturale per assicurare una corretta
traduzione dell'intera frase. Vediamo alcui esempi:
   lo: la traduzione di lo identificato come predicato preposto ha richiesto una nuova
regola di transfer per la trasformazione di non lo è in it is not. Essa cancella il nodo
predicato e aggiunge il soggetto espresso calcolato sulla flessione del verbo.
   milioni/miliardi di…: nel corpus sono molto frequenti le espressioni composte da
un numerale seguito da "milioni/miliardi" seguito ancora da un complemento di
specificazione che esprime l'unità di misura. L'espressione italiana due miliardi di
sterline deve però diventare two billion pounds. Una nuova regola di transfer cancella
la preposizione di nei contesti descritti. Il buon funzionamento di questa regola non
può, però, prescindere dal corretto uso del semantic type relativo alle unità di misura.
Le informazioni semantiche inserite hanno avuto effetti positivi anche in questo
contesto.

3.2.4     Ricerche infruttuose
In italiano alcuni introduttori richiedono, nella proposizione che segue, un preciso
modo verbale. Sull'annotazione funzionale è stata realizzata un'interrogazione per
individuare tali introduttori mediante l'estrazione di relazioni Arg tra proposizioni, in
cui la dipendente ha sia il verbo al congiuntivo che l'introduttore espresso.
   Purtroppo nella porzione di corpus selezionata abbiamo riscontrato pochissimi casi
del tipo descritto e tutti già previsti. Risulta evidente, quindi, come i risultati raggiunti
siano strettamente legati al corpus esaminato e alle tipologie di frasi in esso presenti,
oltre che alle specifiche di annotazione.

4     Valutazione delle modifiche

4.1   Analisi del lavoro svolto

Sin qui, la validità della Treebank come sorgente di informazione sembra indubbia,
avendo consentito di estrarre un gran numero di informazioni.
   La valutazione dei risultati è stata compiuta manualmente confrontando tutte le
frasi italiane con le due traduzioni ottenute (con il sistema originale e con il sistema
modificato), e di ciascuna è stato definito il livello di correttezza. Tale attività è stata
compiuta da una sola persona per la maggior uniformità di giudizio possibile.

4.2   Risultati Ottenuti

Per ogni frase, le traduzioni sono state classificate e divise in quattro categorie:
   corrette: non necessitano di particolari aggiustamenti
   imprecise: richiedono qualche aggiustamento, ma il significato è comprensibile
   errate: non possono essere considerate valide
   non tradotte: il sistema non è riuscito a tradurle. Accade quando il sistema genera
un alto numero di sottoalberi, senza riuscire ad individuare quello corretto.
   Abbiamo cercato di utilizzare più criteri di valutazione poiché ciascuno di quelli
adottati ci è sembrato utile per la comprensione di un particolare aspetto ma non per la
totalità delle osservazioni formulabili.
   Il primo criterio, immediato sia nel calcolo che nel tipo di risultato, è la variazione
percentuale del numero di frasi appartenenti alle quattro categorie. Il calcolo è stato
realizzato per i due momenti della traduzione: prima e dopo le modifiche.
   E' stata rilevata una variazione percentuale positiva in relazione alle prime due
categorie (frasi corrette e imprecise) compresa tra il 20% e il 30%; la variazione delle
altre due è stata invece negativa superiore al 60% per le frasi errate e al 300% per
quelle non tradotte. Si deduce quindi un netto miglioramento del livello di correttezza,
dovuto ad un consistente spostamento delle frasi verso le prime due categorie.
   Un altro tipo di valutazione è stato compiuto "pesando" la categoria di
appartenenza di una frase in relazione al tempo necessario per ottenere una buona
traduzione. Ci siamo posti nell'ottica dell'utilizzatore del sistema di traduzione che al
termine del lavoro deve consegnare un prodotto "corretto".
   Abbiamo quindi associato dei pesi a ciascuna categoria secondo lo schema:
1         Frasi non tradotte Il traduttore deve realizzare lui la traduzione
2         Frasi errate        Il traduttore deve riconoscere l'errore, comprendere che
                              non è rimediabile, ed eseguire manualmente la
                              traduzione, con un aumento del tempo impiegato
 0,75     Frasi imprecise     Il traduttore trova la frase già tradotta, per la quale deve
                              realizzare solo dei piccoli aggiustamenti. Per far ciò
                              impiega del tempo, ma in misura inferiore rispetto al
                              dover effettuare manualmente la traduzione
 0,25     Frasi corrette      Il traduttore deve ricontrollare la frase per verificarne la
                              correttezza, con un minimo dispendio di tempo
   Sulla base di questi pesi abbiamo applicato sia alla totalità delle frasi che a ciascun
documento tradotto, prima e dopo la modifica, la formula:
                      1 * NT + 2 * E + 0,75 * I +0,25 * C                             (1)
dove:
   NT è il numero di frasi Non Tradotte
   E     è il numero di frasi Errate
   I     è il numero di frasi Imprecise
   C     è il numero di frasi Corrette
   I due valori ottenuti dal sistema originale e da quello modificato sono stati
confrontati per ottenere, anche in questo caso, la percentuale di variazione che, nel
caso della totalità delle frasi, individua un calo del tempo di poco inferiore al 20%.
   La stessa analisi condotta documento per documento dà risultati analoghi anche se
più articolati. La maggior parte dei documenti infatti ha avuto una riduzione della
stima dei tempi che ruota attorno al 20%, con rare punte superiori a 40% ed un ugual
numero per i quali si è avuto un, seppur minimo, peggioramento.
   Dall'esame di questi dati scaturisce la validità della TreeBank come fonte per il
reperimento dell'ampia gamma di informazioni utili ad un sistema linguistico
applicativo come l'ambiente di traduzione.

Riferimenti

McCord, M.C.: Slot Grammars. Computational Linguistics, (1980) vol 6, pp 31-43.
McCord, M.C.: Design of LMT: A Prolog-based Machine Translation System Computational
  Linguistics, (1989) vol 15, pp. 33-52.
Puoi anche leggere