Risorse linguistiche di varietà storiche di italiano: CEUR-WS
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Risorse linguistiche di varietà storiche di italiano: il progetto TrAVaSI1 Manuel Favaro Marco Biffi Simonetta Montemagni Istituto di Linguistica Com- Università di Firenze Istituto di Linguistica Com- putazionale “A. Zampolli” - Accademia della Crusca putazionale “A. Zampolli” - CNR marco.biffi@unifi.it CNR manuel.favaro@ilc.cnr.it simonetta.montema- gni@ilc.cnr.it nonostante i recenti progressi nel settore delle Abstract Digital Humanities, l’accesso e l’interroga- zione di testi che testimoniano varietà storiche Italiano Questo contributo si propone di di italiano, più o meno lontane nel tempo, rap- presentare il progetto TrAVaSI (Tratta- presentano ancora oggi una sfida. mento Automatico di Varietà Storiche di Italiano), il cui obiettivo è la creazione di Il progetto TrAVaSI (Trattamento Auto- risorse per il trattamento automatico di va- matico delle Varietà Storiche di Italiano), rietà storiche della lingua italiana, in parti- nato dalla collaborazione tra l’Istituto di Lin- colare lessici diacronici e corpora arricchiti guistica Computazionale “Antonio Zampolli” con annotazione linguistica da utilizzare e l’Accademia della Crusca e finanziato dalla per lo sviluppo e/o la specializzazione di Regione Toscana, si propone di affrontare strumenti di annotazione. Il contributo illu- questa sfida, creando i presupposti per la na- stra gli obiettivi, i primi risultati conseguiti vigazione e l’interrogazione sistematica di e le prospettive di sviluppo. fonti che documentano le varietà storiche English The paper is aimed at illustrating della lingua. the TrAVaSI project, whose aim is the de- Il punto di partenza del progetto è pragma- sign and development of language resour- tico: potenziare due strumenti realizzati ces for the automatic processing of histori- dall’Accademia della Crusca all’interno di al- cal varieties of the Italian language, in par- tri progetti. Gli strumenti in questione sono la ticular diachronic lexicons and corpora en- versione elettronica del Grande Dizionario riched with linguistic annotation to be used della lingua italiana (GDLI) 2 e la banca dati for the development and/or specialization del Vocabolario Dinamico dell’Italiano Mo- of annotation tools. The results achieved so derno, che è più precisamente l’oggetto spe- far are reported together with current and cifico di indagine del contributo che qui pre- future directions of research. sentiamo. TrAVaSI ha come obiettivo princi- 1 Introduzione pale quello di massimizzare le implementa- zioni pratiche, ma proiettandole nel quadro Sono ormai numerosi gli archivi testuali digi- dello sviluppo di strumenti di riferimento per tali che testimoniano varietà storiche dell’ita- banche dati diacronicamente connotate e i di- liano. Tuttavia, l’accesso e l’interrogazione zionari storici in versione elettronica. In par- dei testi sono spesso elementari, per lo più li- ticolar modo si tratta di mettere a frutto l’oc- mitati alle stringhe di caratteri che costitui- casione di lavorare in contemporanea (e scono il testo; ciò complica il lavoro degli stu- quindi di intersecare ricerche, risultati e pro- diosi e rende pressoché impossibile l’utilizzo dotti parziali) da un lato sulla strutturazione e delle risorse da parte degli utenti non addetti marcatura di un dizionario storico come il ai lavori. Questa situazione mostra che, 1 Copyright ©2020 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). 2 Un prototipo del GDLI è attualmente consultabile negli Scaffali digitali del sito web dell’Accademia o diretta- mente all’indirizzo .
GDLI nella sua versione informatizzata (met- fine Ottocento: le analisi, focalizzate sulla tendo a punto procedure di collazione semi- composizione del vocabolario e sull’annota- automatica del testo ottenuto con l’OCR e di zione morfologica e morfo-sintattica, confer- marcatura dei campi strutturali identificati; mano che il trattamento automatico di varietà vedi Sassolini et alii 2019, Biffi e Sassolini storiche della lingua italiana è una sfida 2020), e dall’altro sulla creazione di lessici aperta. Una delle sfide che il progetto TrA- computazionali differenziati in diacronia per VaSI intende affrontare. In questa area, sopperire finalmente all’indebolimento – an- l’azione del progetto ruota attorno a due diret- che fino al grado zero – dell’efficacia di stru- trici principali, riguardanti la costruzione di menti di annotazione linguistica quando ci si corpora arricchiti con informazione lingui- allontani dalle condizioni ideali dell’italiano stica da usarsi per la valutazione e/o addestra- contemporaneo scritto di quelle varietà so- mento di strumenti di annotazione, e di lessici stanzialmente riconducibili al campione del computazionali diacronici in grado di suppor- Lessico di frequenza dell'italiano contempo- tare il processo di lemmatizzazione del testo. raneo (LIF). E così determinare un allarga- Al momento, l’annotazione linguistica dei te- mento dell’efficacia degli strumenti di anno- sti riguarda il livello morfo-sintattico. Le ri- tazione linguistica in diacronia, in diamesia e sorse sviluppate su entrambi i fronti verranno in diafasia. integrate all’interno di infrastrutture di ricerca Sul versante degli studi umanistici, gli svi- preesistenti (per esempio CLARIN-IT), al luppi di questi strumenti hanno ricadute note- fine di incrementarne la visibilità, l’accessibi- voli, sia nell’ottica di consegnare agli studiosi lità e l’interoperabilità con risorse simili. metodi di indagine sempre più potenti per le Sul versante linguistico-computazionale, loro ricerche linguistiche, sia in quella, cara a la progettazione e costruzione di risorse e un’istituzione come l’Accademia della Cru- strumenti per varietà d’uso della lingua che si sca, di raggiungere un’utenza più vasta. La di- discostano in diversa misura dall’italiano con- gitalizzazione dei testi e la loro disponibilità temporaneo scritto su cui gli strumenti di in rete – infatti –non sono sufficienti per avvi- TAL sono tipicamente addestrati costituisce cinare un’utenza non circoscritta agli addetti un fertile terreno di sperimentazione per lo ai lavori al patrimonio culturale tramandato. sviluppo e il raffinamento di tecnologie inno- Per rendere fruibili da una vasta e variegata vative di TAL. utenza i contenuti di istituzioni culturali, è ne- L’articolo illustra la metodologia definita cessario offrire modalità di accesso e naviga- per la costruzione delle risorse e i primi risul- zione dotate di “intelligenza linguistica”. tati raggiunti. La sezione 2 descrive il corpus Ad oggi, è ampiamente riconosciuto che diacronico selezionato per l’annotazione, e la l’applicazione di metodi e delle tecniche per sezione 3 illustra il metodo seguito per l’an- il Trattamento Automatico della Lingua notazione del corpus. La sezione 4 riporta e (TAL) a varietà storiche di una lingua pre- discute i risultati dei primi esperimenti di an- senta innumerevoli ostacoli, poiché gli stru- notazione semi-automatica e della strategia di menti sviluppati per le lingue moderne neces- revisione messa a punto. La sezione 5 illustra sitano di specializzazioni a vario livello (les- i risultati di annotazione automatica conse- sicale, morfologico e sintattico) per essere uti- guiti con sistemi esistenti di annotazione per lizzati con successo nel trattamento di fonti la lingua italiana contemporanea; infine, la se- primarie che rappresentano la base degli studi zione 6 delinea gli sviluppi in corso e futuri. umanistici. Per la lingua italiana, Pennac- chiotti e Zanzotto (2008) riportano i risultati 2 Corpus di uno studio esplorativo sulle difficoltà deri- La costruzione delle risorse si avvarrà in vanti dal trattamento automatico di varietà primo luogo dei testi presenti nel corpus per storiche della lingua italiana basato su un cor- la realizzazione del Vocabolario Dinamico pus diacronico che raccoglie testi italiani let- dell’Italiano Moderno (VoDIM, Marazzini e terari (sia in prosa che in poesia) dal 1200 a Maconi, 2018). Il corpus è frutto di due
progetti nazionali: il PRIN 2012 (Corpus di (scritto, parlato, parlato-scritto e scritto-par- riferimento per un Nuovo Vocabolario lato) e appartengono a un’ampia varietà di ge- dell’Italiano moderno e contemporaneo. neri e di tipologie testuali. Fonti documentarie, retrodatazioni, innova- Per l’arricchimento dei testi con annota- zioni, diretto da Claudio Marazzini) e il PRIN zioni linguistiche di varia natura ci si avvarrà, 2015 (Vocabolario dinamico dell’italiano dal punto di vista metodologico, dell’espe- post-unitario, sempre sotto la direzione di rienza maturata nel corso del progetto Voci Claudio Marazzini); i due progetti, l’uno la della Grande Guerra (VGG, De Felice et al., prosecuzione dell’altro, hanno coinvolto di- 2018, Lenci et al. 2020). In particolare, i me- verse università (Catania, Firenze, Genova, todi adottati per risolvere i problemi di seg- Milano, Napoli, Piemonte Orientale e Torino) mentazione delle forme e di lemmatizzazione e l’Istituto di Teorie e Tecniche dell’Informa- emersi durante la fase di trattamento automa- zione Giuridica (ITTIG) del CNR di Firenze. tico (De Felice et al., 2018: 161-162) sono un Il VoDIM riunisce testi, scritti e orali, atti- fondamentale punto di partenza per ottenere nenti all’italiano post-unitario che riguardano risultati efficienti, come nel caso del corpus diversi domini dello spazio linguistico VGG. dell’italiano: arte, canzone, diritto, economia, Il lavoro è stato articolato nelle seguenti gastronomia, poesia, politica, prosa giornali- fasi operative: stica, letteraria, paraletteraria e scientifica. Il corpus, diacronicamente bilanciato, ha una 1. selezione delle fonti a partire dal corpus estensione di circa 20 milioni di parole; nel VoDIM; prossimo futuro il progetto prevede che il cor- 2. definizione di un sottocorpus rappresenta- pus iniziale sia affiancato da un corpus sincro- tivo delle varietà del VoDIM; i testi scelti nico molto più ampio (circa 2 miliardi di pa- appartengono a sette dei domini del cor- role), composto da testi ricavati dalla rete pus (arte, cucina, diritto, giornali, lettera- (Biffi, 2016, Biffi, 2018, Biffi, 2020, Biffi e tura, paraletteratura, scienze) e sono stati Ferrari, 2020). Inoltre, il VoDIM è stato di re- bilanciati in diacronia per avere la mas- cente inserito all’interno della Stazione Lessi- sima copertura possibile; i campioni di cografica, consultabile tramite gli Scaffali di- ogni dominio sono tra i 2.600 e i 3.000 to- gitali del sito dell’Accademia della Crusca ken, per un’estensione totale del sottocor- (Biffi 2020: 360-362). 3 pus – ad oggi - di circa 19.000 token; 3. annotazione morfo-sintattica e lemmatiz- 3 Metodo zato del sottocorpus di cui al punto 2. Lo schema di annotazione adottato è quello La specializzazione di strumenti di annota- sviluppato all’interno dell’iniziativa inter- zione linguistica rispetto a varietà d’uso della nazionale Universal Dependencies (Ni- lingua diverse da quelle testimoniate nel cor- vre, 2015), che rappresenta ad oggi uno pus di addestramento richiede – innanzitutto standard de facto per l’annotazione – la disponibilità di risorse (lessici e corpora morfo-sintattica e sintattica a dipendenze annotati) rappresentative della varietà di lin- di testi, incluse varietà storiche di alcune gua da trattare. In primo luogo per verificare delle lingue trattate. Il sottocorpus sele- il livello di accuratezza degli strumenti di an- zionato è stato annotato automaticamente notazione disponibili, e – successivamente – con UDPipe (Straka e Straková, 2017), per la loro specializzazione. Il corpus alla addestrato sulla Italian Universal Depen- base del VoDIM si pone come ottima “pale- dency Treebank (IUDT, Bosco et al., stra” da questo punto di vista, in quanto i testi 2013). A ciò, ha fatto seguito una fase di al suo interno si distribuiscono in un vasto revisione manuale degli errori riscontrati arco cronologico (dall’Unità a oggi), presen- nei testi annotati automaticamente. tano una notevole differenziazione diamesica 3 http://www.stazionelessicografica.it
Il campione testuale, frutto delle prime fasi di solo testo (un saggio di medicina di G. Brotzu, lavoro, è di fatto il primo nucleo di corpus an- Ricerche su di un nuovo antibiotico del 1948); notato per la validazione e, in prospettiva, tale valore è dunque poco attendibile – se si l’addestramento e/o specializzazione degli considera, tra l’altro, che è il testo del dominio strumenti di trattamento automatico di varietà “scienze” con una percentuale di errore tra le storiche dell’italiano. più alte (cfr. infra). Più interessanti i dati riportati nella Tabella 4 Primi risultati 2, in cui sono presenti le percentuali medie di 4.1 Analisi quantitativa degli errori errore per ogni dominio: L’analisi degli errori di annotazione morfo- domini intervalli n. n. % sintattica e di lemmatizzazione riscontrati nei temporali testi token media testi annotati automaticamente con UDPipe errori ha fornito dati importanti sulla mole di errori arte 2-6 1902- 4 2600 6,3% 2009 6 presenti in ogni testo; nella Tabella 1 sono ri- cucina 1-3 1871- 4 2700 9,9% portate le percentuali medie di errore nei testi, 1927 distribuiti su sei intervalli cronologici che ri- diritto 5-6 2000- 17 3000 3,7% calcano grossomodo la suddivisione in pe- 2016 riodi proposta per il DiaCORIS (Onelli et al., giornali 1-5 1867- 4 3000 5,5% 2006) e successivamente per il LIS Lessico 1996 lettera- 1-5 1881- 4 2800 8,5% Italiano Scritto 4, a cui viene aggiunto un sesto tura 1982 periodo comprendente i testi attinenti all’ita- paralet- 1-3 1892- 4 2600 5,9% liano contemporaneo: teratura 1939 scienze 1-6 1864- 4 2700 5,6% intervalli n. testi n. token % media 2015 temporali errori Tabella 2. Percentuale di errori per domini. 1 1861-1900 6 4300 8,2% 2 1901-1922 5 3400 8,6% Osservando i dati si nota che le percentuali 3 1923-1945 4 3300 5,3% più alte riguardano i testi gastronomici e let- 4 1946-1967 1 600 8,3% 5 1968-2001 7 3800 5,3% terari, quelle più basse i testi giuridici; gli altri 6 2002-oggi 18 5 4100 3,8% domini si attestano su una media del 5-6%. Tabella 1. Percentuale di errori per intervalli cronolo- Una prima spiegazione di questa diffrazione gici. risiede certamente nelle date di pubblicazione dei testi interessati: i libri di gastronomia da Come ci si aspetterebbe, la percentuale di er- cui sono stati estratti i campioni per la cucina rore tende a scendere, con il passare degli sono stati pubblicati tra il 1871 (l’anonimo ri- anni, dall’8 al 3%; l’unica eccezione riguarda cettario Il cuoco sapiente) e il 1927 (il famo- il periodo 1946-1967, testimoniato però dal sissimo Talismano della felicità di Ada Boni), campione di circa 600 token estratto da un mentre i testi del dominio “diritto” sono usciti 4 Il LIS corrisponde alla sezione DIACORIS del CILTA di milioni di occorrenze, distribuite equamente su cinque se- Bologna (), zioni cronologiche bilanciate (per approfondimenti cfr. sviluppata all’interno del portale Vivit Vivi Italiano. Il por- Biffi, 2016, pp. 276-77 e nota 24). 5 tale dell’italiano nel mondo (), e costituisce una rielabo- maggior parte i testi del dominio “diritto”, al cui in- razione informatica per omogeneizzare la banca dati LIT terno si trovano abstract di saggi e di opere specialisti- Lessico Italiano Televisivo e LIR Lessico Italiano Radio- che; i testi sono perciò molto brevi e, a differenza degli fonico (anch’essi presenti nel portale) in modo che pos- altri domini, è stato necessario attingere a molti più sano essere interrogate contemporaneamente da un meta- campioni testuali per raggiungere la quota prestabilita motore (come avviene appunto, affiancando la singola di token (cfr. Tabella 2). 6 consultazione delle tre banche dati, nella sezione “Archi- Le date presenti nella colonna si riferiscono alla pub- vio Digitale del Vivit: ). Il LIS comprende complessivamente 25 del dominio.
tra il 2000 e il 2016. Tuttavia, va considerato dei casi – oltre il 27% – coinvolgono soltanto che i testi paraletterari, con percentuali di er- il lemma, e sono senz’altro dovuti al fatto che rore nella media, sono stati anch’essi pubbli- UDPipe, nella versione di base, utilizza un di- cati tra la fine dell’Ottocento e l’inizio del No- zionario costruito a partire dal corpus di adde- vecento; e che, d’altro canto, le opere di lette- stramento integrato da euristiche di analisi ratura hanno valori elevati, nonostante la pre- morfologica utilizzate per trattare forme sco- senza di romanzi abbastanza recenti come Se nosciute (anch’esse automaticamente derivate non ora, quando? di Primo Levi (1982). Pro- dal corpus di addestramento). Seguono due babilmente lo scarto elevato dalla media è da esempi di lemmatizzazione basata su tali eu- ricondursi, per la cucina, alle particolari tipo- ristiche: logie testuali (come ad esempio le ricette) “nuove” nel panorama dei campioni su cui 27 lavano lare VERB V Mood=Ind|Number=Plur|Per- son=3|Tense=Imp|VerbForm=Fin _ sono stati testati finora gli strumenti di annota- 43 illustri illustro ADJ A Gender=Masc|Number=Plur _ zione. Analoghe considerazioni valgono per la letteratura. Sebbene i corpora letterari siano In altri casi – circa il 20% – gli errori riguar- stati oggetto di analisi automatiche (es. lemma- dano l’assegnazione della categoria gramma- tizzazione) finalizzate all’interrogazione, se- ticale (sia coarse-grained sia fine-grained); condo la prospettiva adottata in questo studio tipici esempi sono il che pronome a cui viene essi appaiono caratterizzati da tratti morfolo- attribuito il valore di congiunzione (a), e lo gici quantitativamente significativi su cui gli scambio tra aggettivo e sostantivo nella cop- analizzatori finora utilizzati non sono adegua- pia nominale (b): tamente addestrati (es. forme verbali di prima e seconda persona). a. 24 Pagliarini Pagliarini PROPN SP _ 4.2 Analisi qualitativa degli errori 25 che che SCONJ CS _ 26 per per ADP E _ Sembrerebbe essere molto forte, dunque, il le- 27-28 farsi _ game tra errore, dominio e, soprattutto, ge- 27 far fare VERB V VerbForm=Inf _ 28 si si PRON PC Clitic=Yes|Person=3|PronType=Prs _ nere testuale 7 . Per esempio, i ricettari, così 29 ascoltare ascoltare VERB V VerbForm=Inf _ come la manualistica in generale, sono costel- 30 ha avere AUX VA Mood=Ind|Number=Sing|Per- lati da verbi all’imperativo di seconda plurale son=3|Tense=Pres|VerbForm=Fin _ 31 parlato parlare VERB V Gender=Masc|Num- (per esempio mescolate) che UDPipe tende ad ber=Sing|Tense=Past|VerbForm=Part _ assimilare con le forme del participio passato; 32 in in ADP E _ i testi letterari, dal canto loro, sono colmi di 33 piedi piede NOUN S Gender=Masc|Number=Plur _ Spa- ceAfter=No parti dialogiche che presentano al loro interno 34 . . PUNCT FS _ una serie di tratti, in primo luogo interpun- zioni enfatiche (punti “misti” come l’accu- b. 47 massimi massimo NOUN S Gender=Masc|Number=Plur mulo di punto esclamativo e puntini di so- _ spensione) e interiezioni, che mettono in dif- 48 esponenti esponente ADJ A Number=Plur _ ficoltà l’analizzatore, sia nell’annotazione morfo-sintattica, sia nella tokenizzazione; Circa il 6% degli errori concerne invece solo analogamente, i testi giuridici e scientifici le caratteristiche morfologiche associate alla presentano diversi errori legati alla corposa forma (Universal Dependencies features); ap- presenza di abbreviazioni, sigle e simboli. partengono a questa tipologia gli scambi so- È stata inoltre eseguita una valutazione pra menzionati tra imperativo e participio: sulle tipologie di errore, che per circa un terzo 7 A tal proposito, si veda il progetto EvaLatin 2020 analogamente a quanto si osserva nel presente elabo- (Sprugnoli et al, 2020), che mira a implementare lo stu- rato, i primi risultati di EvaLatin 2020 hanno mostrato dio della portabilità degli strumenti NLP per il latino l’impatto sia delle caratteristiche diacroniche sia di ge- attraverso la costituzione di tre baseline a cui apparten- nere testuale sull’accuratezza dell’annotazione. gono diversi generi e diversi periodi cronologici;
3 digrassate digrassare VERB V Gender=Fem|Num- 3 che che PRON PR PronType=Rel _ ber=Plur|Tense=Past|VerbForm=Part _ 4 era essere AUX VA Mood=Ind|Number=Sing|Per- son=3|Tense=Imp|VerbForm=Fin _ Vi sono poi diversi casi – circa il 7% – di er- 5 già già ADV B _ 6 cominciato cominciare VERB V Gender=Masc|Num- rata segmentazione dei token molto simili a ber=Sing|Tense=Past|VerbForm=Part _ quelli riscontrati nel Corpus VGG (De Felice et al., 2018: 161), ossia il mancato riconosci- 3. lemma + tratti morfo-sintattici (3% circa): mento di forme verbali enclitiche rare o de- soltanto la categoria grammaticale è cor- suete nell’italiano contemporaneo: retta: 13 intendesi intendese ADJ A Number=Plur _ 20 investe investa VERB V Gender=Fem|Num- 19 siasi siasi ADJ A Number=Sing _ ber=Plur|Tense=Past|VerbForm=Part _ Altri errori di iposegmentazione si osservano La revisione ha comportato non soltanto la in massima parte nelle sequenze preposizio- correzione meccanica degli errori, ma anche nali diacronicamente marcate del tipo pella, l’adattamento di talune annotazioni ai criteri collo ecc.: definiti per la IUDT treebank, al fine di garan- 7 co’ coco DET RD Definite=Def|Number=Sing|Pron- tire la compatibilità delle annotazioni dei di- Type=Art _ versi UD corpora presenti per la lingua ita- 4 colla collare VERB V Mood=Ind|Number=Sing|Per- liana. La selezione di tali criteri è stata una son=3|Tense=Pres|VerbForm=Fin _ 7 pei peo ADJ A Gender=Masc|Number=Plur _ delle imprese più ardue: si è optato per una strategia conservativa e un continuo con- Analogamente, UDPipe tende a non ricono- fronto con i corpora di UD per ottenere il mi- scere altre combinazioni di clitici: nor rumore possibile e una massima sistema- tizzazione del tagset, soprattutto per quanto 27 spogliatela spogliatelare NOUN S Gender=Fem|Num- concerne avverbi e congiunzioni: per esempio ber=Sing _ come, nei corpora UD consultati, viene sem- 8 toglietene toglietena SCONJ CS _ pre classificato funzionalmente con il valore di preposizione di fronte ai sintagmi normali, I restanti errori riguardano tutte le altre possi- di congiunzione in presenza di un’altra con- bili combinazioni presenti nella catena di an- giunzione (come se), di avverbio in tutti gli al- notazione: tri contesti; i casi in cui sono state introdotte 1. lemma + categoria grammaticale + tratti delle innovazioni hanno per la maggior parte morfo-sintattici (21% circa): l’annota- riguardato incoerenze nell’annotazione: po’, zione automatica risulta essere totalmente generalmente avverbio, è stato taggato come sbagliata; errori di questo tipo si osser- nome in contesti quali un po’ di pane, poiché vano comunemente quando, in presenza la forma piena poco veniva già riconosciuta di una iniziale maiuscola, la forma viene con lo stesso valore nei medesimi contesti; assimilata a un nome proprio: analogamente, gli infiniti sostantivati, a volte riconosciuti a volte no, sono stati etichettati 3 Pigliate pigliate PROPN SP _ sempre come nome. 2. categoria grammaticale + tratti morfo-sin- 5 Baseline di confronto tattici (20% circa): la forma viene corret- tamente lemmatizzata, ma la categoria La scelta di UDPipe come strumento per la grammaticale e i tratti associati sono er- preannotazione del corpus (cfr. sezione 3) ha rati; un caso tipico, al contrario di quanto molteplici motivazioni, che vanno dallo osservato sopra, è il che congiunzione a schema di annotazione adottato (UD) alla cui viene attribuito il valore di pronome: possibilità di riaddestramento, che ne fanno uno strumento adeguato per la costruzione dei 1 Avuta avere ADJ A Gender=Fem|Number=Sing _ corpora annotati sviluppati nel progetto TrA- 2 notizia notizia NOUN S Gender=Fem|Number=Sing _ VaSI.
In vista del riaddestramento della catena di di annotazione morfo-sintattica e di lemma- analisi per il trattamento di varietà storiche di tizzazione e per lo sviluppo e/o specializza- italiano, i risultati ottenuti con UDPipe sono zione di componenti software per il tratta- stati confrontati con l’output di strumenti di mento di varietà storiche della lingua italiana. annotazione morfo-sintattica e lemmatizza- I primi risultati raccolti a partire dall’ana- zione sviluppati in ambito DH (per esempio lisi del sottocorpus del VoDIM selezionato l’annotatore morfologico del PiSystem, Pic- mostrano chiaramente che le dimensioni di chi, 2003) o già testati all’interno di applica- variazione da tenere in considerazione sono zioni di DH come LinguA (Attardi e Dell’Or- molteplici e fortemente interrelate, derivanti letta, 2009, Attardi et al., 2009, Dell’Orletta, da diversi tipi di processi, come la variazione 2009). I dati emersi mostrano che la baseline nel tempo (variazione diacronica), la varia- costituita dall’annotatore PiMorfo, sviluppato zione correlata a variabili sociolinguistiche primariamente in funzione dell’interroga- oppure legata al genere testuale o allo stile di zione di vasti archivi testuali, presenta una chi scrive. I luoghi di variazione spaziano percentuale media di errore assai più elevata dall'ortografia, alla morfologia e alla sintassi di UDPipe – oltre il 9% –, ma è stato riscon- (specialmente in diacronia e in testi di domini trato che una parte sostanziale – all’incirca il specialistici). Questo tipo di analisi è fonda- 13% – riguarda alcuni errori sistematici, ad mentale per arrivare a definire una metodolo- esempio il mancato riconoscimento della pre- gia per la creazione di ulteriori risorse, con il posizione con vocale elisa d’ o del valore di fine di allargare progressivamente l’arco cro- forme ambigue quali ancora, che in tutte le nologico ma anche la tipologia di varietà occorrenze in funzione di avverbio/congiun- d’uso della lingua per poter costruire stru- zione è stato confuso con la terza persona del menti TAL che siano applicabili a testi italiani presente indicativo di ancorare. dei secoli precedenti, riconducibili a diverse Per quanto riguarda LinguA, si è rilevato varietà d’uso della lingua. Da questa prospet- invece un indice di errore indubbiamente più tiva, il corpus selezionato come punto di par- basso rispetto a UDPipe – con una media in- tenza del progetto TrAVaSI diventa quindi torno al 4% – e oltre il 40% degli errori ri- particolarmente significativo in quanto crea i guarda soltanto sei tipologie, tra cui spicca presupposti per la definizione di un metodo l’assegnazione scorretta del tag SP (nome per la specializzazione di strumenti di annota- proprio, cfr. sezione 4.2), che viene associato zione in relazione a molteplici varietà lingui- a quasi tutte le occorrenze delle forme con stiche, diacroniche ma anche diafasiche, dia- l’iniziale maiuscola. stratiche o corrispondenti a tipologie testuali. Gli sviluppi in corso includono: 6 Conclusioni e sviluppi in corso 1. l’addestramento e la specializzazione dei Abbiamo illustrato brevemente i passaggi che modelli di UDPipe mediante test set costi- il progetto TrAVaSI sta seguendo per co- tuiti dai domini del test corpus, su cui di struire risorse per il trattamento automatico di volta in volta verrà valutato l’incremento varietà storiche di italiano, differenziate an- di accuratezza dell’annotazione; che in diamesia, diafasia e a livello di genere 2. la costruzione di lessici diacronici a par- testuale. In questa fase preliminare abbiamo tire da corpora annotati – iniziando dal cercato di dare risposte a quesiti irrisolti VoDIM e successivamente attingendo a ri- sull’annotazione e la lemmatizzazione sorse cronologicamente antecedenti – dell’italiano in diacronia, per esempio sul come base per il processo di lemmatizza- modo di trattare alcune forme (voci diverbate, zione; infiniti sostantivati, varianti regionali, per ci- 3. sulla base della distanza tra il corpus uti- tare alcuni esempi) e sui criteri di lemmatiz- lizzato per l’addestramento e i testi da zazione delle varianti fono-morfologiche analizzare, l’identificazione del modello dello stesso lemma. Le risorse sviluppate sa- linguistico più adeguato da utilizzarsi per ranno sfruttate per testare strumenti esistenti l’annotazione linguistica.
Ringraziamenti Umanistica e la Cultura Digitale (AIUCD), Milano, Università Cattolica del Sacro Cuore, 15-17 gennaio Le attività di ricerca illustrate in questo arti- 2020, a cura di Cristina Marras, Marco Passarotti, Greta Franzini ed Eleonora Litta, dell’Associazione colo sono condotte nell’ambito del progetto per l’Informatica Umanistica e la Cultura Digitale, TRaVaSI del programma di intervento deno- 2020, pp. 235-239 (pubblicazione elet-tronica in «Qua- minato “CNR4C” di cui al progetto congiunto derni di Umanistica Digitale»: di alta formazione, cofinanziato dalla Regione ). Toscana con le risorse del POR FSE 2014- Bosco C., Montemagni S., Simi M. (2013). Converting 2020 – Asse A Occupazione, all’interno di Italian Treebanks: Towards an Italian Stanford De- “GiovaniSì”, il progetto regionale Toscano pendency Treebank, Proceedings of the “7th Linguistic Annotation Workshop & Interoperability with Dis- per l’autonomia dei giovani. course”, Sofia, Bulgaria, August 8-9, 2013, ACL, pp. 61-69. Bibliografia De Felice I., Dell’Orletta F., Venturi F., Lenci A. Mon- Attardi G., Dell’Orletta F. (2009), Reverse Revision and temagni S. (2018), Italian in the Trenches: Linguistic Linear Tree Combination for Dependency Parsing, in Annotation and Analysis of Text of the Great War, Pro- NAACL-HLT 2009 – North American Chapter of the ceedings of 5th Italian Conference on Computational Association for Computational Linguistics – Human Linguistics (CLiC-it), 10-12 dicembre 2018, Torino. Language Technologies (Boulder, Colorado, June 2009). Proceedings, Association for Computational Dell’Orletta F. (2009), Ensemble system for Part-of- Linguistics, pp. 261-264. Speech tagging, Proceedings of EVALITA 2009 – Evaluation of NLP and Speech Tools for Italian 2009 Attardi G., Dell’Orletta F., Simi M., Turian J. (2009), Ac- (Reggio Emilia, Italy, December 2009). curate Dependency Parsing with a Stacked Multilayer Perceptron, Proceedings of EVALITA 2009 – Evalu- GDLI = Grande dizionario della lingua italiana, di Sal- ation of NLP and Speech Tools for Italian 2009 (Reg- vatore Battaglia (poi diretto da Giorgio Bàrberi Squa- gio Emilia, Italia, dicembre 2009). rotti), Torino, UTET, 1961-2002, 21 voll.; con Supple- mento 2004 e Supplemento 2009, diretti da Edoardo Biffi M. (2016), Progettare il corpus per il vocabolario Sanguineti, Torino, UTET, 2004 e 2008, e Indice degli postunitario, in L’italiano elettronico. Vocabolari, autori citati nei volumi I-XXI e nel Supplemento 2004, corpora, archivi testuali e sonori, Atti della “Piazza a cura di Giovanni Ronco, Torino, UTET, 2004. delle Lingue” dell’Accademia della Crusca, edizione 2014 (Firenze, 6-8 novembre 2014), a cura di Claudio Lenci A., Montemagni S:, Boschetti F., De Felice I., dei Marazzini e Ludovica Maconi, Firenze, Accademia Rossi F., Dell’Orletta F., Di Giorgio M., Miliani M., della Crusca, pp. 259-80. Passaro L. C., Puddu A., Venturi G., Labanca N. (2020), Voices of the Great War: A Richly Annotated Biffi M. (2018), Strumenti informatico-linguistici per la Corpus of Italian Texts on the First World War, Pro- realizzazione di un dizionario dell’italiano post-unita- ceedings of the 12th Conference on Language Re- rio, JADT’18. Proceedings of the 14th International sources and Evaluation (LREC 2020), Marsiglia, 11– Conference on Statistical Analysis of Textual Data, a 16 maggio 2020, pp. 911-918. cura di Domenica Fioredistella Iezzi, Livia Celardo e Michelangelo Misuraca, Roma, Universitalia, 2018, LIF = Bortolini U., Tagliavini C., Zampolli A., Lessico di vol. 1, pp. 99-107. frequenza della lingua italiana contemporanea, IBM Italia 1971 (poi: Milano, Garzanti, 1972). Biffi M. (2020), La galassia lessicografica della Crusca in rete, in Italiano antico, italiano plurale. Testi e les- Marazzini C., Maconi L. (2018), Il Vocabolario dinamico sico del Medioevo nel mondo digitale. Atti del conve- dell’italiano moderno rispetto ai linguaggi settoriali. gno internazionale in occasione delle 40.000 voci del Proposta di voce lessicografica per il redigendo Vo- TLIO, Firenze, 13-14 settembre 2018, a cura di Lino DIM, «Italiano digitale», VII/4, pp. 101-20. Leonardi e Paolo Squillacioti, Alessandria, Edizioni Nivre J. (2015), Towards a Universal Grammar for Nat- dell’Orso, pp. 219-232. ural Language Processing, Computational Linguistics Biffi M., Ferrari A. (2020), Progettare e ideare un corpus and Intelligent Text Processing -Proceedings of the dell’italiano nella rete: il caso del CoLIWeb, «Studi di 16th International Conference, CICLing 2015, Part I., Lessicografia Italiana», vol. XXXVII, 2020, pp. 357- Cairo, Egitto, pp. 3-16. 374. Pennacchiotti M., Zanzotto F.M. (2008). Natural Lan- Biffi M., Sassolini E., Strategie e metodi per il recupero guage Processing Across Time: An Empirical Investi- di dizionari storici, in La svolta inevitabile: sfide e pro- gation on Italian, Proceedings of GoTAL - 6th Inter- spettive per l’informatica umanistica, Atti del IX Con- national Conference on Natural Language Processing, vegno Annuale dell’Associazione per l’Informatica LNAI, volume 5221, pp. 371-382.
Picchi E. (2003), PiSystem: sistemi integrati per l'analisi testuale, in Computational Linguistics in Pisa. Lingui- stica Computazionale, a cura di Zampolli A., Calzorali N., Cignoni L., Special Issue, XVIII-XlX, Pisa-Roma, IEPI, 2003, pp. 597-627. Sassolini E., Fahad Khan A., Biffi M., Monachini M., Montemagni S., Converting and Structuring a Digital Historical Dictionary of Italian: A Case Study, in Kosem, I., Zingano Kuhn, T., Correia, M., Ferreria, J. P., Jansen, M., Pe-reira, I., Kallas, J., Jakubíček, M., Krek, S. & Tiberius, C. (eds.), Electronic lexicography in the 21st century: Smart lexicography. Proceedings of the eLex 2019 conference (1-3 October 2019, Sintra, Portugal), Brno, Lexical Computing CZ, s.r.o., 2019, pp. 603-621 (pubblicazione elettronica: https://elex.link/elex2019/proceedings-download/). Sprugnoli R., Passarotti M., Cecchini F. M., Pellegrini M. (2020), Overview of the EvaLatin 2020 Evaluation Campaign, Proceedings of 1st Workshop on Language Technologies for Historical and Ancient Languages, LREC 2020, Marsiglia, Francia, pp. 105-110. Straka M., Straková J. (2017), Tokenizing, POS Tagging, Lemmatizing and Parsing UD2.0 with UDPipe, Pro- ceedings of the CoNLL 2017: Shared Task: Multilin- gual Parsing from Raw Text to Universal Dependen- cies, Vancouver, Canada, pp.88–99.
Puoi anche leggere