Risorse linguistiche di varietà storiche di italiano: CEUR-WS

Pagina creata da Federico Monaco
 
CONTINUA A LEGGERE
Risorse linguistiche di varietà storiche di italiano:
                                 il progetto TrAVaSI1
           Manuel Favaro                        Marco Biffi                    Simonetta Montemagni
    Istituto di Linguistica Com-            Università di Firenze            Istituto di Linguistica Com-
    putazionale “A. Zampolli” -            Accademia della Crusca            putazionale “A. Zampolli” -
                 CNR                         marco.biffi@unifi.it                         CNR
    manuel.favaro@ilc.cnr.it                                                      simonetta.montema-
                                                                                    gni@ilc.cnr.it

                                                          nonostante i recenti progressi nel settore delle
                       Abstract                           Digital Humanities, l’accesso e l’interroga-
                                                          zione di testi che testimoniano varietà storiche
     Italiano Questo contributo si propone di             di italiano, più o meno lontane nel tempo, rap-
     presentare il progetto TrAVaSI (Tratta-
                                                          presentano ancora oggi una sfida.
     mento Automatico di Varietà Storiche di
     Italiano), il cui obiettivo è la creazione di
                                                              Il progetto TrAVaSI (Trattamento Auto-
     risorse per il trattamento automatico di va-         matico delle Varietà Storiche di Italiano),
     rietà storiche della lingua italiana, in parti-      nato dalla collaborazione tra l’Istituto di Lin-
     colare lessici diacronici e corpora arricchiti       guistica Computazionale “Antonio Zampolli”
     con annotazione linguistica da utilizzare            e l’Accademia della Crusca e finanziato dalla
     per lo sviluppo e/o la specializzazione di           Regione Toscana, si propone di affrontare
     strumenti di annotazione. Il contributo illu-        questa sfida, creando i presupposti per la na-
     stra gli obiettivi, i primi risultati conseguiti     vigazione e l’interrogazione sistematica di
     e le prospettive di sviluppo.                        fonti che documentano le varietà storiche
     English The paper is aimed at illustrating           della lingua.
     the TrAVaSI project, whose aim is the de-                Il punto di partenza del progetto è pragma-
     sign and development of language resour-             tico: potenziare due strumenti realizzati
     ces for the automatic processing of histori-         dall’Accademia della Crusca all’interno di al-
     cal varieties of the Italian language, in par-       tri progetti. Gli strumenti in questione sono la
     ticular diachronic lexicons and corpora en-          versione elettronica del Grande Dizionario
     riched with linguistic annotation to be used         della lingua italiana (GDLI) 2 e la banca dati
     for the development and/or specialization            del Vocabolario Dinamico dell’Italiano Mo-
     of annotation tools. The results achieved so         derno, che è più precisamente l’oggetto spe-
     far are reported together with current and           cifico di indagine del contributo che qui pre-
     future directions of research.
                                                          sentiamo. TrAVaSI ha come obiettivo princi-
1     Introduzione                                        pale quello di massimizzare le implementa-
                                                          zioni pratiche, ma proiettandole nel quadro
Sono ormai numerosi gli archivi testuali digi-            dello sviluppo di strumenti di riferimento per
tali che testimoniano varietà storiche dell’ita-          banche dati diacronicamente connotate e i di-
liano. Tuttavia, l’accesso e l’interrogazione             zionari storici in versione elettronica. In par-
dei testi sono spesso elementari, per lo più li-          ticolar modo si tratta di mettere a frutto l’oc-
mitati alle stringhe di caratteri che costitui-           casione di lavorare in contemporanea (e
scono il testo; ciò complica il lavoro degli stu-         quindi di intersecare ricerche, risultati e pro-
diosi e rende pressoché impossibile l’utilizzo            dotti parziali) da un lato sulla strutturazione e
delle risorse da parte degli utenti non addetti           marcatura di un dizionario storico come il
ai lavori. Questa situazione mostra che,

1
  Copyright ©2020 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0
International (CC BY 4.0).
2
  Un prototipo del GDLI è attualmente consultabile negli Scaffali digitali del sito web dell’Accademia o diretta-
mente all’indirizzo .
GDLI nella sua versione informatizzata (met-         fine Ottocento: le analisi, focalizzate sulla
tendo a punto procedure di collazione semi-          composizione del vocabolario e sull’annota-
automatica del testo ottenuto con l’OCR e di         zione morfologica e morfo-sintattica, confer-
marcatura dei campi strutturali identificati;        mano che il trattamento automatico di varietà
vedi Sassolini et alii 2019, Biffi e Sassolini       storiche della lingua italiana è una sfida
2020), e dall’altro sulla creazione di lessici       aperta. Una delle sfide che il progetto TrA-
computazionali differenziati in diacronia per        VaSI intende affrontare. In questa area,
sopperire finalmente all’indebolimento – an-         l’azione del progetto ruota attorno a due diret-
che fino al grado zero – dell’efficacia di stru-     trici principali, riguardanti la costruzione di
menti di annotazione linguistica quando ci si        corpora arricchiti con informazione lingui-
allontani dalle condizioni ideali dell’italiano      stica da usarsi per la valutazione e/o addestra-
contemporaneo scritto di quelle varietà so-          mento di strumenti di annotazione, e di lessici
stanzialmente riconducibili al campione del          computazionali diacronici in grado di suppor-
Lessico di frequenza dell'italiano contempo-         tare il processo di lemmatizzazione del testo.
raneo (LIF). E così determinare un allarga-          Al momento, l’annotazione linguistica dei te-
mento dell’efficacia degli strumenti di anno-        sti riguarda il livello morfo-sintattico. Le ri-
tazione linguistica in diacronia, in diamesia e      sorse sviluppate su entrambi i fronti verranno
in diafasia.                                         integrate all’interno di infrastrutture di ricerca
    Sul versante degli studi umanistici, gli svi-    preesistenti (per esempio CLARIN-IT), al
luppi di questi strumenti hanno ricadute note-       fine di incrementarne la visibilità, l’accessibi-
voli, sia nell’ottica di consegnare agli studiosi    lità e l’interoperabilità con risorse simili.
metodi di indagine sempre più potenti per le             Sul versante linguistico-computazionale,
loro ricerche linguistiche, sia in quella, cara a    la progettazione e costruzione di risorse e
un’istituzione come l’Accademia della Cru-           strumenti per varietà d’uso della lingua che si
sca, di raggiungere un’utenza più vasta. La di-      discostano in diversa misura dall’italiano con-
gitalizzazione dei testi e la loro disponibilità     temporaneo scritto su cui gli strumenti di
in rete – infatti –non sono sufficienti per avvi-    TAL sono tipicamente addestrati costituisce
cinare un’utenza non circoscritta agli addetti       un fertile terreno di sperimentazione per lo
ai lavori al patrimonio culturale tramandato.        sviluppo e il raffinamento di tecnologie inno-
Per rendere fruibili da una vasta e variegata        vative di TAL.
utenza i contenuti di istituzioni culturali, è ne-       L’articolo illustra la metodologia definita
cessario offrire modalità di accesso e naviga-       per la costruzione delle risorse e i primi risul-
zione dotate di “intelligenza linguistica”.          tati raggiunti. La sezione 2 descrive il corpus
    Ad oggi, è ampiamente riconosciuto che           diacronico selezionato per l’annotazione, e la
l’applicazione di metodi e delle tecniche per        sezione 3 illustra il metodo seguito per l’an-
il Trattamento Automatico della Lingua               notazione del corpus. La sezione 4 riporta e
(TAL) a varietà storiche di una lingua pre-          discute i risultati dei primi esperimenti di an-
senta innumerevoli ostacoli, poiché gli stru-        notazione semi-automatica e della strategia di
menti sviluppati per le lingue moderne neces-        revisione messa a punto. La sezione 5 illustra
sitano di specializzazioni a vario livello (les-     i risultati di annotazione automatica conse-
sicale, morfologico e sintattico) per essere uti-    guiti con sistemi esistenti di annotazione per
lizzati con successo nel trattamento di fonti        la lingua italiana contemporanea; infine, la se-
primarie che rappresentano la base degli studi       zione 6 delinea gli sviluppi in corso e futuri.
umanistici. Per la lingua italiana, Pennac-
chiotti e Zanzotto (2008) riportano i risultati      2   Corpus
di uno studio esplorativo sulle difficoltà deri-     La costruzione delle risorse si avvarrà in
vanti dal trattamento automatico di varietà          primo luogo dei testi presenti nel corpus per
storiche della lingua italiana basato su un cor-     la realizzazione del Vocabolario Dinamico
pus diacronico che raccoglie testi italiani let-     dell’Italiano Moderno (VoDIM, Marazzini e
terari (sia in prosa che in poesia) dal 1200 a       Maconi, 2018). Il corpus è frutto di due
progetti nazionali: il PRIN 2012 (Corpus di           (scritto, parlato, parlato-scritto e scritto-par-
riferimento per un Nuovo Vocabolario                  lato) e appartengono a un’ampia varietà di ge-
dell’Italiano moderno e contemporaneo.                neri e di tipologie testuali.
Fonti documentarie, retrodatazioni, innova-              Per l’arricchimento dei testi con annota-
zioni, diretto da Claudio Marazzini) e il PRIN        zioni linguistiche di varia natura ci si avvarrà,
2015 (Vocabolario dinamico dell’italiano              dal punto di vista metodologico, dell’espe-
post-unitario, sempre sotto la direzione di           rienza maturata nel corso del progetto Voci
Claudio Marazzini); i due progetti, l’uno la          della Grande Guerra (VGG, De Felice et al.,
prosecuzione dell’altro, hanno coinvolto di-          2018, Lenci et al. 2020). In particolare, i me-
verse università (Catania, Firenze, Genova,           todi adottati per risolvere i problemi di seg-
Milano, Napoli, Piemonte Orientale e Torino)          mentazione delle forme e di lemmatizzazione
e l’Istituto di Teorie e Tecniche dell’Informa-       emersi durante la fase di trattamento automa-
zione Giuridica (ITTIG) del CNR di Firenze.           tico (De Felice et al., 2018: 161-162) sono un
    Il VoDIM riunisce testi, scritti e orali, atti-   fondamentale punto di partenza per ottenere
nenti all’italiano post-unitario che riguardano       risultati efficienti, come nel caso del corpus
diversi domini dello spazio linguistico               VGG.
dell’italiano: arte, canzone, diritto, economia,         Il lavoro è stato articolato nelle seguenti
gastronomia, poesia, politica, prosa giornali-        fasi operative:
stica, letteraria, paraletteraria e scientifica. Il
corpus, diacronicamente bilanciato, ha una            1. selezione delle fonti a partire dal corpus
estensione di circa 20 milioni di parole; nel            VoDIM;
prossimo futuro il progetto prevede che il cor-       2. definizione di un sottocorpus rappresenta-
pus iniziale sia affiancato da un corpus sincro-         tivo delle varietà del VoDIM; i testi scelti
nico molto più ampio (circa 2 miliardi di pa-            appartengono a sette dei domini del cor-
role), composto da testi ricavati dalla rete             pus (arte, cucina, diritto, giornali, lettera-
(Biffi, 2016, Biffi, 2018, Biffi, 2020, Biffi e          tura, paraletteratura, scienze) e sono stati
Ferrari, 2020). Inoltre, il VoDIM è stato di re-         bilanciati in diacronia per avere la mas-
cente inserito all’interno della Stazione Lessi-         sima copertura possibile; i campioni di
cografica, consultabile tramite gli Scaffali di-         ogni dominio sono tra i 2.600 e i 3.000 to-
gitali del sito dell’Accademia della Crusca              ken, per un’estensione totale del sottocor-
(Biffi 2020: 360-362). 3                                 pus – ad oggi - di circa 19.000 token;
                                                      3. annotazione morfo-sintattica e lemmatiz-
3     Metodo                                             zato del sottocorpus di cui al punto 2. Lo
                                                         schema di annotazione adottato è quello
La specializzazione di strumenti di annota-              sviluppato all’interno dell’iniziativa inter-
zione linguistica rispetto a varietà d’uso della         nazionale Universal Dependencies (Ni-
lingua diverse da quelle testimoniate nel cor-           vre, 2015), che rappresenta ad oggi uno
pus di addestramento richiede – innanzitutto             standard de facto per l’annotazione
– la disponibilità di risorse (lessici e corpora         morfo-sintattica e sintattica a dipendenze
annotati) rappresentative della varietà di lin-          di testi, incluse varietà storiche di alcune
gua da trattare. In primo luogo per verificare           delle lingue trattate. Il sottocorpus sele-
il livello di accuratezza degli strumenti di an-         zionato è stato annotato automaticamente
notazione disponibili, e – successivamente –             con UDPipe (Straka e Straková, 2017),
per la loro specializzazione. Il corpus alla             addestrato sulla Italian Universal Depen-
base del VoDIM si pone come ottima “pale-                dency Treebank (IUDT, Bosco et al.,
stra” da questo punto di vista, in quanto i testi        2013). A ciò, ha fatto seguito una fase di
al suo interno si distribuiscono in un vasto             revisione manuale degli errori riscontrati
arco cronologico (dall’Unità a oggi), presen-            nei testi annotati automaticamente.
tano una notevole differenziazione diamesica

3
    http://www.stazionelessicografica.it
Il campione testuale, frutto delle prime fasi di                  solo testo (un saggio di medicina di G. Brotzu,
lavoro, è di fatto il primo nucleo di corpus an-                  Ricerche su di un nuovo antibiotico del 1948);
notato per la validazione e, in prospettiva,                      tale valore è dunque poco attendibile – se si
l’addestramento e/o specializzazione degli                        considera, tra l’altro, che è il testo del dominio
strumenti di trattamento automatico di varietà                    “scienze” con una percentuale di errore tra le
storiche dell’italiano.                                           più alte (cfr. infra).
                                                                      Più interessanti i dati riportati nella Tabella
4        Primi risultati                                          2, in cui sono presenti le percentuali medie di
4.1        Analisi quantitativa degli errori                      errore per ogni dominio:
L’analisi degli errori di annotazione morfo-                       domini       intervalli       n.        n.       %
sintattica e di lemmatizzazione riscontrati nei                                 temporali       testi    token    media
testi annotati automaticamente con UDPipe                                                                         errori
ha fornito dati importanti sulla mole di errori                    arte       2-6    1902-     4         2600     6,3%
                                                                                     2009 6
presenti in ogni testo; nella Tabella 1 sono ri-
                                                                   cucina     1-3    1871-     4         2700     9,9%
portate le percentuali medie di errore nei testi,                                    1927
distribuiti su sei intervalli cronologici che ri-                  diritto    5-6    2000-     17        3000     3,7%
calcano grossomodo la suddivisione in pe-                                            2016
riodi proposta per il DiaCORIS (Onelli et al.,                     giornali   1-5    1867-     4         3000     5,5%
2006) e successivamente per il LIS Lessico                                           1996
                                                                   lettera-   1-5    1881-     4         2800     8,5%
Italiano Scritto 4, a cui viene aggiunto un sesto
                                                                   tura              1982
periodo comprendente i testi attinenti all’ita-                    paralet-   1-3    1892-     4         2600     5,9%
liano contemporaneo:                                               teratura          1939
                                                                   scienze    1-6    1864-     4         2700     5,6%
        intervalli    n. testi   n. token     % media                                2015
        temporali                               errori            Tabella 2. Percentuale di errori per domini.
    1     1861-1900   6          4300         8,2%
    2     1901-1922   5          3400         8,6%                Osservando i dati si nota che le percentuali
    3     1923-1945   4          3300         5,3%                più alte riguardano i testi gastronomici e let-
    4     1946-1967   1          600          8,3%
    5     1968-2001   7          3800         5,3%
                                                                  terari, quelle più basse i testi giuridici; gli altri
    6     2002-oggi   18 5       4100         3,8%                domini si attestano su una media del 5-6%.
Tabella 1. Percentuale di errori per intervalli cronolo-
                                                                  Una prima spiegazione di questa diffrazione
gici.                                                             risiede certamente nelle date di pubblicazione
                                                                  dei testi interessati: i libri di gastronomia da
Come ci si aspetterebbe, la percentuale di er-                    cui sono stati estratti i campioni per la cucina
rore tende a scendere, con il passare degli                       sono stati pubblicati tra il 1871 (l’anonimo ri-
anni, dall’8 al 3%; l’unica eccezione riguarda                    cettario Il cuoco sapiente) e il 1927 (il famo-
il periodo 1946-1967, testimoniato però dal                       sissimo Talismano della felicità di Ada Boni),
campione di circa 600 token estratto da un                        mentre i testi del dominio “diritto” sono usciti

4
  Il LIS corrisponde alla sezione DIACORIS del CILTA di           milioni di occorrenze, distribuite equamente su cinque se-
Bologna (),          zioni cronologiche bilanciate (per approfondimenti cfr.
sviluppata all’interno del portale Vivit Vivi Italiano. Il por-   Biffi, 2016, pp. 276-77 e nota 24).
                                                                  5
tale dell’italiano nel mondo (), e costituisce una rielabo-      maggior parte i testi del dominio “diritto”, al cui in-
razione informatica per omogeneizzare la banca dati LIT           terno si trovano abstract di saggi e di opere specialisti-
Lessico Italiano Televisivo e LIR Lessico Italiano Radio-         che; i testi sono perciò molto brevi e, a differenza degli
fonico (anch’essi presenti nel portale) in modo che pos-          altri domini, è stato necessario attingere a molti più
sano essere interrogate contemporaneamente da un meta-            campioni testuali per raggiungere la quota prestabilita
motore (come avviene appunto, affiancando la singola              di token (cfr. Tabella 2).
                                                                  6
consultazione delle tre banche dati, nella sezione “Archi-          Le date presenti nella colonna si riferiscono alla pub-
vio Digitale del Vivit: ). Il LIS comprende complessivamente 25            del dominio.
tra il 2000 e il 2016. Tuttavia, va considerato              dei casi – oltre il 27% – coinvolgono soltanto
che i testi paraletterari, con percentuali di er-            il lemma, e sono senz’altro dovuti al fatto che
rore nella media, sono stati anch’essi pubbli-               UDPipe, nella versione di base, utilizza un di-
cati tra la fine dell’Ottocento e l’inizio del No-           zionario costruito a partire dal corpus di adde-
vecento; e che, d’altro canto, le opere di lette-            stramento integrato da euristiche di analisi
ratura hanno valori elevati, nonostante la pre-              morfologica utilizzate per trattare forme sco-
senza di romanzi abbastanza recenti come Se                  nosciute (anch’esse automaticamente derivate
non ora, quando? di Primo Levi (1982). Pro-                  dal corpus di addestramento). Seguono due
babilmente lo scarto elevato dalla media è da                esempi di lemmatizzazione basata su tali eu-
ricondursi, per la cucina, alle particolari tipo-            ristiche:
logie testuali (come ad esempio le ricette)
“nuove” nel panorama dei campioni su cui                     27 lavano lare VERB V Mood=Ind|Number=Plur|Per-
                                                             son=3|Tense=Imp|VerbForm=Fin _
sono stati testati finora gli strumenti di annota-           43 illustri illustro ADJ A Gender=Masc|Number=Plur _
zione. Analoghe considerazioni valgono per la
letteratura. Sebbene i corpora letterari siano               In altri casi – circa il 20% – gli errori riguar-
stati oggetto di analisi automatiche (es. lemma-             dano l’assegnazione della categoria gramma-
tizzazione) finalizzate all’interrogazione, se-              ticale (sia coarse-grained sia fine-grained);
condo la prospettiva adottata in questo studio               tipici esempi sono il che pronome a cui viene
essi appaiono caratterizzati da tratti morfolo-              attribuito il valore di congiunzione (a), e lo
gici quantitativamente significativi su cui gli              scambio tra aggettivo e sostantivo nella cop-
analizzatori finora utilizzati non sono adegua-              pia nominale (b):
tamente addestrati (es. forme verbali di prima
e seconda persona).                                          a.
                                                             24 Pagliarini Pagliarini PROPN SP _
4.2    Analisi qualitativa degli errori                      25 che che SCONJ CS _
                                                             26 per per ADP E _
Sembrerebbe essere molto forte, dunque, il le-               27-28 farsi _
game tra errore, dominio e, soprattutto, ge-                 27 far fare VERB V VerbForm=Inf _
                                                             28 si si PRON PC Clitic=Yes|Person=3|PronType=Prs _
nere testuale 7 . Per esempio, i ricettari, così             29 ascoltare ascoltare VERB V VerbForm=Inf _
come la manualistica in generale, sono costel-               30 ha avere AUX VA Mood=Ind|Number=Sing|Per-
lati da verbi all’imperativo di seconda plurale              son=3|Tense=Pres|VerbForm=Fin _
                                                             31 parlato parlare VERB V Gender=Masc|Num-
(per esempio mescolate) che UDPipe tende ad                  ber=Sing|Tense=Past|VerbForm=Part _
assimilare con le forme del participio passato;              32 in in ADP E _
i testi letterari, dal canto loro, sono colmi di             33 piedi piede NOUN S Gender=Masc|Number=Plur _ Spa-
                                                             ceAfter=No
parti dialogiche che presentano al loro interno              34 . . PUNCT        FS _
una serie di tratti, in primo luogo interpun-
zioni enfatiche (punti “misti” come l’accu-                  b.
                                                             47 massimi massimo NOUN S Gender=Masc|Number=Plur
mulo di punto esclamativo e puntini di so-                   _
spensione) e interiezioni, che mettono in dif-               48 esponenti esponente ADJ A Number=Plur _
ficoltà l’analizzatore, sia nell’annotazione
morfo-sintattica, sia nella tokenizzazione;                  Circa il 6% degli errori concerne invece solo
analogamente, i testi giuridici e scientifici                le caratteristiche morfologiche associate alla
presentano diversi errori legati alla corposa                forma (Universal Dependencies features); ap-
presenza di abbreviazioni, sigle e simboli.                  partengono a questa tipologia gli scambi so-
    È stata inoltre eseguita una valutazione                 pra menzionati tra imperativo e participio:
sulle tipologie di errore, che per circa un terzo

7
  A tal proposito, si veda il progetto EvaLatin 2020         analogamente a quanto si osserva nel presente elabo-
(Sprugnoli et al, 2020), che mira a implementare lo stu-     rato, i primi risultati di EvaLatin 2020 hanno mostrato
dio della portabilità degli strumenti NLP per il latino      l’impatto sia delle caratteristiche diacroniche sia di ge-
attraverso la costituzione di tre baseline a cui apparten-   nere testuale sull’accuratezza dell’annotazione.
gono diversi generi e diversi periodi cronologici;
3 digrassate digrassare VERB V Gender=Fem|Num-              3 che che PRON PR PronType=Rel _
ber=Plur|Tense=Past|VerbForm=Part _                         4 era essere AUX VA Mood=Ind|Number=Sing|Per-
                                                            son=3|Tense=Imp|VerbForm=Fin _
Vi sono poi diversi casi – circa il 7% – di er-             5 già già ADV B _
                                                            6 cominciato cominciare VERB V Gender=Masc|Num-
rata segmentazione dei token molto simili a                 ber=Sing|Tense=Past|VerbForm=Part _
quelli riscontrati nel Corpus VGG (De Felice
et al., 2018: 161), ossia il mancato riconosci-         3. lemma + tratti morfo-sintattici (3% circa):
mento di forme verbali enclitiche rare o de-               soltanto la categoria grammaticale è cor-
suete nell’italiano contemporaneo:                         retta:
13 intendesi intendese ADJ A Number=Plur _              20 investe investa VERB V Gender=Fem|Num-
19 siasi siasi ADJ A Number=Sing _                      ber=Plur|Tense=Past|VerbForm=Part _

Altri errori di iposegmentazione si osservano           La revisione ha comportato non soltanto la
in massima parte nelle sequenze preposizio-             correzione meccanica degli errori, ma anche
nali diacronicamente marcate del tipo pella,            l’adattamento di talune annotazioni ai criteri
collo ecc.:                                             definiti per la IUDT treebank, al fine di garan-
7 co’ coco DET RD Definite=Def|Number=Sing|Pron-        tire la compatibilità delle annotazioni dei di-
Type=Art _                                              versi UD corpora presenti per la lingua ita-
4 colla collare VERB V Mood=Ind|Number=Sing|Per-        liana. La selezione di tali criteri è stata una
son=3|Tense=Pres|VerbForm=Fin _
7 pei peo ADJ A Gender=Masc|Number=Plur _               delle imprese più ardue: si è optato per una
                                                        strategia conservativa e un continuo con-
Analogamente, UDPipe tende a non ricono-                fronto con i corpora di UD per ottenere il mi-
scere altre combinazioni di clitici:                    nor rumore possibile e una massima sistema-
                                                        tizzazione del tagset, soprattutto per quanto
27 spogliatela spogliatelare NOUN S Gender=Fem|Num-     concerne avverbi e congiunzioni: per esempio
ber=Sing _                                              come, nei corpora UD consultati, viene sem-
8 toglietene toglietena SCONJ CS _
                                                        pre classificato funzionalmente con il valore
                                                        di preposizione di fronte ai sintagmi normali,
I restanti errori riguardano tutte le altre possi-
                                                        di congiunzione in presenza di un’altra con-
bili combinazioni presenti nella catena di an-
                                                        giunzione (come se), di avverbio in tutti gli al-
notazione:
                                                        tri contesti; i casi in cui sono state introdotte
1. lemma + categoria grammaticale + tratti              delle innovazioni hanno per la maggior parte
   morfo-sintattici (21% circa): l’annota-              riguardato incoerenze nell’annotazione: po’,
   zione automatica risulta essere totalmente           generalmente avverbio, è stato taggato come
   sbagliata; errori di questo tipo si osser-           nome in contesti quali un po’ di pane, poiché
   vano comunemente quando, in presenza                 la forma piena poco veniva già riconosciuta
   di una iniziale maiuscola, la forma viene            con lo stesso valore nei medesimi contesti;
   assimilata a un nome proprio:                        analogamente, gli infiniti sostantivati, a volte
                                                        riconosciuti a volte no, sono stati etichettati
    3 Pigliate pigliate PROPN SP _                      sempre come nome.
2. categoria grammaticale + tratti morfo-sin-           5   Baseline di confronto
   tattici (20% circa): la forma viene corret-
   tamente lemmatizzata, ma la categoria                La scelta di UDPipe come strumento per la
   grammaticale e i tratti associati sono er-           preannotazione del corpus (cfr. sezione 3) ha
   rati; un caso tipico, al contrario di quanto         molteplici motivazioni, che vanno dallo
   osservato sopra, è il che congiunzione a             schema di annotazione adottato (UD) alla
   cui viene attribuito il valore di pronome:           possibilità di riaddestramento, che ne fanno
                                                        uno strumento adeguato per la costruzione dei
    1 Avuta avere ADJ A Gender=Fem|Number=Sing _        corpora annotati sviluppati nel progetto TrA-
    2 notizia notizia NOUN S Gender=Fem|Number=Sing _   VaSI.
In vista del riaddestramento della catena di     di annotazione morfo-sintattica e di lemma-
analisi per il trattamento di varietà storiche di    tizzazione e per lo sviluppo e/o specializza-
italiano, i risultati ottenuti con UDPipe sono       zione di componenti software per il tratta-
stati confrontati con l’output di strumenti di       mento di varietà storiche della lingua italiana.
annotazione morfo-sintattica e lemmatizza-               I primi risultati raccolti a partire dall’ana-
zione sviluppati in ambito DH (per esempio           lisi del sottocorpus del VoDIM selezionato
l’annotatore morfologico del PiSystem, Pic-          mostrano chiaramente che le dimensioni di
chi, 2003) o già testati all’interno di applica-     variazione da tenere in considerazione sono
zioni di DH come LinguA (Attardi e Dell’Or-          molteplici e fortemente interrelate, derivanti
letta, 2009, Attardi et al., 2009, Dell’Orletta,     da diversi tipi di processi, come la variazione
2009). I dati emersi mostrano che la baseline        nel tempo (variazione diacronica), la varia-
costituita dall’annotatore PiMorfo, sviluppato       zione correlata a variabili sociolinguistiche
primariamente in funzione dell’interroga-            oppure legata al genere testuale o allo stile di
zione di vasti archivi testuali, presenta una        chi scrive. I luoghi di variazione spaziano
percentuale media di errore assai più elevata        dall'ortografia, alla morfologia e alla sintassi
di UDPipe – oltre il 9% –, ma è stato riscon-        (specialmente in diacronia e in testi di domini
trato che una parte sostanziale – all’incirca il     specialistici). Questo tipo di analisi è fonda-
13% – riguarda alcuni errori sistematici, ad         mentale per arrivare a definire una metodolo-
esempio il mancato riconoscimento della pre-         gia per la creazione di ulteriori risorse, con il
posizione con vocale elisa d’ o del valore di        fine di allargare progressivamente l’arco cro-
forme ambigue quali ancora, che in tutte le          nologico ma anche la tipologia di varietà
occorrenze in funzione di avverbio/congiun-          d’uso della lingua per poter costruire stru-
zione è stato confuso con la terza persona del       menti TAL che siano applicabili a testi italiani
presente indicativo di ancorare.                     dei secoli precedenti, riconducibili a diverse
    Per quanto riguarda LinguA, si è rilevato        varietà d’uso della lingua. Da questa prospet-
invece un indice di errore indubbiamente più         tiva, il corpus selezionato come punto di par-
basso rispetto a UDPipe – con una media in-          tenza del progetto TrAVaSI diventa quindi
torno al 4% – e oltre il 40% degli errori ri-        particolarmente significativo in quanto crea i
guarda soltanto sei tipologie, tra cui spicca        presupposti per la definizione di un metodo
l’assegnazione scorretta del tag SP (nome            per la specializzazione di strumenti di annota-
proprio, cfr. sezione 4.2), che viene associato      zione in relazione a molteplici varietà lingui-
a quasi tutte le occorrenze delle forme con          stiche, diacroniche ma anche diafasiche, dia-
l’iniziale maiuscola.                                stratiche o corrispondenti a tipologie testuali.
                                                         Gli sviluppi in corso includono:
6   Conclusioni e sviluppi in corso
                                                     1. l’addestramento e la specializzazione dei
Abbiamo illustrato brevemente i passaggi che            modelli di UDPipe mediante test set costi-
il progetto TrAVaSI sta seguendo per co-                tuiti dai domini del test corpus, su cui di
struire risorse per il trattamento automatico di        volta in volta verrà valutato l’incremento
varietà storiche di italiano, differenziate an-         di accuratezza dell’annotazione;
che in diamesia, diafasia e a livello di genere      2. la costruzione di lessici diacronici a par-
testuale. In questa fase preliminare abbiamo            tire da corpora annotati – iniziando dal
cercato di dare risposte a quesiti irrisolti            VoDIM e successivamente attingendo a ri-
sull’annotazione e la lemmatizzazione                   sorse cronologicamente antecedenti –
dell’italiano in diacronia, per esempio sul             come base per il processo di lemmatizza-
modo di trattare alcune forme (voci diverbate,          zione;
infiniti sostantivati, varianti regionali, per ci-   3. sulla base della distanza tra il corpus uti-
tare alcuni esempi) e sui criteri di lemmatiz-          lizzato per l’addestramento e i testi da
zazione delle varianti fono-morfologiche                analizzare, l’identificazione del modello
dello stesso lemma. Le risorse sviluppate sa-           linguistico più adeguato da utilizzarsi per
ranno sfruttate per testare strumenti esistenti         l’annotazione linguistica.
Ringraziamenti                                                       Umanistica e la Cultura Digitale (AIUCD), Milano,
                                                                     Università Cattolica del Sacro Cuore, 15-17 gennaio
Le attività di ricerca illustrate in questo arti-                    2020, a cura di Cristina Marras, Marco Passarotti,
                                                                     Greta Franzini ed Eleonora Litta, dell’Associazione
colo sono condotte nell’ambito del progetto                          per l’Informatica Umanistica e la Cultura Digitale,
TRaVaSI del programma di intervento deno-                            2020, pp. 235-239 (pubblicazione elet-tronica in «Qua-
minato “CNR4C” di cui al progetto congiunto                          derni         di        Umanistica          Digitale»:
di alta formazione, cofinanziato dalla Regione                       ).
Toscana con le risorse del POR FSE 2014-                          Bosco C., Montemagni S., Simi M. (2013). Converting
2020 – Asse A Occupazione, all’interno di                           Italian Treebanks: Towards an Italian Stanford De-
“GiovaniSì”, il progetto regionale Toscano                          pendency Treebank, Proceedings of the “7th Linguistic
                                                                    Annotation Workshop & Interoperability with Dis-
per l’autonomia dei giovani.
                                                                    course”, Sofia, Bulgaria, August 8-9, 2013, ACL, pp.
                                                                    61-69.
Bibliografia
                                                                  De Felice I., Dell’Orletta F., Venturi F., Lenci A. Mon-
Attardi G., Dell’Orletta F. (2009), Reverse Revision and            temagni S. (2018), Italian in the Trenches: Linguistic
   Linear Tree Combination for Dependency Parsing, in               Annotation and Analysis of Text of the Great War, Pro-
   NAACL-HLT 2009 – North American Chapter of the                   ceedings of 5th Italian Conference on Computational
   Association for Computational Linguistics – Human                Linguistics (CLiC-it), 10-12 dicembre 2018, Torino.
   Language Technologies (Boulder, Colorado, June
   2009). Proceedings, Association for Computational              Dell’Orletta F. (2009), Ensemble system for Part-of-
   Linguistics, pp. 261-264.                                        Speech tagging, Proceedings of EVALITA 2009 –
                                                                    Evaluation of NLP and Speech Tools for Italian 2009
Attardi G., Dell’Orletta F., Simi M., Turian J. (2009), Ac-         (Reggio Emilia, Italy, December 2009).
   curate Dependency Parsing with a Stacked Multilayer
   Perceptron, Proceedings of EVALITA 2009 – Evalu-               GDLI = Grande dizionario della lingua italiana, di Sal-
   ation of NLP and Speech Tools for Italian 2009 (Reg-             vatore Battaglia (poi diretto da Giorgio Bàrberi Squa-
   gio Emilia, Italia, dicembre 2009).                              rotti), Torino, UTET, 1961-2002, 21 voll.; con Supple-
                                                                    mento 2004 e Supplemento 2009, diretti da Edoardo
Biffi M. (2016), Progettare il corpus per il vocabolario            Sanguineti, Torino, UTET, 2004 e 2008, e Indice degli
   postunitario, in L’italiano elettronico. Vocabolari,             autori citati nei volumi I-XXI e nel Supplemento 2004,
   corpora, archivi testuali e sonori, Atti della “Piazza           a cura di Giovanni Ronco, Torino, UTET, 2004.
   delle Lingue” dell’Accademia della Crusca, edizione
   2014 (Firenze, 6-8 novembre 2014), a cura di Claudio           Lenci A., Montemagni S:, Boschetti F., De Felice I., dei
   Marazzini e Ludovica Maconi, Firenze, Accademia                  Rossi F., Dell’Orletta F., Di Giorgio M., Miliani M.,
   della Crusca, pp. 259-80.                                        Passaro L. C., Puddu A., Venturi G., Labanca N.
                                                                    (2020), Voices of the Great War: A Richly Annotated
Biffi M. (2018), Strumenti informatico-linguistici per la           Corpus of Italian Texts on the First World War, Pro-
   realizzazione di un dizionario dell’italiano post-unita-         ceedings of the 12th Conference on Language Re-
   rio, JADT’18. Proceedings of the 14th International              sources and Evaluation (LREC 2020), Marsiglia, 11–
   Conference on Statistical Analysis of Textual Data, a            16 maggio 2020, pp. 911-918.
   cura di Domenica Fioredistella Iezzi, Livia Celardo e
   Michelangelo Misuraca, Roma, Universitalia, 2018,              LIF = Bortolini U., Tagliavini C., Zampolli A., Lessico di
   vol. 1, pp. 99-107.                                              frequenza della lingua italiana contemporanea, IBM
                                                                    Italia 1971 (poi: Milano, Garzanti, 1972).
Biffi M. (2020), La galassia lessicografica della Crusca
   in rete, in Italiano antico, italiano plurale. Testi e les-    Marazzini C., Maconi L. (2018), Il Vocabolario dinamico
   sico del Medioevo nel mondo digitale. Atti del conve-            dell’italiano moderno rispetto ai linguaggi settoriali.
   gno internazionale in occasione delle 40.000 voci del            Proposta di voce lessicografica per il redigendo Vo-
   TLIO, Firenze, 13-14 settembre 2018, a cura di Lino              DIM, «Italiano digitale», VII/4, pp. 101-20.
   Leonardi e Paolo Squillacioti, Alessandria, Edizioni           Nivre J. (2015), Towards a Universal Grammar for Nat-
   dell’Orso, pp. 219-232.                                          ural Language Processing, Computational Linguistics
Biffi M., Ferrari A. (2020), Progettare e ideare un corpus          and Intelligent Text Processing -Proceedings of the
   dell’italiano nella rete: il caso del CoLIWeb, «Studi di         16th International Conference, CICLing 2015, Part I.,
   Lessicografia Italiana», vol. XXXVII, 2020, pp. 357-             Cairo, Egitto, pp. 3-16.
   374.                                                           Pennacchiotti M., Zanzotto F.M. (2008). Natural Lan-
Biffi M., Sassolini E., Strategie e metodi per il recupero          guage Processing Across Time: An Empirical Investi-
   di dizionari storici, in La svolta inevitabile: sfide e pro-     gation on Italian, Proceedings of GoTAL - 6th Inter-
   spettive per l’informatica umanistica, Atti del IX Con-          national Conference on Natural Language Processing,
   vegno Annuale dell’Associazione per l’Informatica                LNAI, volume 5221, pp. 371-382.
Picchi E. (2003), PiSystem: sistemi integrati per l'analisi
   testuale, in Computational Linguistics in Pisa. Lingui-
   stica Computazionale, a cura di Zampolli A., Calzorali
   N., Cignoni L., Special Issue, XVIII-XlX, Pisa-Roma,
   IEPI, 2003, pp. 597-627.
Sassolini E., Fahad Khan A., Biffi M., Monachini M.,
  Montemagni S., Converting and Structuring a Digital
  Historical Dictionary of Italian: A Case Study, in
  Kosem, I., Zingano Kuhn, T., Correia, M., Ferreria, J.
  P., Jansen, M., Pe-reira, I., Kallas, J., Jakubíček, M.,
  Krek, S. & Tiberius, C. (eds.), Electronic lexicography
  in the 21st century: Smart lexicography. Proceedings
  of the eLex 2019 conference (1-3 October 2019, Sintra,
  Portugal), Brno, Lexical Computing CZ, s.r.o., 2019,
  pp.       603-621       (pubblicazione       elettronica:
  https://elex.link/elex2019/proceedings-download/).
Sprugnoli R., Passarotti M., Cecchini F. M., Pellegrini M.
  (2020), Overview of the EvaLatin 2020 Evaluation
  Campaign, Proceedings of 1st Workshop on Language
  Technologies for Historical and Ancient Languages,
  LREC 2020, Marsiglia, Francia, pp. 105-110.
Straka M., Straková J. (2017), Tokenizing, POS Tagging,
   Lemmatizing and Parsing UD2.0 with UDPipe, Pro-
   ceedings of the CoNLL 2017: Shared Task: Multilin-
   gual Parsing from Raw Text to Universal Dependen-
   cies, Vancouver, Canada, pp.88–99.
Puoi anche leggere