I sistemi disponibili - Linguistica italiana II Mirko Tavosanis A. a. 2018-2019
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Valutazione dei sistemi automatici di interazione linguistica in italiano – Modulo A 2. I sistemi disponibili 3 ottobre 2018 Linguistica italiana II Mirko Tavosanis A. a. 2018-2019
Oggi Una panoramica sugli strumenti disponibili al singolo utente • Interfacce da telefono • Strumenti di dettatura dedicati Domani proseguiremo con assistenti vocali e altoparlanti intelligenti
Interfacce da telefono • Oggi i principali sistemi operativi per smartphone rendono disponibili funzioni di dettatura per le principali lingue • Per esempio, su Android e iOS è possibile dettare messaggi con un livello sorprendente (ne parleremo) di accuratezza nella trascrizione – Quanti di voi l’hanno fatto davvero? • I tempi di dettatura sono molto inferiori a quelli di scrittura – specie su tastiere per schermi piccoli • Nella messaggistica, una forte concorrenza è data dalla semplice registrazione (= messaggi vocali)
Vantaggi e svantaggi • Quali sono i vantaggi principali di questi strumenti? • E gli svantaggi? • Perché possono essere usati o non usati?
Sistemi di dettatura dedicati • Classificazione degli strumenti • Dragon • Il caso di Google – Ricerca vocale – Dettatura all’interno di documenti – Traduzione • Da notare: le complicazioni e le variabili (di cui dovremo tener conto nella pratica)
Trascrizione del parlato («Speech to text», STT) • Un essere umano parla • Il sistema informatico ascolta ciò che viene detto e ne fa una trascrizione
Categorie di strumenti Trascrizione del parlato («Speech to text», STT) • Elaborazione – in locale – in remoto • Addestramento – Con fase di addestramento – Senza fase di addestramento • Copertura – Lessico generale – Lessico specializzato
Elaborazione: in locale • L’elaborazione in locale viene svolta sul dispositivo dell’utente e richiede una certa potenza di calcolo – Fino a pochi anni fa, questo rendeva impossibile l’elaborazione in locale su telefoni • Diversi prodotti, come Dragon e il riconoscimento vocale di Windows, elaborano completamente in locale – su computer • Oggi diversi sistemi per smartphone offrono risultati anche offline, se è stato installato il pacchetto software specifico, ma non ho ancora fatto controlli delle prestazioni – che di sicuro calano (problema di copertura) • Sono comuni le capacità di riconoscimento in locale di una singola frase di attivazione («Ehi, Siri», «OK, Google») basate su chip a basso consumo, come M9 da iPhone 6s per Apple: caso limite di sistemi basati su lessico specializzato
Elaborazione: in remoto • I sistemi di maggior successo oggi sono online – Vantaggio: non richiedono elaborazione sul posto e quindi possono funzionare anche da tablet o da telefono poco potente – Vantaggio: possono appoggiarsi a basi di dati enormi, come quella di Google – Svantaggio: per funzionare hanno bisogno di un collegamento Internet attivo e veloce (per telefono, di solito almeno 3G) • Naturalmente, creano enormi problemi di privacy: le conversazioni vengono registrate, raccolte ed elaborate • Raramente vengono usati per dettatura: gli usi più significativi sembrano la traduzione in tempo reale e l’interazione con assistenti vocali come Siri e Cortana
Addestramento • Le caratteristiche delle voci umane sono molto diverse fra loro (lo vedremo meglio più avanti) • In alcuni sistemi la qualità della trascrizione può migliorare in modo sensibile dopo una fase di addestramento alla voce dell’utente – per esempio, all’utente può essere richiesto di leggere un brano predefinito • Oggi la fase di addestramento è meno importante che in passato e non tutti i prodotti la richiedono – Dragon Naturally Speaking richiede un breve addestramento e registra le caratteristiche della voce in un «Profilo utente» – Google non fa nessun addestramento esplicito • C’è interesse invece per la capacità di discriminare le voci, in modo che il sistema possa rispondere solo alla voce del proprietario
Copertura • La qualità del riconoscimento dipende in buona parte dal lessico • Per molti anni, i sistemi disponibili potevano riconoscere parole solo all’interno di un lessico limitato (1000 parole, o simili) • Nei dizionari dell’italiano sono incluse dalle 50 alle 150.000 parole, anche se la maggior parte di ciò che si dice rientra nel vocabolario di base di 7000 parole descritto da Tullio De Mauro • In due aree sono importanti e diffusi prodotti che gestiscono una terminologia specifica: – Impieghi medici – Impieghi legali • Oggi prodotti come Dragon e Google offrono una trascrizione sorprendentemente buona senza limiti di lessico • Prodotti specializzati sono probabilmente usati nell’antiterrorismo per individuare singole parole predefinite all’interno di conversazioni
Microsoft • Il sistema di trascrizione del parlato Microsoft è disponibile su tutti i computer con Windows ma non copre l’italiano – la funzionalità Riconoscimento vocale è disponibile solo per sei lingue: inglese, francese, spagnolo, tedesco, giapponese, cinese (con trascrizione in cinese semplificato o tradizionale) • Si tratta di uno dei rari casi in cui l’italiano rimane fuori dal gruppo delle lingue più supportate; anche di questo parleremo meglio più avanti • Per le lingue supportate, il sistema Microsoft non ha fase di riconoscimento dedicata • Windows ha una serie di funzioni simili, spesso poco note: per esempio il riconoscimento della scrittura a mano, in stampatello e in corsivo
Dragon NaturallySpeaking • La storia aziendale è in parte raccontata in The voice in the machine: il programma è sviluppato e commercializzato da Nuance, nata dalla fusione Nuance e ScanSoft nel 2005 • ScanSoft aveva in precedenza acquisito il prodotto sviluppato da Dragon (fondata nel 1982): il primo sistema a dettatura continua, senza pause tra le parole e basato su catene markoviane nascoste, venne commercializzato da Dragon nel 1997 • Supporta l’italiano: versione 13 per uso domestico, versione 15 per uso professionale • Elabora in locale, con una (breve) fase di riconoscimento e senza funzioni di dialogo, a parte il riconoscimento di comandi • Al momento, ottiene prestazioni inferiori rispetto ai sistemi Google, ma può essere usato senza collegamenti e può essere integrato meglio con sistemi di ufficio • Viene distribuito a pagamento, anche se a costi relativamente accessibili
Tecnologie di Google • Google presenta diverse funzioni in modo un po’ nascosto – a volte usando l’etichetta «Google Voice» • Ha iniziato a supportare i servizi vocali nel 2009, usando come modello acustico il Gaussian Mixture Model (GMM), rafforzato con altre tecniche • Dal 2012, per il riconoscimento del parlato ha iniziato a usare le Recurrent Neural Networks (RNNs), e in particolare un’architettura proposta nel 1997 e chiamata LSTM RNNs (“Long Short-term Memory Recurrent Neural Networks”) • Credo che questo lo strumento usato ancora oggi per tutte le lingue, incluso l’italiano (non ho trovato informazioni più specifiche) • Le reti neurali richiedono allenamento, e i corpora usati per altre attività di elaborazione del linguaggio non aiutano molto, perché sono composti soprattutto di testi scritti, molto lontani dall’uso parlato normale: ne parleremo più avanti
Google Voice Search • Usa il riconoscimento del parlato per fare ricerche • Nella home di Google, aperta con Chrome, compare l’icona del microfono al termine della casella di ricerca In alcuni casi c’è anche una risposta a voce… e non mi è ancora chiaro quale sia il criterio per cui a volte c’è e a volte no
Google Voice Search • Nella mia esperienza, il livello di riconoscimento è molto alto • Un sistema del genere è utile, ovviamente, soprattutto su dispositivi mobili • Sundar Pichai ha dichiarato (Google I/O 2016) che il 20% delle ricerche da mobile adesso è vocale • Sembra molto probabile che le percentuali possano aumentare rapidamente • Una panoramica e qualche dato per il mercato americano: http://searchengineland.com/voice-search-explosion-will-change- local-search-251776
Google Voice Search • Non fa una trascrizione «pura»: ottimizza il lavoro per la ricerca e fornisce una versione normalizzata (evitando molti errori) • Il meccanismo è diverso da quello usato per la ricerca testuale: • A volte la trascrizione «pura» compare nella casella di ricerca, ma viene immediatamente sostituita dalla versione normalizzata
Dettatura nei documenti • Google permette di dettare all’interno dei file di Google Docs • Si attiva (in modo non troppo intuitivo) da: Strumenti > Digitazione vocale oppure da Ctrl + Maiusc + S • Non è richiesto addestramento, e riconosce voci molto diverse • Al momento supporta 43 lingue • Istruzioni: Guida di editor di documenti, registrazione vocale https://support.google.com/docs/answer/4492226?hl=it
Inserimento di parole straniere • In linguistica si distingue a volte tra: – Mescolanza, o code mixing: mescolo le due lingue all’interno di una frase – Commutazione, o code switching: all’interno di un discorso, inserisco frasi intere in lingue diverse • In entrambi i casi, i sistemi di dettatura hanno alcuni problemi a gestire il cambiamento – anche tra lingue supportate • In buona parte è un problema di pronuncia: la pronuncia di uno straniero è spesso comprensibile, ma molto diversa rispetto a quella di un madrelingua • Nella mia esperienza, Google gestisce bene la mescolanza con l’inglese, anche quando si tratta di parole inglesi non inserite nei dizionari italiani; le frasi in inglese invece rappresentano un problema, anche impostando la lingua a «inglese» • Qui sarebbe interessante un confronto linguistico dettagliato!
Parole inventate Il lonfo non vaterca né gluisce e molto raramente barigatta, ma quando soffia il bego a bisce bisce, sdilenca un poco e gnagio s’archipatta. (Fosco Maraini, Il lonfo, in La gnosi delle fanfole) Il riconoscimento viene evidentemente accoppiato all’esame dei testi sul web
Punteggiatura Le indicazioni dicono che è possibile «aggiungere punteggiatura al testo» dando a voce questi comandi: • Punto • Virgola • Punto esclamativo • Punto interrogativo • Nuova riga • Nuovo paragrafo (ma in passato funzionava anche «A capo»… ora direi di no) Nota: questo sistema è disponibile per tedesco, inglese, spagnolo, francese, italiano e russo
Comandi Sono disponibili comandi vocali per il testo, ma solo in inglese: sia l’account che il documento devono essere impostati sulla lingua inglese «Una volta avviata la digitazione vocale, puoi utilizzare i comandi per modificare e formattare il documento. Ad esempio, puoi dire "Select paragraph" (Seleziona paragrafo), "italics" (corsivo) o "Go to the end of the line" (Vai alla fine della riga).» • Selezionare testo • Formattare il documento • Modificare il documento • Aggiungere e modificare tabelle • Spostarsi all’interno del documento • Riattivare la digitazione vocale • Comandi per aprire la guida • Lettura (per l’accessibilità)
Puoi anche leggere