ANALISI AUTOMATICA DEI TESTI
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
ANALISI AUTOMATICA DEI TESTI La Tona Letizia The Text Analysis is the automatic analysis of the text made by means of the computer, its objective is to represent the meaning of the content and to extract information of interest through quantitative measures, it is faster and simpler than the simple reading when large amounts of documents are to be examined. In this paper we introduce the main techniques that have marked the development of the procedures for Text Analysis. The focus is on the statistical methods for Multidimensional Data Analysis and on the recent procedure of Data Mining to extract information suited to the study of unstructured texts. It is highlighted the actual importance of automatic analysis through the results of some studies on real cases. 1 Introduzione Con il termine Text Analysis (TA) s’intende un’analisi automatica del testo effettuata attraverso il computer con l’obiettivo di rappresentarne il contenuto e di estrarre delle informazioni di interesse attraverso misure di tipo quantitativo; l’Analisi automatica è necessaria soprattutto quando il materiale testuale da esaminare è di grandi dimensioni, in quanto risulta veloce e semplificata rispetto alla semplice lettura. Già Berelson (1952), più di mezzo secolo, fa aveva enumerato alcuni dei motivi, tuttora validi, per effettuare l'analisi del contenuto del testo. Essi, in linea generale, sono riassumibili come segue: descrivere le tendenze del contenuto nel tempo, descrivere il focus di attenzione per una serie di argomenti, confrontare le differenze dei testi in relazione ai contenuti, confrontare le differenze individuali nello stile della scrittura, tracciare lo sviluppo dei concetti nella storia culturale, confrontare il contenuto effettivo con contenuti teorici, individuare l’uso di termini nella pubblicità, codificare risposte in indagini a risposta aperta. Lo studio del linguaggio naturale, inteso come capacità di espressione dell’uomo a un determinato livello comunicativo, era tradizionalmente campo di ricerca di linguisti, psicologi e sociologi; diventa oggetto di studio della statistica attraverso l’evolversi della Statistica Testuale e dell’Analisi Automatica dei Testi (Lebart, et al., 1988). L’approccio quantitativo ha spostato l’interesse da una logica di tipo linguistico, prima degli anni Sessanta, a una di tipo lessicale, intorno agli anni Settanta e, infine, ad una di tipo testuale o lessico-testuale, negli anni Ottanta e Novanta. Le concrete possibilità di Analisi del Testo si sono ampliate e arricchite passando, infatti, da un semplice studio quantitativo, nel quale le raccolte di parole si intendono come “campioni” e il numero di volte che si presentano come l’approssimazione delle frequenze, ad uno di tipo testuale, dove si sviluppa una più approfondita analisi statistica in forme grafiche. Successivamente, si è pervenuti a studi più complessi, di tipo lessico-testuale, dove ci si avvale dell’apporto di meta-informazioni di carattere linguistico, di dizionari elettronici, di lessici di frequenza, di grammatiche locali, di trattamenti di normalizzazione, di lemmatizzazione e di lessicalizzazione. È in quest’ultima fase che l’aumento della quantità di testi da esaminare e lo sviluppo di ausilio informatico hanno portato alla diffusione delle tecniche di Text Mining (TM) idonee ad estrarre informazioni da materiali espressi in linguaggio naturale: l’Information Retrieval (IR) e l’Information Extraction (IE). Le tecniche di Text Mining affrontano il problema di esaminare elevate quantità di testi liberi e, nella gran parte dei casi, hanno l’obiettivo di ricavare da documenti non strutturati i dati necessari ad alimentare data-base aziendali con informazioni strutturate, più facili da utilizzare nei processi gestionali. Sinteticamente, si può dire che l’Information Retrieval analizza il testo nella sua globalità, mentre l’Information Extraction seleziona le 1
informazioni specifiche all’interno del testo. In particolare, le tecniche di IE hanno lo scopo di sintetizzare il contenuto informativo recuperato dai documenti rilevanti per un determinato ambito e renderlo disponibile per ulteriori analisi cercando di non perdere informazioni sulle relazioni tra parole. L’obiettivo dell’IR è quello di recuperare informazione automatica dai documenti rilevanti attraverso una richiesta (query); la formulazione esatta della query, intesa come espressione del bisogno informativo dell'utente espresso tramite linguaggio naturale, riveste una importanza cruciale nella ricerca e da essa deriveranno i risultati dell’analisi. Attualmente l’Analisi del Testo trova applicazione in molti ambiti disciplinari, tra i quali: a) linguistica, dove permette di eseguire elaborate analisi di contenuto, in particolare studi stilometrici o di autenticità dell’autore; b) psicologia e sociologia, con analisi di contenuto sia di testi che di materiali testuali provenienti da indagini e sperimentazioni su campo, da interviste, da focus group, da discorsi politici; c) studi specialistici di comunicazione volti al marketing e al linguaggio condotto sui principali tipi di media; d) campo aziendale, dove la tecnologia linguistica, trasformando in dati quantitativi le informazioni di tipo testuale provenienti dalle più svariate fonti (siti web, raccolta dei documenti, e-mail, rassegna stampa, ecc), ha consentito di acquisire utilissime informazioni di marketing in analisi di mercato, analisi di portafoglio, segmentazione del mercato, identificazione profilo di cliente e così via. Scopo di questo lavoro è di introdurre l’Analisi Automatica del Testo e illustrare le principali tecniche che, anche con il supporto dell’informatica, consentono oggi approfonditi studi del contenuto. In particolare, verranno presentate le metodologie statistiche classiche di analisi testuale e le recenti procedure automatiche di estrazione di informazioni idonee principalmente allo studio di materiale non strutturato, la serie di fasi e sottofasi che definiscono la struttura del testo necessarie per la preparazione all’analisi, i modelli di recupero delle informazioni e le tecniche le sintetizzano. Infine, allo scopo di evidenziare il valore concreto delle tecniche esposte, saranno riportati alcuni interessanti studi di analisi del testo presenti in letteratura. Il lavoro è organizzato come segue: nel secondo paragrafo vengono definiti i concetti fondamentali su cui si basa l’Analisi del Testo e le operazioni che costituiscono le fasi di preparazione del documento; nel terzo paragrafo vengono esposte, in una breve rassegna, le metodologie statistiche particolarmente utilizzate per l’analisi dei dati testuali; nel paragrafo quattro viene illustrata la tecnica di Text Mining, comprendendo le fasi di Information Retrieval, ovvero di recupero di informazioni e di Information Extraction, ovvero delle tecniche che puntano a ridurre il corpus del documento; nel paragrafo cinque, sono riportati degli esempi concreti presenti in letteratura in alcuni campi di applicazione; nel paragrafo sei sono contenuti dei commenti conclusivi su alcune fasi dell’Analisi Automatica del Testo. 2. Definizione dei concetti di base e fasi del processo di Text Analysis Il processo di Text Analysis si compone di fasi e sottofasi che operano una trasformazione del testo connessa al linguaggio naturale, finalizzate a definire la struttura dei dati rispetto all’oggetto di studio. È opportuno richiamare, preliminarmente, alcuni concetti di base e relative definizioni sullo studio del testo. La parola, intesa come una forma grafica, ossia sequenza di caratteri, costituisce l’unita elementare del testo e come tale può essere considerata unità statistica; essa dal punto di vista linguistico ha un senso e manifesta concetti che possono esprimere un oggetto, 2
un’azione, una relazione, uno stato, una qualità. Il testo, dal latino textus, è l’insieme delle parole connesse fra loro in unità logico-concettuale con una finalità comunicativa, distinguendolo da un insieme di parole accostate casualmente. Il numero di volte in cui una parola appare nel corso del testo determina le sue occorrenze. La parola nella sua grafia originale nel testo costituisce la forma (forma flessa assunta nel discorso dal corrispondente lemma), il lemma è costituito dalla forma canonica corrispondente all’entrata del termine nel dizionario e rappresenta tutte le flessioni con cui quell’unità lessicale può presentarsi nel discorso. Il tema costituisce la famiglia lessicale di tutti i lemmi derivati da una medesima radice - per esempio, “parl” corrisponde a: parlare, parlato, parlottante, parlucchiare, parlamentare, parlamento, parlamentarista, etc.- (Bolasco et all, 2004). Secondo gli obiettivi dell’analisi, la parola può essere rappresentata come una forma grafica, un lemma, un poliforme o una forma testuale, quest’ultima è un’unità di tipo misto in grado di esprimere al meglio i contenuti del testo. Per preparare l’analisi, dopo aver definito l’insieme dei documenti da analizzare, si inizia esaminando il corpus, ovvero, le parole che compongono la raccolta di testi considerati. A ogni forma o parola diversa si fa corrispondere un codice numerico e l’elenco delle collocazioni di tutte le sue occorrenze nel corpus. Il risultato di questa fase dà luogo alla costruzione del vocabolario del corpus, ossia della lista di tutte le parole diverse che figurano nel testo. Data la vastità del corpus considerato, e poiché non tutte le parole hanno la stessa importanza, non è opportuno tener conto di tutto il testo. A tal fine, è necessario determinare il peso del singolo termine; si pone, cioè, il problema di estrarre l’informazione significativa, ovvero quella parte di linguaggio che contiene gli elementi peculiari del contenuto. L’importanza di una parola può essere indicata dalla sua frequenza che, tuttavia, non è il solo elemento determinante, infatti, anche le parole incontrate una sola o poche volte possono avere un valore rilevante; a tale scopo è bene distinguere preliminarmente tra parole vuote e parole piene. Le prime non sono portatrici di significato autonomo e sono tra le parole più frequenti in quanto necessarie alla costruzione della frase; fanno parte di questa categoria le cosiddette stop word ( quali per esempio, e, il, da, ecc.) e le parole finalizzate a funzioni grammaticali e sintattiche (per esempio, è, poiché, nonostante, ecc). Le parole piene sono rappresentate da quei termini che hanno un senso in sé, e sono costituiti da verbi, aggettivi, sostantivi e avverbi. Il passo successivo per estrarre l’informazione dal testo richiede l’applicazione delle operazioni di normalizzazione, tagging grammaticale, lemmatizzazione o categorizzazione semantica. La normalizzazione è costituita da una serie di operazioni di standardizzazione del testo che viene effettuata sia sulle parole, attraverso il riconoscimento di nomi propri, toponimi, sigle, date, numeri, ecc., sia sulla individuazione di frasi, modi di dire, aforismi, e così via. Il tagging consiste nel contrassegnare la forma con l’attribuzione della sua categoria grammaticale. La lemmatizzazione consiste nel trasformare la forma nel lemma corrispondente (per esempio “correvo” diventa “correre”) ed è una operazione che risolve i problemi grammaticali del testo. I lemmatizzatori automatici, sono strumenti che raggiungono elevatissimi livelli di qualità nella individuazione del giusto lemma; essi, utilizzando catene di Markov e grammatiche locali e basandosi sulla disponibilità di un dizionario elettronico, identificano nel testo strutture e regole capaci di definire univocamente diverse funzioni grammaticali e quindi risalire correttamente al lemma di un termine. Gli aspetti semantici vengono definiti con l’utilizzo di basi di conoscenza, dove per ogni vocabolo sono mano a mano inventariati i diversi significati espressi nel dizionario. 3
Si osserva che, se da una parte la riduzione delle parole alla radice comune fa riconoscere più facilmente significati e informazione sul contenuto, dall’altra può far perdere le diversificazioni di linguaggio in quanto fonde tutte le forme flesse di uno stesso lemma; è per questa ragione che in letteratura (Bolasco, 2005) viene proposta come soluzione “una lemmatizzazione ragionata”. La disambiguazione del testo si riferisce ai problemi di interpretazione del significato del termine che si incontra nel caso di parole ambigue; l’ambiguità può essere di natura lessicale, come nel caso di forme flesse di lemmi differenti, e di natura semantica, nel caso sia riferita a più concetti differenti del termine. Nel TA, per risolvere i termini dubbi e precisarne il significato, si ricorre ad appositi software sviluppati negli ultimi anni basati sull’analisi di sequenze di parole (o segmenti), in grado di condurre una procedura avanzata di disambiguazione automatica. Le fasi iniziali dell’analisi sono relative alla codifica del testo, alla determinazione dell’unita di analisi e al sistema di pesi da adottare; queste operazioni assumono un ruolo rilevante nel processo da cui deriveranno i risultati dell’analisi e la loro la loro pertinenza con gli obiettivi della ricerca prefissati. L’unita elementare del testo è costituita dalle semplici forme grafiche ma anche dalle cosiddette unita minimali di senso, rappresentate da sequenze di caratteri che possiedono un proprio significato autonomo, non desumibile dalle singole parole che le compongono, ad esempio “dato di fatto”. Dopo aver riconosciuto l’unità di analisi, occorre attribuire un codice numerico, uguale se ricorre più volte nel testo; a ogni codice viene associato l’insieme dei suoi indirizzi, cioè delle sue collocazioni nel testo. I testi, o documenti, esaminati vengono trasformati in vettori la cui forma può cosi essere rappresentata: di={ wi1, wi2,…., wij,…., wiq, } dove con wij si indica l’importanza della forma j-esima nel documento i-esimo. Per valutare l’esatto contributo informativo di ogni unita implicata interviene un adeguato sistema di ponderazione. Gli schemi di ponderazione utilizzati sono: 1- lo schema di ponderazione Booleano, o di presenza-assenza, di una determinata forma testuale all’interno di un documento che sicuramente è il più semplice da adottare, anche se il meno efficace. In esso si attribuisce valore wij=1 quando la forma j-esima è presente nel documento i-esimo, valore wij =0 quando la forma j-esima non è presente nel documento i- esimo. In tale sistema l’importanza di ogni forma è valutata allo stesso modo, tanto nei documenti fortemente caratterizzati da essa, quanto nei documenti in cui è priva di contenuto informativo caratterizzante; 2-il sistema delle frequenze, che si basa sullo schema bag-of-word, in cui si assegna al peso wij il valore della frequenza statistica, ovvero il numero di occorrenze della forma j-esima nel documento i-esimo; 3-il sistema di ponderazione Term Frequency - Inverse Document Frequency (TF-IDF) (Salton, et al., 1988) che risulta particolarmente idoneo nelle tecniche di trattamento del linguaggio naturale connesse all’Information Retrieval; esso tiene conto dell’importanza di ogni forma, sia rispetto ad ogni specifico documento che rispetto alla totalità dei documenti contenuti nel corpus. Questo schema è alla base dei sistemi di ponderazione complessi delle forme testuali e si basa su due concetti fondamentali: a) le forme principali (o parole piene) che occorrono con una frequenza maggiore all’interno di un documento sono generalmente più indicative del suo contenuto; b) quanti più documenti contengono un termine tanto meno esso è discriminante per il contenuto, pertanto è necessario valutare il livello di discriminazione delle forme all’interno del corpus. 4
Dall’assunto a) deriva il Term Frequency, ottenuto normalizzando la frequenza f del j- esimo termine t con la frequenza della forma con occorrenza maggiore all’interno del documento i-esimo: tfij = 0,5 + 0,5 fij / max fi . Dall’assunto b) deriva l’Inverse Document Frequency che assume la forma seguente: idfj = log ( n /df j ) dove il numero totale di documenti è indicato da n e d, mentre il numero di documenti in cui appare la forma j-esima è indicato da dfj . L’indice TF-IDF si ottiene combinando i due indici precedenti; in una delle formulazioni più utilizzate, il best fully weighted system, l’indice viene normalizzato con la lunghezza del documento in esame, consentendo in tal modo di mettere a paragone i risultati ottenuti da corpora differenti. Esso è espresso come segue: TF-IDF = fij * [ log ( n /df j ) / √ Σj ( fij log ( n /df j ) )2 ]. 3. Metodologie statistiche di Analisi del Testo Le tecniche di Analisi del Testi negli ultimi cinquant’anni si sono evolute, passando dalle prime indagini elementari ad analisi completamente automatiche, in grado di decifrare il senso di una frase all’interno di vaste raccolte di materiali testuali. Anche le procedure statistiche idonee ad affrontare questi studi si sono sviluppate per adeguarsi alla grande mole di materiale testuale. I primi studi quantitativi sui testi si fondavano su semplici metodi statistici unidimensionali, basati sullo studio statistico della frequenza delle singole parole e soprattutto sull’Analisi delle Concordanze. Questa analisi ricordiamo che, rispetto al solo studio delle frequenze, consente di riconoscere i diversi usi e significati di un termine osservando tutti i contesti locali di una parola d’interesse. Uno studio statistico del testo si effettua a partire dal confronto delle distribuzioni generate dall'insieme delle frequenze delle parole nel testo, ossia dei diversi “profili lessicali”. Attualmente si utilizzano tecniche di Analisi Multidimensionale dei Dati che si rivelano molto utili a trattare le matrici di dati di ampie dimensioni che derivano dall’elevato numero di caratteri che descrivono i profili lessicali d’interesse. Le segmentazioni del corpus danno luogo a matrici di tre tipi diversi: una matrice che associa “parte del testo con le parole” e contiene dati booleani riferiti alla presenza- assenza della parola nella parte esaminata; una matrice che associa “parole per parti” e contiene le frequenze con cui ogni parola ricorre nella parte (sub-testo); una matrice che associa ”parole con parole” e contiene la co-occorrenza di coppie di parole nella parte del corpus, in questo caso la matrice può registrare la sola esistenza dell’associazione (0/1) o pesarne la dimensione. Il profilo lessicale può essere descritto da ogni riga o colonna della matrice. Tutti i metodi statistici di analisi multivariata usati per l’analisi delle matrici tendono a ridurre la multidimensionalità dei dati. I metodi particolarmente utilizzati in questo campo sono: -i metodi fattoriali che, attraverso una riduzione del numero di variabili del fenomeno, producono delle nuove variabili sintetiche in grado di ricostruire i principali assi semantici che caratterizzano la variabilità dei contenuti del testo; -l’analisi delle corrispondenze che, fra parole presenti nel testo, visualizza le principali co- occorrenze sulla base della loro vicinanza nei piani cartesiani costituiti da coppie di assi fattoriali. Si ricostruiscono in tal modo gli schemi del contenuto del testo che danno spesso una riproduzione complessiva del senso del discorso; -i metodi di cluster e di segmentazione che puntano, invece, a ridurre la quantità delle unità statistiche, fornendone una classificazione in grado di circoscrivere delle catalogazioni con 5
le quali individuare simultaneamente le caratteristiche d’interesse, consentono dunque di individuare classi di parole o di frammenti di testo caratterizzati da una forte omogeneità interna. 4 - Il processo di Text Mining Il processo di Text Mining consiste nell’estrazione di pattern utili da testi liberi non strutturati, è un’analisi non semplice che ha lo scopo di classificare i dati testuali per valutare l’appartenenza o meno di un documento ad uno specifico argomento. I problemi più complessi si incontrano nella individuazione del contenuto del testo, nella risoluzione delle ambiguità e degli errori tipografici e grammaticali. Si compone essenzialmente di due procedure“Information Retrival” e “Information Extraction” relative, rispettivamente, alla selezione fra le unità di analisi di quelle maggiormente significative del contenuto del testo e alla sintesi e classificazione del contenuto. a) Information Retrieval Il recupero di informazioni, o Information Retrieval (IR), è un campo interdisciplinare che nasce dal contributo di discipline diverse e coinvolge, specificamente, l'informatica, la linguistica, la semiotica, la scienza dell'informazione, la psicologia cognitiva, l'architettura informativa, la filosofia, ecc. La procedura di IR si esegue su grandi raccolte di testi sulla base di richieste (query) formulate come singole parole o come frasi, l’esempio più comune può essere quello dei motori di ricerca sul web per mezzo di software sviluppati su database che prendono in considerazione non solo i singoli documenti d’interesse, come avviene nei software tradizionali, ma anche le possibili relazioni che tra essi intercorrono. Ai singoli documenti vengono di solito associati dei metadati in modo da ottenere come risultati della query informazioni aggiuntive; i metadati all'interno del documento hanno la funzione di consentire ai motori di ricerca di ottimizzare il recupero dell'informazione, non molto diversamente da quanto farebbe una scheda di catalogo di biblioteca. La procedura di Information Retrieval si compone di due momenti: la selezione delle fonti e il recupero dei testi (unitamente alle eventuali informazioni relative ai metadati). La selezione delle fonti ha il compito di individuare i soli documenti rilevanti rispetto ai criteri della query; le fonti possono essere archivi che contengono informazioni in linguaggio naturale, database strutturati con informazioni già sintetizzate (con o senza metadati), immagini di documenti. Per recuperare i documenti è necessario definire il tipo di analisi da condurre; essa può essere, unicamente o congiuntamente, di tipo ortografico, semantico o statistico. Nell’esame Ortografico il riconoscimento delle parole avviene in base alla loro grafia, scollegate dal contesto; nell’esame Semantico il riconoscimento si cerca attraverso l’associazione della parola al concetto che vuole esprimere e, contemporaneamente, si tiene conto di parole diverse che possono esprimere concetti analoghi; nell’esame Statistico il riconoscimento si effettua attraverso il confronto della frequenza nell’uso delle parole con una distribuzione di riferimento (lessico di frequenza). Dai documenti selezionati secondo i criteri della richiesta si estraggono i frammenti di testo che contengono le parole o le frasi di interesse; una volta individuato, per ciascun termine si determina un peso (a tal fine si può usare la frequenza all’interno del documento o funzioni più complesse, come l’indice TF-IDF). Fondamentale per ottenere buoni risultati è la qualità dell’algoritmo di selezione e di estrazione, soprattutto nel caso di frasi. I sistemi di Information Retrieval, per recuperare l'informazione, usano i linguaggi di interrogazione basati su comandi testuali; sono fondamentali due elementi, la query e 6
l’oggetto. Le query vengono digitate in un sistema IR (per esempio, un motore di ricerca) e sono stringhe di parole-chiave che rappresentano l'informazione richiesta. L’oggetto è un'entità che mantiene o racchiude informazioni in una banca dati; per esempio, un documento di testo è un oggetto di dati. Una tipica ricerca di IR ha come input un comando dell'utente, la sua query viene messa in relazione con gli oggetti presenti nella banca dati e, in risposta, il sistema fornisce un insieme di record che soddisfano le condizioni richieste. È possibile misurare la bontà dell’associazione tra l'informazione e l'informazione recuperata, attraverso indici di precisione, indici di recupero o attraverso una loro media. La precisione rappresenta la proporzione di documenti pertinenti fra quelli recuperati che, nella classificazione binaria, è analoga al valore positivo di previsione. Può anche essere misurata rispetto a un certo valore soglia, piuttosto che relativamente a tutti i documenti recuperati; in questo modo, si può valutare quanti fra i primi n documenti recuperati sono rilevanti per la query. Il significato e l'uso del termine "precisione" nel campo dell'IR differiscono dalla definizione di accuratezza e precisione tipiche della metodologia statistica. Il recupero rappresenta la proporzione fra il numero di documenti rilevanti recuperati e il numero di tutti i documenti rilevanti disponibili nella collezione considerata; nella classificazione binaria, questo valore è chiamato “sensitività”. La misura F è costituita dalla media armonica pesata fra l’indice di precisione e di recupero. I documenti, nella ricerca di informazioni vengono rappresentati con adeguati modelli che possono essere classificati secondo un criterio matematico in: Modelli Set-theoretic, Modelli Algebrici e Modelli Probabilistici. I Modelli Set-theoretic rappresentano i documenti mediante insiemi, le somiglianze derivano da operazioni teoriche su questi insiemi. I modelli più comuni di questa classe sono: il Modello booleano standard, il Modello booleano esteso e il Recupero fuzzy. I Modelli Algebrici rappresentano i documenti e le query con vettori o matrici che, utilizzando un numero finito di operazioni algebriche, vengono trasformati in una misura numerica che esprime il grado di somiglianza dei documenti con la query. I modelli più comuni di questa classe sono: il Modello a spazio vettoriale, il Modello a spazio vettoriale generalizzato, il Topic-based vector space model, il Modello booleano esteso, l’Enhanced topic-based vector space model e la Latent semantic indexing aka latent semantic analysis. I Modelli Probabilistici che, usando i teoremi probabilistici, trattano il processo di recupero dei documenti come un esperimento aleatorio multi-livello, dove le somiglianze sono rappresentate come probabilità. I modelli più comuni di questa classe sono: il Binary independence retrieval, l’Uncertain inference, il Language model e il Divergence from randomness model. In base alle proprietà che presentano, i modelli si possono classificare in Modelli senza interdipendenza dei termini, Modelli con interdipendenza dei termini intrinseca e Modelli con interdipendenza dei termini trascendente. I Modelli senza interdipendenza dei termini trattano diversi termini come non interdipendenti. Ciò viene rappresentato spesso nei modelli a spazi vettoriali supponendo che i vettori dei termini siano ortogonali, o nei modelli probabilistici, supponendo che le variabili dei termini siano indipendenti. I Modelli con interdipendenza dei termini intrinseca consentono una rappresentazione diretta delle interdipendenze tra termini. Il grado di interdipendenza tra due termini è definito dallo stesso modello; in genere, esso è direttamente o indirettamente derivato dalla co-occorrenza di questi termini nell'intero insieme di documenti. I Modelli con interdipendenza dei termini trascendente consentono una rappresentazione diretta delle interdipendenze tra termini, ma non riportano come l'interdipendenza tra due termini sia definita, in quanto si assume riferita ad una fonte esterna. 7
b) Information Extraction Le tecniche di Information Extraction puntano a sintetizzare il contenuto informativo recuperato dai documenti rilevanti e a renderlo disponibile per successive analisi. Il loro obiettivo è quello di ridurre il vocabolario del corpus e di non perdere informazioni sulle relazioni tra parole nel passare dal linguaggio naturale alla sua formalizzazione vettoriale. Un documento si rappresenta generalmente come un vettore nello spazio geometrico definito da un numero di componenti pari all’ampiezza del vocabolario del corpus, ciò comporta problemi di dimensione in quanto cresce con l’ampiezza del vocabolario. Una tra le soluzioni adottate per ridurre la dimensione dei vettori è quella di considerare solo le parole-chiave e utilizzare vettori di dimensione pari solo al numero di parole significative. Per recuperare la perdita di informazione che la rappresentazione vettoriale dei documenti comporta in termini di relazioni tra parole, sono disponibili varie tecniche che si basano sullo studio delle co-occorrenze di parole nell’ambito della stessa frase. Si cerca di derivare delle regole generali di associazione tra le sequenze significative di parole sulla base delle co-occorrenze che superano una soglia stabilita in termini di frequenza. Molto importante per ottenere una sintesi dei documenti è la classificazione; viene eseguita a partire da una lista pre-definita di categorie nelle quali far rientrare i documenti, basandosi sulla presenza delle parole e delle sequenze più significative in essi contenute. L’obiettivo è ottenuto attribuendo un valore vero o falso a ciascuna coppia documento- categoria per tutti i documenti da analizzare e tutte le categorie presenti nelle liste di riferimento. La fase detta Summarization procura una riproduzione astratta dei documenti che accentua i temi qualificanti del testo, vale a dire la famiglia lessicale di tutti i lemmi derivati da una medesima radice, mentre elimina gli altri. Per ottenere ciò è necessario concettualizzare i documenti, riconducendo le parole caratterizzanti a classi di significato derivate da conoscenze esterne al corpus. Infine, si ricorre ai metodi di Cluster o di Analisi di tipo Multidimensionale per visualizzare in un grafico sintetico di facile interpretazione i documenti classificati e spostare l’attenzione dai singoli documenti a gruppi di documenti. 5. Esempi di Text Analysis Uno sguardo sugli ambiti di applicazione dell’Analisi Automatica dei Testi fornisce un tracciato delle concrete possibilità di estrarre conoscenza da un corpus. La maggior parte delle Analisi si fonda sull’interpretazione delle diversificazioni linguistiche e sull’identificazione del contenuto essenziale espresso nei testi. I campi di applicazione e le fonti di provenienza del materiale testuale sono i più diversi. Di questi ultimi fanno parte, oltre ai tradizionali testi letterari, scientifici o di saggistica, tutto il materiale testuale che viene prodotto in ogni settore e circostanza che costituisce la parte predominante di applicazione. Gli esempi spaziano nel vasto campo delle rassegne stampa, discorsi politici, interviste, pubblicità, relazioni di enti, istituzioni ecc.; degli esperimenti di carattere sociale o psicologico, dove si analizzano testi provenienti da indagini su campo; della medicina dove si analizzano testi di protocolli clinici e dalla giurisprudenza dove si analizzano testi di atti processuali; infine, anche dalle trascrizioni di linguaggi visivi, comportamentali, studi su e-mail, ecc. Applicazioni più rilevanti di Text Mining riguardano il campo aziendale e di marketing. In letteratura vi sono molte applicazioni di Text Analysis dedicate al linguaggio utilizzato dalla stampa, tra le quali ricordiamo lo studio “Corpus 8
Rep-90” (Bolasco e Canzonetti, 2003) sull’esame di dieci annate del quotidiano La Repubblica. Illustreremo le fasi dell’analisi e l’informazione che è possibile ottenere dai risultati riportando sinteticamente due ricerche: una rassegna stampa sull’elettrosmog (Bolasco et al., 2004), e uno studio sulle encicliche papali (Bisceglia e Rizzi, 2001). Si farà un cenno alle applicazioni di procedure basate sull’approccio Semiometrico e sul Technology Watch. Il primo studio che riportiamo riguarda una rassegna stampa sull’elettrosmog compiuta allo scopo di monitorare l’attenzione che i quotidiani nazionali hanno dedicato all’inquinamento elettromagnetico. L’analisi si basa sul “Rapporto Interno del Consorzio Elettra 2000” e utilizza un campione di giornali quotidiani a diffusione nazionale e locale in un periodo di quattordici mesi, dall’ottobre 1999 al novembre 2002, la rassegna era costituita da 685 articoli. L’obiettivo era di misurare nel tempo e per zone geografiche il livello di attenzione verso i vari aspetti collegati al fenomeno inquinamento e il loro tipo di percezione al fine di valutare l’atteggiamento, le finalità e i diversi punti di vista assunti delle testate giornalistiche considerate. Per identificare le caratteristiche generali del linguaggio presente nella stampa e catturare la terminologia utilizzata, le fasi di studio hanno comportato: l’analisi del vocabolario utilizzato in termini di forme testuali più frequenti, l’evidenziazione dei lemmi più ricorrenti per categorie grammaticali e l’individuazione del linguaggio peculiare che, mediante una riduzione al tema delle principali unità lessicali selezionate, ha permesso di quantificare le diverse percezioni del fenomeno. Dall’osservazione del vocabolario, che per brevità non è qui riportato (vedi Bolasco et al, 2004), si è notato che il termine elettrosmog non è la parola-tema per eccellenza, ma è preceduta dai termini quali: antenne, telefonia, ripetitori, installazione, impianti, onde e cellulari. Ciò ha consentito agli autori di definire il vasto “tratto semantico” che s’incentra intorno all’argomento, ancor meglio delimitabile dalle espressioni più ricorrenti dove appaiono anche termini riguardanti il comune, la raccolta firme, la salute, la collocazione degli impianti. Queste parole segnalano la sensibilità ai problemi collegati con l’opinione pubblica e, dal punto di vista politico, con le istituzioni. Successivamente, confrontando i profili lessicali dei vari giornali mediante l’applicazione di un opportuno test statistico, sono state estratte le parole e le espressioni specifiche di ciascun giornale. Queste hanno fatto emergere le risultanze tematiche generali sui vari modi in cui il fenomeno è stato percepito, i diversi livelli di attenzione e il tipo di polemiche sollevate dalla stampa. Dallo studio è emerso che esistono profonde diversità di trattazione del fenomeno tra i quotidiani considerati, in gran parte dipendente dall’area geografica d’appartenenza della testata, ma anche dall’essere un quotidiano a carattere nazionale o locale. Si è potuto evincere che testate quali: La Stampa, il Corriere della Sera, Il Sole 24 Ore, Italia Oggi, Il Messaggero e La Repubblica, ponevano un’attenzione maggiore, sia in assoluto sia rispetto agli altri giornali, a una trattazione del fenomeno in termini di tematiche generali sull’ambiente, l’elettrosmog, la salute, la ricerca, ma parlavano anche significativamente dei prodotti. Al contrario, testate quali Il Tirreno, Il Secolo XIX, il Corriere Adriatico e altri giornali regionali incentravano la loro attenzione su problemi locali e specifici, legati al territorio e risultavano sensibili alle opinioni dei cittadini e delle istituzioni di governo locali. Il secondo esempio di applicazione di TA molto interessante che riportiamo si trova nello “Studio sulle encicliche papali” di Bisceglia e Rizzi (2001). In esso si mostra che anche solo le frequenze sono in grado di distinguere alcuni elementi essenziali dei documenti esaminati e di caratterizzarli. In questo studio, infatti, si evidenzia come le occorrenze dei termini nelle encicliche papali costituiscono gli elementi che tipicizzano i pontificati. Sono stati analizzati i contenuti delle encicliche di papa Pio XII, papa Giovanni XXIII, papa 9
Paolo VI e papa Giovanni Paolo II e si sono osservati i termini delle prime cinque occorrenze più utilizzate dai quattro pontefici. Dallo studio è emerso che il termine fede è presente solo in papa Pio XII, i termini bene e sociale sono presenti solo in papa Giovanni XXIII, il termine mondo è presente solo in papa Paolo VI e il termine uomo è presente solo in papa Giovanni Paolo II. Gli autori della ricerca sottolineano come l’esclusività di questi termini qualifica e distingue il carattere del pontificato; al contrario, i termini Dio, chiesa e vita comuni ai quattro papi rendono il contenuto meno significativo, perché termini attesi. Altre interessanti applicazioni di Text Analysis si trovano nei campi del marketing e degli studi socio-psicologici, dove l’estrazione di informazione semantica ottenuta con l’approccio semiometrico ha fornito un grande contributo all’analisi del contenuto. Le tecniche basate su tale approccio, a partire da un campione di individui intervistati, creano legami semantici fra le parole in grado di descrivere sistemi di valori e stili di vita. Per ottenere il posizionamento degli individui su polarizzazioni semantiche, la rappresentazione dell’informazione utilizzata è quella dei piani fattoriali ottenuti con l’analisi delle corrispondenze. Un’applicazione di Text Mining per il Technology Watch si trova all'interno del progetto europeo FANTASIE (Forecasting and Assessment of New Technologies and Transport System and their Impact on the Environment) sullo sviluppo tecnologico legato ai problemi dei trasporti e del traffico, finalizzato a valutarne la situazione attuale e gli sviluppi a breve e medio termine. Infine, un ulteriore esempio di applicazione di procedure di TM proviene dal campo biomedico, nel quale Cineca (www.cineca.it) ha analizzato circa 400.000 pubblicazioni medico-scientifiche riguardanti il ciclo di vita delle cellule (fonte PubMed: http://www.pubmed. com), con l’obiettivo di individuare automaticamente pattern di parole in grado di selezionare documenti secondo citazioni dirette di nomi di geni o frasi descrittive di concetti altamente correlati con essi. 6. Conclusioni Le tecniche sempre più complesse per lo studio del contenuto dei testi - estrazione, analisi e organizzazione dell’informazione - utilizzano un insieme di strumenti nati in ambito informatico e statistico. Negli ultimi anni, l’importanza acquisita dai dati non strutturati è accresciuta tanto da considerare predominante il ruolo del Text Mining rispetto all’Analisi Multidimensionale dei Dati, i cui metodi, nell'estrazione di conoscenza da ampie collezioni di documenti, enfatizzano le specificità del punto di vista statistico. Partendo da una netta distinzione tra le tematiche proprie dell’Analisi Multidimensionale dei Dati Testuali e di quelle proprie del TM, è auspicabile che tra i due approcci si crei una maggiore sinergia che consenta di migliorare gli apporti che le due discipline possono dare in alcune fasi del processo per ottimizzarlo, per esempio, nelle scelte delle codifiche, delle misure delle distanze e dei sistemi di pesi. A questo riguardo, è noto che la scelta si rivela fondamentale per qualsiasi trattamento quantitativo di dati testuali che debba rappresentare adeguatamente l’importanza delle parole, in relazione al loro potere discriminante e al loro contributo informativo. Tuttavia, non vi sono scelte buone in tutte le circostanze di studio, perché sono gli specifici obiettivi di analisi a determinare la loro bontà. In riferimento alla scelta dei pesi, la qualità è associata alle nozioni di frequenza per le parole e di lunghezza per i documenti e non permette di introdurre nell'analisi ulteriori elementi informativi esterni al corpus, quali, per esempio, potrebbero essere quelli espressi in termini di maggiore o minore attinenza con l'oggetto di studio o con la fonte di produzione del documento. Un approccio interdisciplinare, unitamente ai ricercatori dei 10
vari ambiti disciplinari coinvolti, potrebbe apportare un contributo in tal senso e sostenere un quadro metodologico di contesto più ampio. Le procedure di trasformazione del testo da sottoporre all'analisi necessitano di una serie di sottofasi legate alle leggi del linguaggio naturale. Alcune di tali fasi, quali ad esempio identificazione dell'unità minima di senso, disambiguazione o tagging grammaticale, sono il risultato di valutazioni soggettive, e pertanto arbitrarie. Tuttavia, le difficoltà dovute all’enorme peso computazionale nei software di TM consentono solo di operare sulle forme grafiche (termini, parole) e non di recepire il vivace dibattito in atto nella letteratura della statistica testuale sulla scelta dell'unità d'analisi (Bolasco, 1999). Dallo sguardo sulle caratteristiche dell’analisi automatica dei testi sono apparse evidenti le concrete possibilità di estrarre informazione d’insieme da un corpus, sia nella tradizione degli studi di analisi del contenuto che nelle recenti tecniche di Text Mining a fini aziendali. Appare interessante osservare che oggi, attraverso delle adeguate scelte nelle varie fasi del processo di Analisi del Testo, è possibile ottenere una buona comprensione del suo contenuto senza dovere necessariamente leggerlo. Riferimenti bibliografici 1. Balbi S., Misuraca M.: Pesi e metriche per l’analisi dei dati testuali - Quaderni di Statistica Vol. 7, 2005. 2. Banks D. et al. (eds.): Classification, Clustering and Data Mining Applications, Springer-Verlag, Berlin. 3. Benzécri J.P.: Pratique de l’Analyse des Données, tome 3: Linguistique et Lexicologie. Dunod, 1981, Paris. 4. Benzécri J.P.: Histoire et préhistoire de l’analyse des données. Dunod, 1982, Paris. Berelson, B. (1952) : Content Analysis in Communication Research. Glencoe, III:Free Press. 5. Bisceglia B., Rizzi A.: Alcune analisi statistiche delle encicliche papali. Libreria Editrice Vaticana, 2001. Città del Vaticano. 6. Bolasco S., Lebart L., Salem, A.: JADT 1995 - Analisi statistica dei dati testuali. CISU, Roma, Vol. 2, 1995b. 7. Bolasco S.: L’analisi multidimensionale dei dati. Carocci ed., Roma, 1999. 8. Bolasco S., Canzonetti A. (2003): Some insight on the evolution of 1990s. Standard Italian, by Text Mining techniques and automatic categorization using the lexicon of daily "La Republican", CLADAG’03. 9. Bolasco S., Bisceglia B., Baiocchi F.: Estrazione Automatica D’Informazione dai Testi. Mondo Digitale n.1, marzo 2004. 10. Bolasco S.: Statistica testuale e text mining: alcuni paradigmi applicativi. Quaderni di Statistica, Liguori, 2005 - Vol. 7. 11. Cipriani R., Bolasco S.: Ricerca qualitativa e computer. F. Angeli, 1995, Milano. 12. Elia A.: Dizionari elettronici e applicazioni informatiche. In: Bolasco S., et al. (Eds.), 1995. 13. Elia A.: Per una disambiguazione semi-automaticadi sintagmi composti: i dizionari elettronici lessico-grammaticali. In: Cipriani R. e Bolasco S. (Eds.), 1995b. 14. Herdan G.:. Linguistica quantitativa, Il Mulino, Bologna, 1971. 15. Lebart A. e Salem S.: Analyse statistique des données textuelles. Dunod, 1988, Paris. 16. Lebart L., Salem A.: Statistique textuelle. Dunod, 1994, Paris. 17. Lebart L., Salem A., Berry L.: Exploring Textual Data. Kluwer Academic Publishers, Dordrecht-Boston-London, 1998. 18. Salton G. e Buckley C.: Term weighting approaches in automatic text retrieval. Information Processing & management, 1988. - Vol. 24. 11
19. Salton G.: Automatic Text Processing: The Transformation, Analysis, and Retrieval of Informationby Computer. Addison-Wesley, 1989. 20. Sebastiani F.: Machine Learning in Automated Text Categorization. ACM Computing Surveys,Vol. 34, n. 1, 2002. 21. Zampolli A., Calzolari N.: Problemi, metodi eprospettive nel trattamento del linguaggio naturale: l’evoluzione del concetto di risorse linguistiche, 1992. In: Cipriani R. e Bolasco S. 22. van Rijsbergen C. J.: Information Retrieval, on line book, 1980. 12
Puoi anche leggere