ANALISI AUTOMATICA DEI TESTI

Pagina creata da Luigi Re
 
CONTINUA A LEGGERE
ANALISI AUTOMATICA DEI TESTI
La Tona Letizia

The Text Analysis is the automatic analysis of the text made by means of the
computer, its objective is to represent the meaning of the content and to extract
information of interest through quantitative measures, it is faster and simpler than the
simple reading when large amounts of documents are to be examined.
In this paper we introduce the main techniques that have marked the development of
the procedures for Text Analysis. The focus is on the statistical methods for
Multidimensional Data Analysis and on the recent procedure of Data Mining to
extract information suited to the study of unstructured texts. It is highlighted the
actual importance of automatic analysis through the results of some studies on real
cases.

1 Introduzione

Con il termine Text Analysis (TA) s’intende un’analisi automatica del testo effettuata
attraverso il computer con l’obiettivo di rappresentarne il contenuto e di estrarre delle
informazioni di interesse attraverso misure di tipo quantitativo; l’Analisi automatica è
necessaria soprattutto quando il materiale testuale da esaminare è di grandi dimensioni, in
quanto risulta veloce e semplificata rispetto alla semplice lettura.
Già Berelson (1952), più di mezzo secolo, fa aveva enumerato alcuni dei motivi, tuttora
validi, per effettuare l'analisi del contenuto del testo. Essi, in linea generale, sono
riassumibili come segue: descrivere le tendenze del contenuto nel tempo, descrivere il focus
di attenzione per una serie di argomenti, confrontare le differenze dei testi in relazione ai
contenuti, confrontare le differenze individuali nello stile della scrittura, tracciare lo
sviluppo dei concetti nella storia culturale, confrontare il contenuto effettivo con contenuti
teorici, individuare l’uso di termini nella pubblicità, codificare risposte in indagini a
risposta aperta.
Lo studio del linguaggio naturale, inteso come capacità di espressione dell’uomo a un
determinato livello comunicativo, era tradizionalmente campo di ricerca di linguisti,
psicologi e sociologi; diventa oggetto di studio della statistica attraverso l’evolversi della
Statistica Testuale e dell’Analisi Automatica dei Testi (Lebart, et al., 1988). L’approccio
quantitativo ha spostato l’interesse da una logica di tipo linguistico, prima degli anni
Sessanta, a una di tipo lessicale, intorno agli anni Settanta e, infine, ad una di tipo testuale o
lessico-testuale, negli anni Ottanta e Novanta. Le concrete possibilità di Analisi del Testo si
sono ampliate e arricchite passando, infatti, da un semplice studio quantitativo, nel quale le
raccolte di parole si intendono come “campioni” e il numero di volte che si presentano
come l’approssimazione delle frequenze, ad uno di tipo testuale, dove si sviluppa una più
approfondita analisi statistica in forme grafiche. Successivamente, si è pervenuti a studi più
complessi, di tipo lessico-testuale, dove ci si avvale dell’apporto di meta-informazioni di
carattere linguistico, di dizionari elettronici, di lessici di frequenza, di grammatiche locali,
di trattamenti di normalizzazione, di lemmatizzazione e di lessicalizzazione. È in
quest’ultima fase che l’aumento della quantità di testi da esaminare e lo sviluppo di ausilio
informatico hanno portato alla diffusione delle tecniche di Text Mining (TM) idonee ad
estrarre informazioni da materiali espressi in linguaggio naturale: l’Information Retrieval
(IR) e l’Information Extraction (IE).
Le tecniche di Text Mining affrontano il problema di esaminare elevate quantità di testi
liberi e, nella gran parte dei casi, hanno l’obiettivo di ricavare da documenti non strutturati i
dati necessari ad alimentare data-base aziendali con informazioni strutturate, più facili da
utilizzare nei processi gestionali. Sinteticamente, si può dire che l’Information Retrieval
analizza il testo nella sua globalità, mentre l’Information Extraction seleziona le
                                                                                          1
informazioni specifiche all’interno del testo. In particolare, le tecniche di IE hanno lo scopo
di sintetizzare il contenuto informativo recuperato dai documenti rilevanti per un
determinato ambito e renderlo disponibile per ulteriori analisi cercando di non perdere
informazioni sulle relazioni tra parole. L’obiettivo dell’IR è quello di recuperare
informazione automatica dai documenti rilevanti attraverso una richiesta (query); la
formulazione esatta della query, intesa come espressione del bisogno informativo
dell'utente espresso tramite linguaggio naturale, riveste una importanza cruciale nella
ricerca e da essa deriveranno i risultati dell’analisi.
Attualmente l’Analisi del Testo trova applicazione in molti ambiti disciplinari, tra i quali:
a) linguistica, dove permette di eseguire elaborate analisi di contenuto, in particolare studi
stilometrici o di autenticità dell’autore;
b) psicologia e sociologia, con analisi di contenuto sia di testi che di materiali testuali
provenienti da indagini e sperimentazioni su campo, da interviste, da focus group, da
discorsi politici;
c) studi specialistici di comunicazione volti al marketing e al linguaggio condotto sui
principali tipi di media;
d) campo aziendale, dove la tecnologia linguistica, trasformando in dati quantitativi le
informazioni di tipo testuale provenienti dalle più svariate fonti (siti web, raccolta dei
documenti, e-mail, rassegna stampa, ecc), ha consentito di acquisire utilissime informazioni
di marketing in analisi di mercato, analisi di portafoglio, segmentazione del mercato,
identificazione profilo di cliente e così via.
Scopo di questo lavoro è di introdurre l’Analisi Automatica del Testo e illustrare le
principali tecniche che, anche con il supporto dell’informatica, consentono oggi
approfonditi studi del contenuto. In particolare, verranno presentate le metodologie
statistiche classiche di analisi testuale e le recenti procedure automatiche di estrazione di
informazioni idonee principalmente allo studio di materiale non strutturato, la serie di fasi e
sottofasi che definiscono la struttura del testo necessarie per la preparazione all’analisi, i
modelli di recupero delle informazioni e le tecniche le sintetizzano. Infine, allo scopo di
evidenziare il valore concreto delle tecniche esposte, saranno riportati alcuni interessanti
studi di analisi del testo presenti in letteratura.
Il lavoro è organizzato come segue: nel secondo paragrafo vengono definiti i concetti
fondamentali su cui si basa l’Analisi del Testo e le operazioni che costituiscono le fasi di
preparazione del documento; nel terzo paragrafo vengono esposte, in una breve rassegna, le
metodologie statistiche particolarmente utilizzate per l’analisi dei dati testuali; nel
paragrafo quattro viene illustrata la tecnica di Text Mining, comprendendo le fasi di
Information Retrieval, ovvero di recupero di informazioni e di Information Extraction,
ovvero delle tecniche che puntano a ridurre il corpus del documento; nel paragrafo cinque,
sono riportati degli esempi concreti presenti in letteratura in alcuni campi di applicazione;
nel paragrafo sei sono contenuti dei commenti conclusivi su alcune fasi dell’Analisi
Automatica del Testo.

2. Definizione dei concetti di base e fasi del processo di Text Analysis

Il processo di Text Analysis si compone di fasi e sottofasi che operano una trasformazione
del testo connessa al linguaggio naturale, finalizzate a definire la struttura dei dati rispetto
all’oggetto di studio.
È opportuno richiamare, preliminarmente, alcuni concetti di base e relative definizioni sullo
studio del testo.
La parola, intesa come una forma grafica, ossia sequenza di caratteri, costituisce l’unita
elementare del testo e come tale può essere considerata unità statistica; essa dal punto di
vista linguistico ha un senso e manifesta concetti che possono esprimere un oggetto,
                                                                                       2
un’azione, una relazione, uno stato, una qualità. Il testo, dal latino textus, è l’insieme delle
parole connesse fra loro in unità logico-concettuale con una finalità comunicativa,
distinguendolo da un insieme di parole accostate casualmente. Il numero di volte in cui una
parola appare nel corso del testo determina le sue occorrenze.
La parola nella sua grafia originale nel testo costituisce la forma (forma flessa assunta nel
discorso dal corrispondente lemma), il lemma è costituito dalla forma canonica
corrispondente all’entrata del termine nel dizionario e rappresenta tutte le flessioni con cui
quell’unità lessicale può presentarsi nel discorso. Il tema costituisce la famiglia lessicale di
tutti i lemmi derivati da una medesima radice - per esempio, “parl” corrisponde a: parlare,
parlato, parlottante, parlucchiare, parlamentare, parlamento, parlamentarista, etc.- (Bolasco
et all, 2004).
Secondo gli obiettivi dell’analisi, la parola può essere rappresentata come una forma
grafica, un lemma, un poliforme o una forma testuale, quest’ultima è un’unità di tipo misto
in grado di esprimere al meglio i contenuti del testo.
Per preparare l’analisi, dopo aver definito l’insieme dei documenti da analizzare, si inizia
esaminando il corpus, ovvero, le parole che compongono la raccolta di testi considerati. A
ogni forma o parola diversa si fa corrispondere un codice numerico e l’elenco delle
collocazioni di tutte le sue occorrenze nel corpus. Il risultato di questa fase dà luogo alla
costruzione del vocabolario del corpus, ossia della lista di tutte le parole diverse che
figurano nel testo.
Data la vastità del corpus considerato, e poiché non tutte le parole hanno la stessa
importanza, non è opportuno tener conto di tutto il testo. A tal fine, è necessario
determinare il peso del singolo termine; si pone, cioè, il problema di estrarre l’informazione
significativa, ovvero quella parte di linguaggio che contiene gli elementi peculiari del
contenuto.
L’importanza di una parola può essere indicata dalla sua frequenza che, tuttavia, non è il
solo elemento determinante, infatti, anche le parole incontrate una sola o poche volte
possono avere un valore rilevante; a tale scopo è bene distinguere preliminarmente tra
parole vuote e parole piene. Le prime non sono portatrici di significato autonomo e sono
tra le parole più frequenti in quanto necessarie alla costruzione della frase; fanno parte di
questa categoria le cosiddette stop word ( quali per esempio, e, il, da, ecc.) e le parole
finalizzate a funzioni grammaticali e sintattiche (per esempio, è, poiché, nonostante, ecc).
Le parole piene sono rappresentate da quei termini che hanno un senso in sé, e sono
costituiti da verbi, aggettivi, sostantivi e avverbi.
Il passo successivo per estrarre l’informazione dal testo richiede l’applicazione delle
operazioni di normalizzazione, tagging grammaticale, lemmatizzazione o categorizzazione
semantica.
La normalizzazione è costituita da una serie di operazioni di standardizzazione del testo che
viene effettuata sia sulle parole, attraverso il riconoscimento di nomi propri, toponimi,
sigle, date, numeri, ecc., sia sulla individuazione di frasi, modi di dire, aforismi, e così via.
Il tagging consiste nel contrassegnare la forma con l’attribuzione della sua categoria
grammaticale.
La lemmatizzazione consiste nel trasformare la forma nel lemma corrispondente (per
esempio “correvo” diventa “correre”) ed è una operazione che risolve i problemi
grammaticali del testo. I lemmatizzatori automatici, sono strumenti che raggiungono
elevatissimi livelli di qualità nella individuazione del giusto lemma; essi, utilizzando catene
di Markov e grammatiche locali e basandosi sulla disponibilità di un dizionario elettronico,
identificano nel testo strutture e regole capaci di definire univocamente diverse funzioni
grammaticali e quindi risalire correttamente al lemma di un termine. Gli aspetti semantici
vengono definiti con l’utilizzo di basi di conoscenza, dove per ogni vocabolo sono mano a
mano inventariati i diversi significati espressi nel dizionario.

                                                                                        3
Si osserva che, se da una parte la riduzione delle parole alla radice comune fa riconoscere
più facilmente significati e informazione sul contenuto, dall’altra può far perdere le
diversificazioni di linguaggio in quanto fonde tutte le forme flesse di uno stesso lemma; è
per questa ragione che in letteratura (Bolasco, 2005) viene proposta come soluzione “una
lemmatizzazione ragionata”.
La disambiguazione del testo si riferisce ai problemi di interpretazione del significato del
termine che si incontra nel caso di parole ambigue; l’ambiguità può essere di natura
lessicale, come nel caso di forme flesse di lemmi differenti, e di natura semantica, nel caso
sia riferita a più concetti differenti del termine. Nel TA, per risolvere i termini dubbi e
precisarne il significato, si ricorre ad appositi software sviluppati negli ultimi anni basati
sull’analisi di sequenze di parole (o segmenti), in grado di condurre una procedura avanzata
di disambiguazione automatica.
Le fasi iniziali dell’analisi sono relative alla codifica del testo, alla determinazione
dell’unita di analisi e al sistema di pesi da adottare; queste operazioni assumono un ruolo
rilevante nel processo da cui deriveranno i risultati dell’analisi e la loro la loro pertinenza
con gli obiettivi della ricerca prefissati.
L’unita elementare del testo è costituita dalle semplici forme grafiche ma anche dalle
cosiddette unita minimali di senso, rappresentate da sequenze di caratteri che possiedono
un proprio significato autonomo, non desumibile dalle singole parole che le compongono,
ad esempio “dato di fatto”.
Dopo aver riconosciuto l’unità di analisi, occorre attribuire un codice numerico, uguale se
ricorre più volte nel testo; a ogni codice viene associato l’insieme dei suoi indirizzi, cioè
delle sue collocazioni nel testo.
I testi, o documenti, esaminati vengono trasformati in vettori la cui forma può cosi essere
rappresentata:
                         di={ wi1, wi2,…., wij,…., wiq, }
dove con wij si indica l’importanza della forma j-esima nel documento i-esimo.
Per valutare l’esatto contributo informativo di ogni unita implicata interviene un adeguato
sistema di ponderazione.
Gli schemi di ponderazione utilizzati sono:
1- lo schema di ponderazione Booleano, o di presenza-assenza, di una determinata forma
testuale all’interno di un documento che sicuramente è il più semplice da adottare, anche se
il meno efficace. In esso si attribuisce valore wij=1 quando la forma j-esima è presente nel
documento i-esimo, valore wij =0 quando la forma j-esima non è presente nel documento i-
esimo. In tale sistema l’importanza di ogni forma è valutata allo stesso modo, tanto nei
documenti fortemente caratterizzati da essa, quanto nei documenti in cui è priva di
contenuto informativo caratterizzante;
2-il sistema delle frequenze, che si basa sullo schema bag-of-word, in cui si assegna al peso
wij il valore della frequenza statistica, ovvero il numero di occorrenze della forma j-esima
nel documento i-esimo;
3-il sistema di ponderazione Term Frequency - Inverse Document Frequency (TF-IDF)
(Salton, et al., 1988) che risulta particolarmente idoneo nelle tecniche di trattamento del
linguaggio naturale connesse all’Information Retrieval; esso tiene conto dell’importanza di
ogni forma, sia rispetto ad ogni specifico documento che rispetto alla totalità dei documenti
contenuti nel corpus. Questo schema è alla base dei sistemi di ponderazione complessi
delle forme testuali e si basa su due concetti fondamentali:
a) le forme principali (o parole piene) che occorrono con una frequenza maggiore
all’interno di un documento sono generalmente più indicative del suo contenuto;
b) quanti più documenti contengono un termine tanto meno esso è discriminante per il
contenuto, pertanto è necessario valutare il livello di discriminazione delle forme
all’interno del corpus.

                                                                                       4
Dall’assunto a) deriva il Term Frequency, ottenuto normalizzando la frequenza f del j-
esimo termine t con la frequenza della forma con occorrenza maggiore all’interno del
documento i-esimo:
                    tfij = 0,5 + 0,5 fij / max fi .
Dall’assunto b) deriva l’Inverse Document Frequency che assume la forma seguente:
                     idfj = log ( n /df j )
dove il numero totale di documenti è indicato da n e d, mentre il numero di documenti in
cui appare la forma j-esima è indicato da dfj .
 L’indice TF-IDF si ottiene combinando i due indici precedenti; in una delle formulazioni
più utilizzate, il best fully weighted system, l’indice viene normalizzato con la lunghezza
del documento in esame, consentendo in tal modo di mettere a paragone i risultati ottenuti
da corpora differenti. Esso è espresso come segue:

                   TF-IDF = fij * [ log ( n /df j ) / √ Σj ( fij log ( n /df j ) )2 ].

3. Metodologie statistiche di Analisi del Testo

 Le tecniche di Analisi del Testi negli ultimi cinquant’anni si sono evolute, passando dalle
 prime indagini elementari ad analisi completamente automatiche, in grado di decifrare il
 senso di una frase all’interno di vaste raccolte di materiali testuali. Anche le procedure
 statistiche idonee ad affrontare questi studi si sono sviluppate per adeguarsi alla grande
 mole di materiale testuale. I primi studi quantitativi sui testi si fondavano su semplici
 metodi statistici unidimensionali, basati sullo studio statistico della frequenza delle singole
 parole e soprattutto sull’Analisi delle Concordanze. Questa analisi ricordiamo che, rispetto
 al solo studio delle frequenze, consente di riconoscere i diversi usi e significati di un
 termine osservando tutti i contesti locali di una parola d’interesse.
 Uno studio statistico del testo si effettua a partire dal confronto delle distribuzioni generate
 dall'insieme delle frequenze delle parole nel testo, ossia dei diversi “profili lessicali”.
 Attualmente si utilizzano tecniche di Analisi Multidimensionale dei Dati che si rivelano
 molto utili a trattare le matrici di dati di ampie dimensioni che derivano dall’elevato
 numero di caratteri che descrivono i profili lessicali d’interesse.
 Le segmentazioni del corpus danno luogo a matrici di tre tipi diversi: una matrice che
associa “parte del testo con le parole” e contiene dati booleani riferiti alla presenza- assenza
 della parola nella parte esaminata; una matrice che associa “parole per parti” e contiene le
 frequenze con cui ogni parola ricorre nella parte (sub-testo); una matrice che associa
”parole con parole” e contiene la co-occorrenza di coppie di parole nella parte del corpus,
in questo caso la matrice può registrare la sola esistenza dell’associazione (0/1) o pesarne la
dimensione. Il profilo lessicale può essere descritto da ogni riga o colonna della matrice.
Tutti i metodi statistici di analisi multivariata usati per l’analisi delle matrici tendono a
ridurre la multidimensionalità dei dati.
I metodi particolarmente utilizzati in questo campo sono:
-i metodi fattoriali che, attraverso una riduzione del numero di variabili del fenomeno,
producono delle nuove variabili sintetiche in grado di ricostruire i principali assi semantici
che caratterizzano la variabilità dei contenuti del testo;
-l’analisi delle corrispondenze che, fra parole presenti nel testo, visualizza le principali co-
occorrenze sulla base della loro vicinanza nei piani cartesiani costituiti da coppie di assi
fattoriali. Si ricostruiscono in tal modo gli schemi del contenuto del testo che danno spesso
una riproduzione complessiva del senso del discorso;
-i metodi di cluster e di segmentazione che puntano, invece, a ridurre la quantità delle unità
statistiche, fornendone una classificazione in grado di circoscrivere delle catalogazioni con
                                                                                         5
le quali individuare simultaneamente le caratteristiche d’interesse, consentono dunque di
individuare classi di parole o di frammenti di testo caratterizzati da una forte omogeneità
interna.

4 - Il processo di Text Mining

Il processo di Text Mining consiste nell’estrazione di pattern utili da testi liberi non
strutturati, è un’analisi non semplice che ha lo scopo di classificare i dati testuali per
valutare l’appartenenza o meno di un documento ad uno specifico argomento. I problemi
più complessi si incontrano nella individuazione del contenuto del testo, nella risoluzione
delle ambiguità e degli errori tipografici e grammaticali. Si compone essenzialmente di due
procedure“Information Retrival” e “Information Extraction” relative, rispettivamente, alla
selezione fra le unità di analisi di quelle maggiormente significative del contenuto del testo
e alla sintesi e classificazione del contenuto.

a) Information Retrieval

Il recupero di informazioni, o Information Retrieval (IR), è un campo interdisciplinare che
nasce dal contributo di discipline diverse e coinvolge, specificamente, l'informatica, la
linguistica, la semiotica, la scienza dell'informazione, la psicologia cognitiva, l'architettura
informativa, la filosofia, ecc.
La procedura di IR si esegue su grandi raccolte di testi sulla base di richieste (query)
formulate come singole parole o come frasi, l’esempio più comune può essere quello dei
motori di ricerca sul web per mezzo di software sviluppati su database che prendono in
considerazione non solo i singoli documenti d’interesse, come avviene nei software
tradizionali, ma anche le possibili relazioni che tra essi intercorrono. Ai singoli documenti
vengono di solito associati dei metadati in modo da ottenere come risultati della query
informazioni aggiuntive; i metadati all'interno del documento hanno la funzione di
consentire ai motori di ricerca di ottimizzare il recupero dell'informazione, non molto
diversamente da quanto farebbe una scheda di catalogo di biblioteca.
La procedura di Information Retrieval si compone di due momenti: la selezione delle fonti
e il recupero dei testi (unitamente alle eventuali informazioni relative ai metadati).
La selezione delle fonti ha il compito di individuare i soli documenti rilevanti rispetto ai
criteri della query; le fonti possono essere archivi che contengono informazioni in
linguaggio naturale, database strutturati con informazioni già sintetizzate (con o senza
metadati), immagini di documenti.
Per recuperare i documenti è necessario definire il tipo di analisi da condurre; essa può
essere, unicamente o congiuntamente, di tipo ortografico, semantico o statistico.
Nell’esame Ortografico il riconoscimento delle parole avviene in base alla loro grafia,
scollegate dal contesto; nell’esame Semantico il riconoscimento si cerca attraverso
l’associazione della parola al concetto che vuole esprimere e, contemporaneamente, si tiene
conto di parole diverse che possono esprimere concetti analoghi; nell’esame Statistico il
riconoscimento si effettua attraverso il confronto della frequenza nell’uso delle parole con
una distribuzione di riferimento (lessico di frequenza).
Dai documenti selezionati secondo i criteri della richiesta si estraggono i frammenti di testo
che contengono le parole o le frasi di interesse; una volta individuato, per ciascun termine
si determina un peso (a tal fine si può usare la frequenza all’interno del documento o
funzioni più complesse, come l’indice TF-IDF). Fondamentale per ottenere buoni risultati è
la qualità dell’algoritmo di selezione e di estrazione, soprattutto nel caso di frasi.
I sistemi di Information Retrieval, per recuperare l'informazione, usano i linguaggi di
interrogazione basati su comandi testuali; sono fondamentali due elementi, la query e
                                                                                       6
l’oggetto. Le query vengono digitate in un sistema IR (per esempio, un motore di ricerca) e
sono stringhe di parole-chiave che rappresentano l'informazione richiesta. L’oggetto è
un'entità che mantiene o racchiude informazioni in una banca dati; per esempio, un
documento di testo è un oggetto di dati.
Una tipica ricerca di IR ha come input un comando dell'utente, la sua query viene messa in
relazione con gli oggetti presenti nella banca dati e, in risposta, il sistema fornisce un
insieme di record che soddisfano le condizioni richieste.
È possibile misurare la bontà dell’associazione tra l'informazione e l'informazione
recuperata, attraverso indici di precisione, indici di recupero o attraverso una loro media.
La precisione rappresenta la proporzione di documenti pertinenti fra quelli recuperati che,
nella classificazione binaria, è analoga al valore positivo di previsione. Può anche essere
misurata rispetto a un certo valore soglia, piuttosto che relativamente a tutti i documenti
recuperati; in questo modo, si può valutare quanti fra i primi n documenti recuperati sono
rilevanti per la query. Il significato e l'uso del termine "precisione" nel campo dell'IR
differiscono dalla definizione di accuratezza e precisione tipiche della metodologia
statistica.
Il recupero rappresenta la proporzione fra il numero di documenti rilevanti recuperati e il
numero di tutti i documenti rilevanti disponibili nella collezione considerata; nella
classificazione binaria, questo valore è chiamato “sensitività”.
La misura F è costituita dalla media armonica pesata fra l’indice di precisione e di
recupero.
I documenti, nella ricerca di informazioni vengono rappresentati con adeguati modelli che
possono essere classificati secondo un criterio matematico in: Modelli Set-theoretic,
Modelli Algebrici e Modelli Probabilistici.
I Modelli Set-theoretic rappresentano i documenti mediante insiemi, le somiglianze
derivano da operazioni teoriche su questi insiemi. I modelli più comuni di questa classe
sono: il Modello booleano standard, il Modello booleano esteso e il Recupero fuzzy.
I Modelli Algebrici rappresentano i documenti e le query con vettori o matrici che,
utilizzando un numero finito di operazioni algebriche, vengono trasformati in una misura
numerica che esprime il grado di somiglianza dei documenti con la query. I modelli più
comuni di questa classe sono: il Modello a spazio vettoriale, il Modello a spazio vettoriale
generalizzato, il Topic-based vector space model, il Modello booleano esteso, l’Enhanced
topic-based vector space model e la Latent semantic indexing aka latent semantic analysis.
I Modelli Probabilistici che, usando i teoremi probabilistici, trattano il processo di recupero
dei documenti come un esperimento aleatorio multi-livello, dove le somiglianze sono
rappresentate come probabilità. I modelli più comuni di questa classe sono: il Binary
independence retrieval, l’Uncertain inference, il Language model e il Divergence from
randomness model.
In base alle proprietà che presentano, i modelli si possono classificare in Modelli senza
interdipendenza dei termini, Modelli con interdipendenza dei termini intrinseca e Modelli
con interdipendenza dei termini trascendente.
I Modelli senza interdipendenza dei termini trattano diversi termini come non
interdipendenti. Ciò viene rappresentato spesso nei modelli a spazi vettoriali supponendo
che i vettori dei termini siano ortogonali, o nei modelli probabilistici, supponendo che le
variabili dei termini siano indipendenti.
I Modelli con interdipendenza dei termini intrinseca consentono una rappresentazione
diretta delle interdipendenze tra termini. Il grado di interdipendenza tra due termini è
definito dallo stesso modello; in genere, esso è direttamente o indirettamente derivato dalla
co-occorrenza di questi termini nell'intero insieme di documenti.
I Modelli con interdipendenza dei termini trascendente consentono una rappresentazione
diretta delle interdipendenze tra termini, ma non riportano come l'interdipendenza tra due
termini sia definita, in quanto si assume riferita ad una fonte esterna.
                                                                                       7
b) Information Extraction

Le tecniche di Information Extraction puntano a sintetizzare il contenuto informativo
recuperato dai documenti rilevanti e a renderlo disponibile per successive analisi. Il loro
obiettivo è quello di ridurre il vocabolario del corpus e di non perdere informazioni sulle
relazioni tra parole nel passare dal linguaggio naturale alla sua formalizzazione vettoriale.
Un documento si rappresenta generalmente come un vettore nello spazio geometrico
definito da un numero di componenti pari all’ampiezza del vocabolario del corpus, ciò
comporta problemi di dimensione in quanto cresce con l’ampiezza del vocabolario.
Una tra le soluzioni adottate per ridurre la dimensione dei vettori è quella di considerare
solo le parole-chiave e utilizzare vettori di dimensione pari solo al numero di parole
significative.
Per recuperare la perdita di informazione che la rappresentazione vettoriale dei documenti
comporta in termini di relazioni tra parole, sono disponibili varie tecniche che si basano
sullo studio delle co-occorrenze di parole nell’ambito della stessa frase. Si cerca di derivare
delle regole generali di associazione tra le sequenze significative di parole sulla base delle
co-occorrenze che superano una soglia stabilita in termini di frequenza.
Molto importante per ottenere una sintesi dei documenti è la classificazione; viene eseguita
a partire da una lista pre-definita di categorie nelle quali far rientrare i documenti,
basandosi sulla presenza delle parole e delle sequenze più significative in essi contenute.
L’obiettivo è ottenuto attribuendo un valore vero o falso a ciascuna coppia documento-
categoria per tutti i documenti da analizzare e tutte le categorie presenti nelle liste di
riferimento.
La fase detta Summarization procura una riproduzione astratta dei documenti che accentua
i temi qualificanti del testo, vale a dire la famiglia lessicale di tutti i lemmi derivati da una
medesima radice, mentre elimina gli altri. Per ottenere ciò è necessario concettualizzare i
documenti, riconducendo le parole caratterizzanti a classi di significato derivate da
conoscenze esterne al corpus.
Infine, si ricorre ai metodi di Cluster o di Analisi di tipo Multidimensionale per
visualizzare in un grafico sintetico di facile interpretazione i documenti classificati e
spostare l’attenzione dai singoli documenti a gruppi di documenti.

5. Esempi di Text Analysis

Uno sguardo sugli ambiti di applicazione dell’Analisi Automatica dei Testi fornisce un
tracciato delle concrete possibilità di estrarre conoscenza da un corpus.
La maggior parte delle Analisi si fonda sull’interpretazione delle diversificazioni
linguistiche e sull’identificazione del contenuto essenziale espresso nei testi. I campi di
applicazione e le fonti di provenienza del materiale testuale sono i più diversi. Di questi
ultimi fanno parte, oltre ai tradizionali testi letterari, scientifici o di saggistica, tutto il
materiale testuale che viene prodotto in ogni settore e circostanza che costituisce la parte
predominante di applicazione. Gli esempi spaziano nel vasto campo delle rassegne stampa,
discorsi politici, interviste, pubblicità, relazioni di enti, istituzioni ecc.; degli esperimenti di
carattere sociale o psicologico, dove si analizzano testi provenienti da indagini su campo;
della medicina dove si analizzano testi di protocolli clinici e dalla giurisprudenza dove si
analizzano testi di atti processuali; infine, anche dalle trascrizioni di linguaggi visivi,
comportamentali, studi su e-mail, ecc. Applicazioni più rilevanti di Text Mining riguardano
il campo aziendale e di marketing. In letteratura vi sono molte applicazioni di Text Analysis
dedicate al linguaggio utilizzato dalla stampa, tra le quali ricordiamo lo studio “Corpus

                                                                                           8
Rep-90” (Bolasco e Canzonetti, 2003) sull’esame di dieci annate del quotidiano La
Repubblica.
Illustreremo le fasi dell’analisi e l’informazione che è possibile ottenere dai risultati
riportando sinteticamente due ricerche: una rassegna stampa sull’elettrosmog (Bolasco et
al., 2004), e uno studio sulle encicliche papali (Bisceglia e Rizzi, 2001).
Si farà un cenno alle applicazioni di procedure basate sull’approccio Semiometrico e sul
Technology Watch.
Il primo studio che riportiamo riguarda una rassegna stampa sull’elettrosmog compiuta allo
scopo di monitorare l’attenzione che i quotidiani nazionali hanno dedicato
all’inquinamento elettromagnetico. L’analisi si basa sul “Rapporto Interno del Consorzio
Elettra 2000” e utilizza un campione di giornali quotidiani a diffusione nazionale e locale
in un periodo di quattordici mesi, dall’ottobre 1999 al novembre 2002, la rassegna era
costituita da 685 articoli. L’obiettivo era di misurare nel tempo e per zone geografiche il
livello di attenzione verso i vari aspetti collegati al fenomeno inquinamento e il loro tipo di
percezione al fine di valutare l’atteggiamento, le finalità e i diversi punti di vista assunti
delle testate giornalistiche considerate.
Per identificare le caratteristiche generali del linguaggio presente nella stampa e catturare la
terminologia utilizzata, le fasi di studio hanno comportato: l’analisi del vocabolario
utilizzato in termini di forme testuali più frequenti, l’evidenziazione dei lemmi più
ricorrenti per categorie grammaticali e l’individuazione del linguaggio peculiare che,
mediante una riduzione al tema delle principali unità lessicali selezionate, ha permesso di
quantificare le diverse percezioni del fenomeno.
Dall’osservazione del vocabolario, che per brevità non è qui riportato (vedi Bolasco et al,
2004), si è notato che il termine elettrosmog non è la parola-tema per eccellenza, ma è
preceduta dai termini quali: antenne, telefonia, ripetitori, installazione, impianti, onde e
cellulari. Ciò ha consentito agli autori di definire il vasto “tratto semantico” che s’incentra
intorno all’argomento, ancor meglio delimitabile dalle espressioni più ricorrenti dove
appaiono anche termini riguardanti il comune, la raccolta firme, la salute, la collocazione
degli impianti. Queste parole segnalano la sensibilità ai problemi collegati con l’opinione
pubblica e, dal punto di vista politico, con le istituzioni.
Successivamente, confrontando i profili lessicali dei vari giornali mediante l’applicazione
di un opportuno test statistico, sono state estratte le parole e le espressioni specifiche di
ciascun giornale. Queste hanno fatto emergere le risultanze tematiche generali sui vari
modi in cui il fenomeno è stato percepito, i diversi livelli di attenzione e il tipo di
polemiche sollevate dalla stampa.
Dallo studio è emerso che esistono profonde diversità di trattazione del fenomeno tra i
quotidiani considerati, in gran parte dipendente dall’area geografica d’appartenenza della
testata, ma anche dall’essere un quotidiano a carattere nazionale o locale.
Si è potuto evincere che testate quali: La Stampa, il Corriere della Sera, Il Sole 24 Ore,
Italia Oggi, Il Messaggero e La Repubblica, ponevano un’attenzione maggiore, sia in
assoluto sia rispetto agli altri giornali, a una trattazione del fenomeno in termini di
tematiche generali sull’ambiente, l’elettrosmog, la salute, la ricerca, ma parlavano anche
significativamente dei prodotti. Al contrario, testate quali Il Tirreno, Il Secolo XIX, il
Corriere Adriatico e altri giornali regionali incentravano la loro attenzione su problemi
locali e specifici, legati al territorio e risultavano sensibili alle opinioni dei cittadini e delle
istituzioni di governo locali.
Il secondo esempio di applicazione di TA molto interessante che riportiamo si trova nello
“Studio sulle encicliche papali” di Bisceglia e Rizzi (2001). In esso si mostra che anche
solo le frequenze sono in grado di distinguere alcuni elementi essenziali dei documenti
esaminati e di caratterizzarli. In questo studio, infatti, si evidenzia come le occorrenze dei
termini nelle encicliche papali costituiscono gli elementi che tipicizzano i pontificati. Sono
stati analizzati i contenuti delle encicliche di papa Pio XII, papa Giovanni XXIII, papa
                                                                                           9
Paolo VI e papa Giovanni Paolo II e si sono osservati i termini delle prime cinque
occorrenze più utilizzate dai quattro pontefici.
Dallo studio è emerso che il termine fede è presente solo in papa Pio XII, i termini bene e
sociale sono presenti solo in papa Giovanni XXIII, il termine mondo è presente solo in
papa Paolo VI e il termine uomo è presente solo in papa Giovanni Paolo II.
Gli autori della ricerca sottolineano come l’esclusività di questi termini qualifica e
distingue il carattere del pontificato; al contrario, i termini Dio, chiesa e vita comuni ai
quattro papi rendono il contenuto meno significativo, perché termini attesi.
Altre interessanti applicazioni di Text Analysis si trovano nei campi del marketing e degli
studi socio-psicologici, dove l’estrazione di informazione semantica ottenuta con
l’approccio semiometrico ha fornito un grande contributo all’analisi del contenuto. Le
tecniche basate su tale approccio, a partire da un campione di individui intervistati, creano
legami semantici fra le parole in grado di descrivere sistemi di valori e stili di vita. Per
ottenere il posizionamento degli individui su polarizzazioni semantiche, la
rappresentazione dell’informazione utilizzata è quella dei piani fattoriali ottenuti con
l’analisi delle corrispondenze.
Un’applicazione di Text Mining per il Technology Watch si trova all'interno del progetto
europeo FANTASIE (Forecasting and Assessment of New Technologies and Transport
System and their Impact on the Environment) sullo sviluppo tecnologico legato ai problemi
dei trasporti e del traffico, finalizzato a valutarne la situazione attuale e gli sviluppi a breve
e medio termine.
Infine, un ulteriore esempio di applicazione di procedure di TM proviene dal campo
biomedico, nel quale Cineca (www.cineca.it) ha analizzato circa 400.000 pubblicazioni
medico-scientifiche riguardanti il ciclo di vita delle cellule (fonte PubMed:
http://www.pubmed. com), con l’obiettivo di individuare automaticamente pattern di
parole in grado di selezionare documenti secondo citazioni dirette di nomi di geni o frasi
descrittive di concetti altamente correlati con essi.

6. Conclusioni

Le tecniche sempre più complesse per lo studio del contenuto dei testi - estrazione, analisi e
organizzazione dell’informazione - utilizzano un insieme di strumenti nati in ambito
informatico e statistico. Negli ultimi anni, l’importanza acquisita dai dati non strutturati è
accresciuta tanto da considerare predominante il ruolo del Text Mining rispetto all’Analisi
Multidimensionale dei Dati, i cui metodi, nell'estrazione di conoscenza da ampie collezioni
di documenti, enfatizzano le specificità del punto di vista statistico.
Partendo da una netta distinzione tra le tematiche proprie dell’Analisi Multidimensionale
dei Dati Testuali e di quelle proprie del TM, è auspicabile che tra i due approcci si crei una
maggiore sinergia che consenta di migliorare gli apporti che le due discipline possono dare
in alcune fasi del processo per ottimizzarlo, per esempio, nelle scelte delle codifiche, delle
misure delle distanze e dei sistemi di pesi. A questo riguardo, è noto che la scelta si rivela
fondamentale per qualsiasi trattamento quantitativo di dati testuali che debba rappresentare
adeguatamente l’importanza delle parole, in relazione al loro potere discriminante e al loro
contributo informativo. Tuttavia, non vi sono scelte buone in tutte le circostanze di studio,
perché sono gli specifici obiettivi di analisi a determinare la loro bontà.
In riferimento alla scelta dei pesi, la qualità è associata alle nozioni di frequenza per le
parole e di lunghezza per i documenti e non permette di introdurre nell'analisi ulteriori
elementi informativi esterni al corpus, quali, per esempio, potrebbero essere quelli espressi
in termini di maggiore o minore attinenza con l'oggetto di studio o con la fonte di
produzione del documento. Un approccio interdisciplinare, unitamente ai ricercatori dei

                                                                                        10
vari ambiti disciplinari coinvolti, potrebbe apportare un contributo in tal senso e sostenere
un quadro metodologico di contesto più ampio.
Le procedure di trasformazione del testo da sottoporre all'analisi necessitano di una serie di
sottofasi legate alle leggi del linguaggio naturale. Alcune di tali fasi, quali ad esempio
identificazione dell'unità minima di senso, disambiguazione o tagging grammaticale, sono
il risultato di valutazioni soggettive, e pertanto arbitrarie. Tuttavia, le difficoltà dovute
all’enorme peso computazionale nei software di TM consentono solo di operare sulle forme
grafiche (termini, parole) e non di recepire il vivace dibattito in atto nella letteratura della
statistica testuale sulla scelta dell'unità d'analisi (Bolasco, 1999).
Dallo sguardo sulle caratteristiche dell’analisi automatica dei testi sono apparse evidenti le
concrete possibilità di estrarre informazione d’insieme da un corpus, sia nella tradizione
degli studi di analisi del contenuto che nelle recenti tecniche di Text Mining a fini aziendali.
Appare interessante osservare che oggi, attraverso delle adeguate scelte nelle varie fasi del
processo di Analisi del Testo, è possibile ottenere una buona comprensione del suo
contenuto senza dovere necessariamente leggerlo.

Riferimenti bibliografici
1. Balbi S., Misuraca M.: Pesi e metriche per l’analisi dei dati testuali - Quaderni di
    Statistica Vol. 7, 2005.
2. Banks D. et al. (eds.): Classification, Clustering and Data Mining Applications,
    Springer-Verlag, Berlin.
3. Benzécri J.P.: Pratique de l’Analyse des Données, tome 3: Linguistique et Lexicologie.
    Dunod, 1981, Paris.
4. Benzécri J.P.: Histoire et préhistoire de l’analyse des données. Dunod, 1982, Paris.
    Berelson, B. (1952) : Content Analysis in Communication Research. Glencoe, III:Free
    Press.
5. Bisceglia B., Rizzi A.: Alcune analisi statistiche delle encicliche papali. Libreria
    Editrice Vaticana, 2001. Città del Vaticano.
6. Bolasco S., Lebart L., Salem, A.: JADT 1995 - Analisi statistica dei dati testuali. CISU,
    Roma, Vol. 2, 1995b.
7. Bolasco S.: L’analisi multidimensionale dei dati. Carocci ed., Roma, 1999.
8. Bolasco S., Canzonetti A. (2003): Some insight on the evolution of 1990s. Standard
    Italian, by Text Mining techniques and automatic categorization using the lexicon of
    daily "La Republican", CLADAG’03.
9. Bolasco S., Bisceglia B., Baiocchi F.: Estrazione Automatica D’Informazione dai Testi.
    Mondo Digitale n.1, marzo 2004.
10. Bolasco S.: Statistica testuale e text mining: alcuni paradigmi applicativi. Quaderni di
    Statistica, Liguori, 2005 - Vol. 7.
11. Cipriani R., Bolasco S.: Ricerca qualitativa e computer. F. Angeli, 1995, Milano.
12. Elia A.: Dizionari elettronici e applicazioni informatiche. In: Bolasco S., et al. (Eds.),
    1995.
13. Elia A.: Per una disambiguazione semi-automaticadi sintagmi composti: i dizionari
    elettronici lessico-grammaticali. In: Cipriani R. e Bolasco S. (Eds.), 1995b.
14. Herdan G.:. Linguistica quantitativa, Il Mulino, Bologna, 1971.
15. Lebart A. e Salem S.: Analyse statistique des données textuelles. Dunod, 1988, Paris.
16. Lebart L., Salem A.: Statistique textuelle. Dunod, 1994, Paris.
17. Lebart L., Salem A., Berry L.: Exploring Textual Data. Kluwer Academic Publishers,
    Dordrecht-Boston-London, 1998.
18. Salton G. e Buckley C.: Term weighting approaches in automatic text retrieval.
    Information Processing & management, 1988. - Vol. 24.

                                                                                      11
19. Salton G.: Automatic Text Processing: The Transformation, Analysis, and Retrieval of
    Informationby Computer. Addison-Wesley, 1989.
20. Sebastiani F.: Machine Learning in Automated Text Categorization. ACM Computing
    Surveys,Vol. 34, n. 1, 2002.
21. Zampolli A., Calzolari N.: Problemi, metodi eprospettive nel trattamento del
    linguaggio naturale: l’evoluzione del concetto di risorse linguistiche, 1992. In: Cipriani
    R. e Bolasco S.
22. van Rijsbergen C. J.: Information Retrieval, on line book, 1980.

                                                                                    12
Puoi anche leggere