ESTRAZIONE AUTOMATICA D'INFORMAZIONE DAI TESTI
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
ESTRAZIONE AUTOMATICA D’INFORMAZIONE DAI TESTI L'analisi automatica dei testi si è sviluppata soprattutto in virtù della cre- Sergio Bolasco Bruno Bisceglia scente disponibilità di tecnologie informatiche e linguistiche e consente Francesco Baiocchi di dare una rappresentazione dei testi estraendone alcune proprietà es- senziali, capaci di descrivere e interpretare il loro contenuto. Nell’ambito di aziende e istituzioni, è diventato dunque prioritario far fronte alla massa di materiali testuali da gestire quotidianamente, estraendo solo l’informa- zione d'interesse. 3.2 1.INTRODUZIONE titativo. In una logica di tipo statistico, in C on il termine Text Analysis (TA) s’inten- de un’analisi del testo “mediata” dal computer, ossia basata non sulla lettura questo ambito, si parla anche di “analisi dei dati testuali” (ADT), sottolineando la possibilità di ricavare informazioni stretta- del testo, bensì su un’analisi automatica, mente qualitative, a partire da risultanze utile soprattutto quando i testi sono di am- quantitative, quali sono quelle tipiche del- pia dimensione1. In questi casi, infatti, ogni la statistica. lettura diretta sarebbe limitata, lunga e dif- L’evoluzione storica degli studi quantitativi ficoltosa, mentre un’analisi automatica è su dati espressi in linguaggio naturale, ha veloce e aperta a “infiniti” confronti, resi visto a partire dagli anni Settanta forti cam- possibili dall’uso del computer. Questo ap- biamenti strettamente legati all'evoluzione proccio ha come obiettivo, fra gli altri, dell’informatica e alla crescente disponibi- quello di fornire alcune rappresentazioni lità di risorse linguistiche [30] e più recente- del contenuto della collezione di testi og- mente all’enorme dimensione dei testi da getto di studio (corpus) e di estrarre da consultare on-line. Nel corso degli anni, l’in- questi una informazione, ossia alcune pro- teresse per gli studi quantitativi della lin- prietà, attraverso misurazioni di tipo quan- gua2 si è spostato da una logica di tipo lin- 1 È opportuno distinguere la Text Analysis dall’analisi testuale, poiché con questa espressione si indica ge- neralmente quella ampia area di ricerca che ha le sue radici in analisi non automatiche, basate su una let- tura a più riprese del testo tendente a categorizzare brani, a studiare l’accezione dei termini fino a svilup- pare, in taluni casi, un’analisi semiotica d’interpretazione del testo. 2 Contributi significativi si trovano in riviste quali, fra le altre, Cahiers de Lexicologie, Computers and Huma- nities, ACM Computing Surveys, Journal of Quantitative Linguistics, Linguisticae Investigationes, Literary and Linguistic Computing, Mots, TAL. 27 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 guistico3 (sviluppata fino agli anni Sessan- prospettiva, è opportuno richiamare preli- ta) a una di tipo lessicale4 (intorno agli anni minarmente alcuni concetti di base e rela- Settanta), per approdare negli anni Ottanta tive definizioni dei principali oggetti, visti e Novanta ad analisi di tipo testuale5 o an- come utensili da tenere nella “cassetta de- cor meglio lessico-testuale6. gli attrezzi” per estrarre informazione dai Fin dall’inizio le applicazioni hanno interes- testi. sato tutti i campi disciplinari: dai linguisti 1 specialisti negli studi stilometrici o di auten- ticità dell’autore agli psicologi e antropologi 2. CONCETTI E DEFINIZIONI interessati alle analisi di contenuto sia su te- La prima lettura automatica dei testi ogget- sti che su materiali provenienti da indagini to di studio da parte del computer compor- sul campo (interviste, storie di vita, focus ta la cosiddetta numerizzazione del corpus: group), dai sociologi che si occupano di di- operazione che, a ogni forma o parola diver- scorso politico o di indagini qualitative agli sa che appare nel testo, fa corrispondere un 0 specialisti di comunicazione orientati al marketing e al linguaggio veicolato sui prin- codice numerico e l’elenco delle collocazio- ni di tutte le sue occorrenze (token) nel cor- cipali tipi di media. pus (Tabella 1), ossia delle loro posizioni In questi ultimi anni, suscita molto interes- lungo lo sviluppo del testo (discorso). se, nel filone statistico dell’analisi dei dati Il risultato di questa fase si traduce nella co- testuali, un ulteriore approccio noto con il struzione della lista (indice) di tutte le parole termine di Text Mining (TM): esso è tipico di diverse che figurano nel testo, il cosiddetto applicazioni indirizzate alle aziende e istitu- vocabolario del corpus, espresso in forme zioni, le quali, dovendo interagire con enor- mi masse di materiali testuali spesso dispo- Il termine parola non trova una definizione soddisfa- nibili in rete, hanno il problema di selezio- cente: le parole sono gli oggetti linguistici che costitui- scono il lessico e sono raccolti nel dizionario. La paro- nare, all’interno di queste fonti smisurate, i la è un segno che ha un senso, è un segno che è sim- dati di loro interesse, per estrarne informa- bolo di un concetto o almeno espressione di una cono- zione capace di produrre valore. Si tratta di scenza; si tratta di adottare delle convenzioni precise e il più possibile corrette dal punto di vista linguistico, soluzioni orientate al Knowledge Manage- ma comunque in parte arbitrarie. Una parola può de- ment (KM) e alla Business Intelligence (BI) notare: un oggetto (sostantivo), un’azione o uno stato che, nella gran parte dei casi, consistono (verbo), una qualità (aggettivo, avverbio), una relazio- ne (preposizione). Qui nel seguito, per semplicità, si nel ricavare da testi non strutturati quei dati indica con il termine parola l’unità di analisi del testo, essenziali utili ad alimentare i database qualunque essa sia. Va osservato che a seconda degli operativi aziendali con informazioni struttu- obiettivi dell’analisi questa unità lessicale può essere una forma grafica, un lemma, un poliforme o una "for- rate, più facili da gestire nei processi deci- ma testuale", ossia un’unità di tipo misto in grado di sionali a fini strategici. catturare al meglio i contenuti presenti nel testo. In Nel seguito, verranno ripresi punti di vista, realtà, ormai si sceglie sempre come unità d’analisi aspetti teorici ed esempi di applicazione del testo una mistura di tipi; quindi nell’articolo con parola s’intenda in generale una forma testuale. dei vari approcci qui accennati. In questa 3 Per cogliere i rapporti fra lingua e sue concrete possibilità d’analisi (Guiraud, Herdan) [18, 19], si potrebbe seguire un’immagine di Tournier [29], sintetizzata in Bolasco [6]. La dimensione illimitata della lingua fa sì che non sia possibile, per definizione, asso- ciare alle parole una qualche “frequenza” in senso statistico-probabilistico. Quest’ultima è invece misurabile su una raccolta di testi, intesi come spezzoni di lessici, ovvero come “campioni” particolari della lingua. È così che ci si limita a considerare le oc- correnze delle parole in un testo come un’approssimazione delle frequenze in un lessico, a patto che il corpus sia sufficiente- mente ampio (almeno 50.000 occorrenze). 4 Cfr. per esempio Muller [24] e Brunet [8]. 1 5 In questo approccio l’attenzione sulla testualità del contenuto privilegia l’analisi statistica in forme grafiche (cfr. Lebart et al.) [21, 22]. 6 Recentemente si è visto che l’analisi dei dati testuali migliora di gran lunga con l’apporto di meta-informazioni di carattere lin- guistico (dizionari elettronici, lessici di frequenza, grammatiche locali) e con alcuni interventi sul testo (normalizzazione, lemma- 0 tizzazione e lessicalizzazione), cioè attraverso un’analisi statistico-linguistica integrata di tipo lessico-testuale. 28 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 Occorrenze Numero di volte in cui una parola appare nel corso del testo Forma Parola nella sua grafia originale nel testo (forma flessa assunta nel discorso dal corrispondente lemma): esempio parlavo Lemma Forma canonica corrispondente all’entrata del termine nel dizionario, che rappresenta tutte le flessioni con cui quell’unità lessicale può presentarsi nel discorso: esempio parlare TABELLA 1 Tema Famiglia lessicale di tutti i lemmi derivati da una medesima radice: esempio parl> (parlare, parlato, parlatissimo, parlottante, parlucchiare, Definizione dei concetti basilari 1 nell’analisi di un parlamentare, parlamento, parlamentarista,…) testo grafiche (type) con relative occorrenze, come illustrato in tabella 2. Antenne 1055 Contro 379 Se si applicano al testo altre operazioni - quali la normalizzazione7, il tagging gram- Antenna 792 Campi 367 0 Telefonia 590 Elettromagnetiche 365 maticale8, la lemmatizzazione9, e/o la cate- gorizzazione semantica10, si produce un Ripetitori 508 Telefonini 361 corpus che si potrebbe definire “annotato”, Cittadini 499 Radio 360 la cui numerizzazione dà luogo a un vocabo- lario diverso, per numero di voci (entrate) e Tim 498 Inquinamento 354 per quantità di occorrenze a esse associate. Installazione 471 Ripetitore 339 Il vocabolario di un testo annotato ha voci meno ambigue delle forme grafiche origina- Impianti 458 Cellulare 332 rie ed è più ricco d’informazioni sul testo11. Salute 453 Omnitel 315 Queste operazioni non sono tutte indispen- sabili e dipendono dal tipo di analisi di con- Onde 442 Metri 306 tenuto e dai suoi obiettivi. Si osserva, per Cellulari 414 Legge 287 esempio, che, analizzando corpus di grandi dimensioni per forme grafiche o per lemmi, i Elettrosmog 407 Elettromagnetico 283 risultati sono sostanzialmente gli stessi. Al Comune 402 Limiti 274 contrario, per testi di minori dimensioni o Sindaco 388 Wind 251 per analisi dei concetti, la riduzione delle parole alla radice comune (tema) o al lem- Mobile 386 ma fa guadagnare in scoperta di significati e cattura di informazione. TABELLA 2 Data la mole d’informazioni presenti nella Esempio di vocabolario: parole piene più frequenti in una rassegna stampa collezione di testi considerati (corpus), non sull’elettrosmog (Fonte: dati Elettra2000) 7 Per normalizzazione s’intende una serie di operazioni di standardizzazione del testo, effettuata sulle grafie attraverso il riconoscimento di nomi propri (persone, società, celebrità), toponimi, sigle, date, numeri (te- lefonici, prezzi, valute), percentuali, così come individuazione di locuzioni, di tipo avverbiale (in modo, per esempio), aggettivale (di massa, in via di sviluppo), o nominale (identificanti entità ricorrenti: per esempio, Capo dello Stato, Presidente del Consiglio, carta di credito). 8 Il tagging consiste nel marcare la forma con l’attribuzione della sua categoria grammaticale; per esempio: diventa parlavo_V. 9 Lemmatizzare significa trasformare la forma nel lemma corrispondente: per esempio diventa 10 parlare_V. 1 L’attribuzione di una etichetta di tipo semantico permette di associare la forma ad altre appartenenti ad una stessa classe di equivalenza (per esempio, categorizzato come spettacolo, sarà associabile 11 a , ecc.). Per un riferimento sui corpus annotati si veda il sito: http://www.tei-c.org/. 0 29 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 Gli aspetti grammaticali sono risolti con i lemmatizzatori automatici, strumen- forma come nome può voler dire ter- ti per la lemmatizzazione del testo che raggiungono livelli di qualità superiori mine, obiettivo o scopo, come aggettivo può al 95% nella individuazione del giusto lemma. Questi tools sono basati su ca- significare raffinato o sottile). tene di Markov e/o sull’utilizzo di grammatiche locali che individuano nel te- sto strutture e regole sintattiche capaci di definire univocamente funzioni È indubbio, dunque, che il riconoscimento grammaticali diverse e quindi risalire correttamente al lemma di un termine grammaticale, con relativo tagging, risolve (per l’italiano [17]). Questa funzione presuppone ovviamente la disponibilità di non poche ambiguità. A tal fine, esistono un dizionario elettronico (in grado di essere utilizzato dal computer) durante la strumenti di lemmatizzazione automatica, lettura automatica del testo1. sia grammaticale sia semantica12. 1 Gli aspetti semantici vengono risolti in parallelo con l’utilizzo di basi di cono- scenza, dove sono inventariati via via per ogni vocabolo i diversi significati espressi nei dizionari (per esempio, il verbo prevede oltre 200 signifi- Sia gli aspetti grammaticali, sia quelli se- mantici sono spesso risolvibili solo median- cati: “andare al Creatore”, “andare a nozze”, “andare a male”, “andare a letto con i polli” ecc.). Per un riferimento generale, si veda Wordnet sviluppato da G. A. te lettura del contesto locale, definito da Miller presso la Princeton University (http://www.cogsci.princeton.edu/~wn/). una, due,…n parole che precedono o seguo- no la parola in esame. È dunque evidente che l’analisi di sequenze di parole (o seg- 0 1 Per approfondire questi aspetti, fra gli altri, si vedano i lavori di Elia [14, 16] e di Silberztein [28]. Al lettore interessato, per ampliare il glossario sulle nozioni fin menti) permette di chiarire il significato pre- sente nel testo, di togliere l’ambiguità ai qui introdotte [1], si consiglia un testo di “Linguistica elementare”: per esempio, De Mauro [13]. termini ossia di disambiguare il testo. Il si- gnificato, per esempio, della sequenza è univoco, poiché deriva da una è possibile tener conto letteralmente di tut- locuzione assai comune13 che toglie l’ambi- to il testo: si pone, quindi, il problema di guità insita nelle parole semplici come e , che in teoria potrebbero es- pus, ovvero quella parte di linguaggio che sere verbi, piuttosto che nomi. Queste se- fa la differenza, che contiene gli elementi quenze, riconoscibili come frasi fisse (mul- caratteristici del contenuto o del discorso tiword expression), possono essere indivi- espresso nel corpus. duate già nella fase di normalizzazione del Non tutte le parole hanno, naturalmente, la testo. Altre disambiguazioni sono, di fatto, stessa importanza; ma non è la frequenza realizzate con la lemmatizzazione. l’unico elemento a determinare il peso di un Ma il problema di estrarre l’informazione dal termine in un testo. Anche le parole dette testo non è risolta tanto dalla disambiguazio- una sola volta (i cosiddetti hapax) possono ne che semmai serve a non fraintendere un essere molto importanti. Molte fra le parole significato con un altro, quanto dal selezio- più frequenti sono “parole vuote” (quali per nare fra le unità di analisi quelle significative, esempio, , , , ecc., dette quelle tipiche o caratteristiche dei contenuti anche stop word), in quanto elementi neces- di un testo. In generale, ciò avviene selezio- sari alla costruzione della frase; oppure so- nando delle parole chiave. no parole strumentali con funzioni gramma- È possibile estrarre queste parole in vari modi: ticali e/o sintattiche (, , 1. con un approccio corpus based, si può cal- ,, ), che non sono colare un indice, noto come Term Frequency - portatrici di significato autonomo. Inverse Document Frequency (TFIDF) [26], Si considerano, al contrario, “parole piene” che si basa su due assunti: gli aggettivi, i sostantivi, i verbi e gli avverbi, a. tanto più un termine occorre in un docu- in quanto termini che hanno un senso in sé mento tanto più è rappresentativo del suo (si veda a tal proposito il riquadro sulla paro- contenuto; la); le parole più frequenti celano in sé molti b. tanti più documenti contengono un termi- usi e, quindi, molti significati (si pensi alla ne, tanto meno questo è discriminante [27]. 1 12 Per l’italiano, come software per la lemmatizzazione automatica dei testi, fra gli altri, si veda Lexical Studio, sviluppato da Synthema, http://www.synthema.it/english/documenti/Prodotti_LexicalStudio_i.pdf. 0 13 Le strutture più comuni, ritrovabili nei gruppi nominali, sono del tipo , , . 30 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 L’indice TFIDF è costruito, ponendo a rap- tro l’obiettivo di fornire qualche “rappresen- porto queste due informazioni14. tazione” del testo, tale da consentirne una 2. mediante confronti con informazioni ester- lettura mirata. ne al corpus: sia attraverso criteri di categoriz- I primi studi quantitativi sui testi si basavano zazione semantica predisposti sulla base di soprattutto sull’analisi delle concordanze specifici modelli di analisi, sia attraverso lessi- che - osservando tutti i contesti locali di una ci di frequenza che costituiscano dei “riferi- parola d’interesse - consente di discernere i menti” rispetto ai quali il sovra-uso o il sotto- uso di un termine nel corpus può assumere diversi usi e significati di un termine (le sue concrete accezioni nel corpus), per poi con- 1 un carattere di specificità. Nel software Tal- frontare e riunire tali conoscenze in un qua- tac15, fra le risorse statistiche sono disponibili, dro più complessivo che in taluni casi arriva a per esempio, vari lessici di frequenza che con- definire il lessico di un autore (le prime con- sentono di estrarre il linguaggio peculiare di cordanze furono applicate a studi biblici e ri- un corpus, mediante il calcolo di uno scarto salgono a tempi remoti). standardizzato fra le occorrenze d’uso nel cor- pus e quelle nel lessico prescelto16. La tipologia delle concordanze presenta una casistica molto ampia. Una discrimina- 0 zione radicale è espressa dal binomio con- cordanza verbale – concordanza reale: la 3. L’EVOLUZIONE DEI METODI E DELLE TECNICHE DI ANALISI prima è concordanza di parole, la seconda DEI TESTI: DALLA TEXT è concordanza di cose (concetti, temi, argo- ANALYSIS AL TEXT MINING menti). Un esempio magistrale di analisi Lo sviluppo delle tecniche di analisi dei testi basate sulle concordanze è rappresentato ha subito profonde evoluzioni negli ultimi dagli studi di R. Busa circa l’opera di S. cinquant’anni passando da primordiali inda- Tommaso d’Aquino [10]. Nell’Index Thomi- gini semiautomatiche orientate allo studio sticus, la sintesi del lessico di Tommaso ha della frequenza delle accezioni di singole pa- occupato i primi dieci volumi (su 56) per role in grandi raccolte di testi letterari, ad complessive 11.500 pagine. In questi volu- analisi completamente automatiche in grado mi, sono presenti da una parte tutti i testi di decifrare in profondità il senso di una frase con ipertesti interni ed esterni, dall’altra il all’interno di sterminate raccolte di materiali censimento classificato del vocabolario (il testuali quali quelle accessibili oggi dal web. mappale panoramico, secondo l’espressio- Gli strumenti utilizzati per queste analisi di- ne busiana). pendono ovviamente dagli obiettivi, ma si fondano essenzialmente su metodi per il 3.2. Analisi delle corrispondenze trattamento del linguaggio naturale (Natural Per passare da un livello di studio “unidi- Language Processing) e su tecniche statisti- mensionale”, quale può considerarsi quello che di tipo multidimensionale. dell’analisi delle concordanze, a uno “multi- dimensionale” si può utilizzare l’analisi del- 3.1. Analisi delle concordanze le corrispondenze. È una tecnica statistica Ogni metodo o tecnica utilizzata per l’analisi proposta inizialmente negli anni Sessanta automatica dei testi ha in un modo o nell’al- da J. P. Benzécri [3] come metodo induttivo 14 L’indice TFIDF è espresso dalla seguente ponderazione: wt,d = ft,d · log N/ft dove wt,d è il peso del termine t nel documento d, ft,d la frequenza del termine t nel documento d, N è il nu- mero totale di documenti nel corpus, e ft il numero di documenti contenenti questo termine. 15 16 Software per il Trattamento Automatico Lessico-Testuale per l’Analisi del Contenuto: http://www.taltac.it 1 Si definisce peculiare quella parte di linguaggio tipica del corpus sia perché è sovra/sotto-utilizzata rispet- to alla “media” espressa dalle frequenze d’uso nel lessico, sia perché è così originale del testo oggetto di studio da non essere presente nel linguaggio assunto come riferimento. Per il calcolo delle occorrenze d’u- so (indice d'uso), si veda Bolasco [6]. 0 31 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 Obiettivi e strumenti delle tecniche statistiche di analisi multidimensionale dei testi Al fine di analizzarne la variabilità linguistica e la struttura, il corpus viene in genere studiato per frammenti (spezzoni brevi di testo: proposizio- ni elementari o enunciati, singoli documenti, risposte, e-mail ecc.) o per parti (sub-testi o raggruppamenti dei frammenti per attributi: cronologi- ci, tematici, caratteristiche socio-demografiche ecc.). In questa prospettiva, assume interesse la frequenza delle parole nelle parti o nei fram- menti. Infatti, uno studio del testo fondato su base quantitativa, consiste sempre nel confronto di diversi profili lessicali, ossia di altrettante sub- distribuzioni statistiche generate dall'insieme delle frequenze delle parole in ciascuna parte e/o frammento. In quest’ultimo caso spesso la quantità di occorrenze viene ridotta a semplice “presenza/assenza”. Di fatto queste suddivisioni del corpus danno luogo a matrici di tre tipi diversi: una matrice “frammenti × parole”, contenente dati booleani 0/1 (do- ve 1 indica la presenza della parola nel frammento e 0 la sua assenza); una matrice “parole × parti”, contenente le frequenze con cui ogni parola ri- 1 corre nella parte (sub-testo); una matrice “parole × parole” che documenta l’associazione (co-occorrenza) di coppie di parole nei frammenti del cor- pus: qui il dato interno alla matrice può registrare la sola esistenza dell’associazione (0/1) o pesarne l’intensità con una misura di relazione. Secondo l’algebra matriciale, ogni riga o colonna di queste matrici rappresenta un vettore, descrivente il profilo lessicale. Le tecniche utilizzate per l’analisi di tali matrici mirano alla sintesi o riduzione dei dati, attraverso lo studio della variabilità statistica. In particolare, le tecniche fattoriali - attraverso una riduzione del numero di variabili del fenomeno (vettori colonna) - producono delle nuove va- riabili sintetiche, in grado di ricostruire i principali assi semantici che caratterizzano la variabilità dei contenuti del testo. L’analisi delle corri- spondenze è la tecnica fattoriale utilizzata nel caso dei dati testuali. Essa visualizza le principali co-occorrenze fra parole presenti nel testo, sul- la base della loro vicinanza nei piani cartesiani costituiti da coppie di assi fattoriali, ricostruendo in tal modo delle vere e proprie mappe del con- tenuto del testo, che forniscono spesso una rappresentazione globale del senso sottostante il discorso. 0 Le tecniche di clusterizzazione e di segmentazione mirano, invece, a ridurre la quantità delle unità statistiche (vettori riga), producendone una classificazione multidimensionale, in grado di definire delle tipologie attraverso le quali leggere simultaneamente le caratteristiche d’interesse. La cluster analysis, come famiglia di metodi di raggruppamento (gerarchici e non, scissori o aggregativi), consente di individuare classi di paro- le o di frammenti di testo, caratterizzati da una forte omogeneità interna, tale da poter ricostruire i principali “mondi lessicali” presenti nel cor- pus, ossia i differenti “modi di parlare” del fenomeno studiato, contenuto nel testo. Per maggiori riferimenti, anche ad altri metodi multidimensionali, si rimanda a Bolasco [6]. per l’analisi dei dati linguistici, assai effica- Analysis, si sono sviluppate procedure di ce per trattare matrici di dati di ampie di- Text Mining (TM) per estrarre informazioni mensioni, risultanti dalla descrizione di pro- da materiali espressi in linguaggio naturale, fili lessicali d’interesse. Per esempio, il riassumibili sotto due “logiche”: Informa- “profilo” di nomi definito dalle associazioni tion Retrieval (IR) e Information Extraction che questi hanno con un insieme di verbi (IE)18. In maniera assai schematica si può di- presenti in un corpus assai esteso di testi: re che l’IR s’interessa al documento nella questa informazione è raccolta in una matri- sua globalità, mentre l’IE seleziona le infor- ce di dati che incrocia le co-occorrenze di mazioni specifiche all’interno del documen- nomi (in riga) con i verbi (in colonna). L’ana- to, che in genere vanno a popolare un data- lisi delle corrispondenze di tale matrice pro- base strutturato. duce una rappresentazione delle associa- zioni fra nomi e verbi in maniera tale da ri- 3.3. Information Retrieval produrre per vicinanza dei punti su un piano Sono ormai molto diffusi software di recu- cartesiano la similarità fra profili; questa pero di informazioni in grado di effettuare tecnica si rivelò assai utile a ricavare indut- ricerche su grandi collezioni di testi sulla tivamente alcune regolarità linguistiche sul- base di richieste (query) formulate come la base della cosiddetta distanza del chi- singole parole o come frasi: l’esempio più quadro17. Per maggiori dettagli si veda il ri- comune può essere quello dei motori di ri- quadro di approfondimento. cerca sul web. Più recentemente, con il crescere della di- Impiegando software tradizionali, i singoli sponibilità dei testi da analizzare e per ri- documenti d’interesse sono trattati come en- spondere all’incremento esponenziale delle tità a sé stanti e, in particolare, non vengono fonti quotidianamente da consultare/inter- prese in considerazione le possibili relazioni rogare per esempio sul web in aziende o tra i documenti. Nei software sviluppati, inve- istituzioni, in parallelo alle tecniche di Text ce, su database, ai singoli documenti vengo- 1 17 Questo processo è definito in dettaglio da Benzécri ([3], p.102-105); svariati esempi di applicazione sono in 0 18 Benzécri [2]. Per una recente panoramica su questi due punti di vista Poibeau [25]. 32 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 no di solito associati dei metadati. In tal mo- caso di frasi, la qualità dell’algoritmo di se- do, è possibile classificare e pesare in misura lezione e di estrazione è cruciale per ottene- diversa i risultati della query sulla base di re buoni risultati. Per esempio è molto im- queste informazioni aggiuntive. portante controllare la co-occorrenza delle Questi software permettono di cambiare in parole e valutare la loro vicinanza all’inter- tempo reale la visualizzazione delle informa- no del testo. zioni in base alle esigenze del momento, uti- Individuate le parole (o le frasi), si calcola un lizzando un approccio ai dati di tipo OLAP (On-Line Analytical Processing). peso per ciascun termine (si può usare la fre- quenza all’interno del documento, o funzioni 1 La fase di Information Retrieval si compone più complesse, come l’indice TFIDF prece- essenzialmente di due sottofasi: la selezio- dentemente definito). ne delle fonti e il recupero dei testi (unita- Esistono diversi metodi per misurare que- mente alle eventuali informazioni relative ai sta rilevanza: vettoriale, probabilistico e metadati). booleano. Ai fini del recupero dei documenti è necessa- rio effettuare una scelta sul tipo di analisi ❙ Con il metodo vettoriale si rappresentano in spazi geometrici i documenti e le richieste 0 delle parole e/o delle frasi. che li hanno “generati”: in tale spazio la vici- Questa analisi può essere di tre tipi (o un in- nanza tra richiesta e documento misura la ri- sieme combinato dei tre): ortografico, se- levanza di quest’ultimo rispetto alla prima. mantico e statistico. ❙ Con il metodo probabilistico un documento ❙ Ortografico: riconoscimento delle parole in è tanto più rilevante quanto maggiore è il pe- base alla loro grafia, senza alcun tentativo di so delle parole compatibili con la richiesta. correlarle al contesto. ❙ Con il metodo booleano si valuta la pre- ❙ Semantico: associazione della parola al senza/assenza di parole tra documento e ri- concetto che vuole esprimere. Parole diverse chiesta. possono essere usate per esprimere concetti Con l’ultimo metodo si può solo dire se un simili, pre-definiti in una base di conoscenza. documento è o no rilevante rispetto a una ❙ Statistico: confronto della frequenza d’uso query, mentre con i primi due, oltre a deter- delle parole con una distribuzione di riferi- minare la presenza/assenza di rilevanza tra mento (lessico di frequenza). documento e richiesta, si genera anche una Nella selezione delle fonti si individuano i graduatoria di pertinenza, utile per filtrare i soli documenti rilevanti, cioè compatibili documenti. con i criteri della richiesta19. Le fonti posso- no essere le più diverse: archivi che conten- 3.4. Information Extraction gono informazioni espresse in linguaggio Dopo aver recuperato i documenti rilevanti, naturale, database strutturati che conten- occorre sintetizzarne il contenuto informati- gono informazioni già sintetizzate (con o vo e renderlo disponibile per ulteriori analisi. senza metadati), immagini di documenti (in Un compito molto impegnativo, le cui tecni- questo caso entra in gioco una componen- che non sono del tutto standardizzate (nel- te successiva del processo che si occupa l’ambito del text mining). della scansione OCR (Optical Character Re- La rappresentazione standard di un docu- cognition) per trasformare l’immagine in mento è quella di un vettore nello spazio testo). geometrico definito da un numero di com- Nella fase di IR si estraggono dai documenti ponenti pari all’ampiezza del vocabolario selezionati quei frammenti di testo che con- del corpus. Ma questo modo di rappresen- tengono le parole o le frasi che costituisco- tare i documenti pone problemi di dimen- no i criteri della richiesta. Soprattutto nel sione, perché cresce con l’ampiezza del vo- cabolario. Sono stati messi a punto diversi modi per ridurre la dimensione dei vettori- 1 19 A volte questa fase non può essere eseguita in documento, tra i quali, per esempio, il con- modo automatico e viene affidata ad un esperto del settore. siderare solo le parole significative del vo- cabolario e, quindi, utilizzare vettori-docu- 0 33 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 mento di dimensione pari solo al numero di quantità significative di informazione. Que- parole chiave. sta fase, detta summarization, fornisce una La rappresentazione vettoriale dei docu- rappresentazione astratta dei documenti menti ha, peraltro, il difetto di non cogliere che enfatizza i temi qualificanti del testo ed le relazioni tra parole, portando così poten- elimina gli altri21. La summarization è un zialmente a una rilevante perdita di infor- pre-requisito per il popolamento di un mazione nel passaggio dal “discorso” alla eventuale database di concetti/azioni/pa- 1 sua formalizzazione vettoriale. Sono oggi disponibili varie tecniche per evidenziare role d’interesse, che è strutturato in manie- ra più rigida rispetto a un testo espresso in l’informazione legata a queste relazioni che linguaggio naturale. si basano in sostanza sullo studio delle co- Dopo aver classificato i documenti, si pone il occorrenze di parole nell’ambito della stes- problema della loro visualizzazione in un gra- sa frase20. Studiando le co-occorrenze che fico sintetico di facile interpretazione. Nor- superano una soglia stabilita (in termini di malmente questo problema viene risolto in 0 frequenza), si cerca di derivare delle regole generali di associazione, che permettano, in due modi: mediante tecniche di clustering, che permettono di spostare l’attenzione dai relazione al contesto di analisi, di identifica- singoli documenti a gruppi di documenti, in re delle sequenze significative di parole minor numero e quindi più facilmente rap- (non necessariamente adiacenti). presentabili; oppure mediante analisi di tipo Un ulteriore passo molto importante, previa multidimensionale (metodi fattoriali), che un’efficiente disambiguazione delle parole, consentono la proiezione dei singoli docu- è la classificazione dei documenti. Questa menti in spazi geometrici ridotti (tipicamente viene eseguita a partire dai metadati even- 2-3 dimensioni). tualmente associati ai documenti, e in gene- re mediante una lista pre-definita di catego- 4. ESEMPI DI TEXT ANALYSIS rie nelle quali far rientrare i documenti ba- sandosi sulla presenza delle parole e/o del- Al fine di ripercorrere alcune tra le fasi clas- le sequenze più significative in essi conte- siche della Text analysis, si illustrano in con- nuti. A tal fine, si utilizzano processi semi- creto due casi di studio. Il primo riguarda automatici, che possono essere addestrati procedure e risultati di un monitoraggio sul- o che comunque sono in grado di migliorare l’informazione relativa all’elettrosmog. Il la loro capacità di assegnazione in base alle secondo concerne un’analisi di messaggi operazioni precedenti. L’obiettivo persegui- on-line scambiati fra insegnanti incaricati di to con questi processi – definito da un pun- diverse funzioni obiettivo (FO). In entrambi i to di vista formale – consiste nell’attribuire casi, l’obiettivo dell’analisi consiste nel co- un valore vero o falso a ciascuna coppia (do- noscere il contenuto di fondo dei materiali cumento, categoria) per tutti i documenti da oggetto di studio, al fine di valutare l’atteg- analizzare e tutte le categorie presenti nelle giamento, le intenzioni e i diversi punti di vi- liste di riferimento [27]. sta degli “autori” dei testi (nella fattispecie, Operando sul versante della sintesi del giornalisti o insegnanti). contenuto, si riconducono le parole e le se- quenze che caratterizzano i documenti a 4.1. Campi di applicazione classi di significato derivate da una base di I campi di applicazione della Text analysis e conoscenza esterna al corpus: in tal modo le fonti di materiali testuali sono stati finora è possibile concettualizzare i documenti, i più diversi. Fra questi, i testi tradizional- producendone una rilevante riduzione in mente intesi (letterari, tecnico-scientifici o termini di dimensione, senza però perdere altra saggistica) rappresentano solo una mi- 1 20 Anche se si stima che circa il 10-20% delle relazioni significative tra parole sia di tipo inter-frase, cioè a ca- 0 21 vallo di frasi diverse. Si veda a tal proposito lo studio di Mani e Maybury [23]. 34 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 nima parte delle applicazioni. Fra i tipi di 4.2. Una rassegna stampa sull’elettrosmog corpus più studiati figurano quelli relativi a: Lo studio era volto a misurare accuratamente discorsi politici (parlamentari, elettorali, di- nel tempo e nello spazio la presenza di temi e battiti) e relazioni periodiche di pubbliche argomenti intorno al modo di trattare il feno- istituzioni (Banca d'Italia, Onu ecc.); rasse- meno dell’inquinamento elettromagnetico gne stampa o intere annate di periodici; do- sulla stampa quotidiana, a partire da un cam- cumenti tecnico-settoriali (archivi docu- pione di testate giornalistiche a diffusione na- mentali, brevetti); collezioni o raccolte di te- sti corti: progetti, abstract, bibliografie, ma- zionale e locale, in un periodo di quattordici mesi, dall’ottobre 1999 al novembre 200022. 1 nifesti politici, messaggi pubblicitari, titola- La rassegna è formata da 685 articoli23 raccol- zioni di articoli di stampa, agenzie d’infor- ti per individuare le caratteristiche generali del mazione. Ma sono assai frequenti anche linguaggio presente nella stampa, con l’obiet- analisi di testi prodotti a partire da indagini tivo di catturare la terminologia utilizzata e co- sul campo: indagini con risposte libere alle gliere il livello di attenzione verso i vari aspetti domande aperte nei questionari, interviste non direttive o semistrutturate, storie di vita del fenomeno e il loro tipo di percezione. Le fasi di studio24 hanno comportato: in pri- 0 o discussioni di gruppo (focus group, forum mo luogo, una analisi generale del vocabola- in Internet, chat o news group). Sono stati, rio utilizzato, in termini di forme testuali (pa- anche, analizzati protocolli clinici, biografie, role e locuzioni) più frequenti; in secondo trascrizioni di messaggi non testuali (lin- luogo, una evidenziazione dei lemmi più ri- guaggi visivi, musicali, gestuali/comporta- correnti per categorie grammaticali; in terzo mentali ecc.), nonché “trascrizioni” del lin- luogo, mediante una riduzione al tema25 del- guaggio parlato attraverso il riconoscimen- le principali unità lessicali selezionate, l’indi- to vocale e infine, recentemente, studi su e- viduazione del linguaggio peculiare, che ha mail e sul lessico degli sms. permesso di quantificare le diverse percezio- Queste applicazioni interessano psicologi, ni del fenomeno. sociologi, medici, antropologi, storici, semio- Osservando il vocabolario già riportato in logi e specialisti della comunicazione. tabella 2, è interessante notare che il termi- La maggior parte delle analisi si fonda sul- ne elettrosmog non è la parola-tema per l’interpretazione delle variazioni linguisti- eccellenza, ma è preceduta da antenne/a, che con finalità psico/socio-linguistiche e telefonia, ripetitori-installazione-impianti, sul riconoscimento del senso di fondo onde e cellulari. Ciò consente di definire su- espresso nei testi. Esempi particolari di bito l’ampio spettro del “tratto semantico” analisi, fra gli altri, sono alcuni studi sull’au- che ruota intorno all’argomento, ancor me- tenticità dell’autore di un documento o sul- glio inquadrabile dalle espressioni più ri- la dinamica del discorso nelle arringhe pro- correnti riportate in tabella 3. Al di là del fe- cessuali oppure analisi del linguaggio in nomeno in sé, in essa appaiono anche ter- condizioni estreme di sopravvivenza quali mini riguardanti il Comune, il sindaco, la quelle che si determinano ad alta quota, salute, che costituiscono tracce importanti nelle profondità sottomarine. del rapporto che il fenomeno ha con l’opi- 22 Rapporto Interno Consorzio Elettra 2000, Centro di Documentazione, http://www.elettra2000.it. 23 Il corpus è pari ad un dossier di 750 pagine; la sua analisi ha prodotto un “vocabolario” di oltre 20.000 pa- role diverse, per un totale di 250.000 occorrenze. 24 Per un maggior dettaglio su queste fasi si rimanda al Report, disponibile presso il Centro di Documentazio- 25 ne del Consorzio Elettra 2000. Per riduzione tematica s’intende un raggruppamento delle occorrenze di parole o espressioni secondo la 1 loro radice riguardante il tema o significato comune. Ciò può concernere solo più flessioni di uno stesso lemma ( sta per “cellulare” o “cellulari”, siano essi aggettivi o sostantivi) o più entrate dello stesso lessema ( corrisponde alla fusione delle occorrenze di “controllo/i”, di “controllore/i” e di varie voci e flessioni del verbo “controllare”). 0 35 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 Telefonia Telefonia mobile 348 Gestori di telefonia 30 Telefonia cellulare 266 Elettrosmog Campi elettromagnetici 292 Emissioni/radiazioni elettromagnetiche 81 1 Onde elettromagnetiche Inquinamento elettromagnetico 274 231 Contro l’elettrosmog Impatto ambientale 54 50 Istituzioni e Legislazione Il Sindaco 229 Ministero dell' Ambiente 33 Il Comune 195 In regola 40 Amministrazione comunale 114 Nulla osta 32 0 Consiglio comunale Concessione edilizia 105 75 Raccolta di firme Contro l'installazione 37 35 Legge quadro 52 All’unanimità 32 Legge regionale 36 Salute La salute 334 Tutela della salute 53 Salute dei cittadini 77 Salute pubblica 67 Collocazione Impianti Stazioni radio 127 Centro abitato 91 Radio base 98 Centro storico 39 Stazioni radio base 76 In città 51 Sul tetto 103 Territorio comunale 36 Nuove antenne 47 Campo sportivo 34 Antenna selvaggia 33 In prossimità 36 Alta tensione 51 A ridosso 34 TABELLA 3 Ad alta frequenza 33 Nelle vicinanze 34 Tematiche 6V 38 50 m 32 più ricorrenti nella Volt per metro 31 Pochi metri 30 Rassegna Stampa nione pubblica e con i problemi legati alla quenza dei termini di ciascun giornale e la salute. loro frequenza generale nel corpus. In tal Successivamente si è proceduto all’analisi modo, si estraggono le parole ed espressio- dei contenuti specifici degli articoli, al fine ni specifiche di ciascun giornale. Questa di cogliere le diversità di approccio al tema tecnica fa emergere i vari modi di percezio- dell’elettrosmog delle diverse testate gior- ne, i diversi livelli di attenzione e il tipo di nalistiche. Questa fase avviene confrontan- “polemiche” sollevate nella stampa, le cui do i “profili lessicali” dei vari giornali me- risultanze tematiche generali sono riassun- diante l’applicazione di un opportuno test te nella tabella 4. statistico, che misura lo scarto tra la fre- La presenza dei temi presenti negli articoli si rileva anche attraverso i verbi, che posso- a = impianti 14% installare, montare, spostare, no essere raccolti nelle voci generali ripor- 1 smantellare, … b = opinione pubblica 53% chiedere, spiegare, individuare, tate nel riquadro a fianco. Da quanto esposto finora emerge che esisto- verificare, … no profonde diversità di trattazione del feno- c = rischio 33% evitare, intervenire, bloccare, 0 causare, … meno, in gran parte dipendenti dall’area geo- grafica d’appartenenza della testata, nonché 36 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 1 impianti: antenn+, install+, ripetitor+, impiant+, tralicci+, apparecch+, lavori, elettrodott+, stazion+ radio base, telefonic+, posiziona+, base, antenn per la tele>, posizione, emittent+, alta tensione, antenn selvagg+, cavi 2 cittadini: cittadin+, contro, chied+, richiest+, protest+, comitato, spieg+, abitant+, società, comitati, condomin+, bambini, ricors+, popolazione, quartiere, persone, denunc+, firma+, gente, battaglia, petizion+, associazione, assemblea, inquilin+, guerra, comunicazione, contro l elettrosmog, proprietari, lotta 3 prodotti: telefonin+, cellular+, telefon cellular+, telefonia mobile, concession+, auricolar+, telefonia, telecomunicazion+, radiotelevis+, televisiv+, consumatori, Gsm 1 4 gestori: Tim, Omnitel, Wind, gestor+, Telecom, milioni, Enel, Blu, mila, Umts, di proprietà, miliardi, gestor telefonia mobil>, Rai, licenze, licenza 5 ambiente/elettrosmog: ambient+, elettrosmog, problem+, onde elettromagn+, camp+ elettromagne>, emission+, radio, inquin+ elettromagn, Arpa+, territorio, inquin+, onde, esposizion+, camp+, emess+, frequenz+, Ambiente, elettric+, stazioni+, concession ediliz+, centro, camp magnetic+, elettromagnetic+, alta, 0 elettronic+, ministero dell Amb>, impatto ambientale, magnetic+ 6 salute/rischi: risch+, salute, pericol+, preoccup+, Asl, dann+, radiazion+, nociv+, provoc+, tutel+, sanitar+, allarm+, alla salute, cautel+, tumor+, sospen+, evit+, a rischio, salute dei cittadi>, conseguenze, Sanità, leucem+, protezione, salute pubblica, tranquill+, cancr+, Oms 7 istituzioni: sindaco+, Comune, legge, assessor+, comunale, autorizzazion+, approv+, consiglier+, Giunta, Tar, Consiglio Comunale, regionale, Amministrazione comun+, presidente, decreto, ordinanz+, Region+, parere, delibera, responsab+, commissione, Governo, amministrazione, comuni, intervento, Comuni, autorità, indagine, risposta, soluzione, Calzolaio, comunali, misure 8 controllo/sicurezza: controll+, norm+, regolament+, x metri, verific+, rilasc+, volt per metro, sul tett+, sicurezza, provvedimento, microtesla TABELLA 4 9 ricerca: scientific+, siti, studi, studio, ricerca, risultati, monitora+, esperti, Sintesi delle misurazion+, sito, mapp+, attenzione, ricerche, prevenzione, Università, ricercatori principali radici lessicali della 10 territorio: zon+, limiti, vicin+, scuole, residenti, abitaz+, distanz+, case, città, palazz+, a poc distanz, edifici+, abitar+, limite, urbanistic+, metri, aree, ediliz+, centr rassegna stampa, abitat+, entro, sportiv+, fino a, vicinanz+, limiti previsti, scuola, livelli, luoghi, in città. raggruppate per temi dall’essere un quotidiano a carattere nazio- 4.3. Un forum di discussione fra insegnanti nale o regionale. per la formazione a distanza Dall’analisi si è potuto evincere tra l’altro co- L’analisi della discussione sulla formazione a me testate quali La Stampa, il Corriere della distanza dell'Istituto Regionale di Ricerca Sera, Il Sole 24 Ore, Italia Oggi, Il Messaggero Educativa per il Lazio era mirata a conoscere e La Repubblica pongono un’attenzione mag- il lessico praticato in oltre 29.000 messaggi giore, sia in assoluto sia rispetto agli altri scambiati in un anno sul web fra insegnanti giornali, a una trattazione del fenomeno in in diverse “conferenze” sulle funzioni obietti- termini di tematiche generali sull’ambiente, vo, nei vari forum provinciali predisposti dal- l’elettrosmog, la salute, la ricerca, ma parlano la Biblioteca di Documentazione Pedagogica anche significativamente dei prodotti. Al con- di Firenze (http://www.bdp.it/). trario, testate quali Il Tirreno, Il Secolo XIX, L’insieme dei materiali testuali, assai volumi- Corriere Adriatico e altri giornali regionali in- centrano la loro attenzione su problemi locali noso (1,8 milioni di occorrenze, equivalenti a oltre 6.000 pagine di testo) è portatore di 1 e particolaristici, legati ai singoli impianti, al moltissime informazioni, che sono state via territorio e sono sensibili alle azioni dei citta- dini e delle istituzioni di governo locali. via estratte. A parte uno studio a sé stante sulla concatenazione dei messaggi, sono ri- 0 37 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 riabilità di linguaggio in funzione dei tipi di Fattore 2 conferenze (Figura 1), secondo un conti- 0.2 Enti esterni nuum che dà il senso latente del “discorso” Caffè sviluppatosi nei forum. L’interpretazione 0.1 Studenti degli assi di un piano fattoriale viene fatta a Foyer posteriori a partire dalla disposizione dei punti sul piano cartesiano, o meglio, asse 0 1 Gestione POF per asse, secondo la graduatoria delle coor- dinate dei punti sull’asse (per approfondi- –0.1 menti si rimanda a Bolasco [6]). In partico- Autonomia lare, nel nostro caso, l’interpretazione del –0.2 posizionamento delle conferenze in figura Docenti 1, si dedurrà dal posizionamento delle paro- –0.15 0 0.15 0.30 Fattore 1 le in figura 2. In quest’ultima figura, se- 0 FIGURA 1 guendo l’asse orizzontale da sinistra a de- stra si osservano parole coerenti con un Mappa delle 7 conferenze sul sito delle FO gradiente crescente di densità di interessi e argomentazioni che partendo da un livello sultate molto interessanti l’analisi della pun- minimo del grado di realizzazione, parteci- teggiatura, l’inizio del messaggio, l’analisi pazione, collaborazione nelle attività (“ci dei verbi e degli aggettivi. sono anch’io”, “finalmente”, “riuscita” Tutte queste sub-analisi hanno testimonia- “messaggi”, “buon lavoro a tutti” espres- to l’entusiasmo degli insegnanti nel parteci- sioni tipiche delle conferenze “Caffè” e pare alla discussione e nella scoperta di po- “Foyer”, meno ricche di contenuti), passa ter comunicare a distanza e saper navigare via via secondo un crescendo del primo fat- in Internet, nonché il desiderio di portare la tore nelle cinque conferenze sulle funzioni propria esperienza e raccontare eventi con obiettivo. Dapprima fra le FO “Docenti”, poi molti particolari26. “Autonomia” e “Gestione del POF” si incon- A titolo di esempio, si privilegia in questo trano “sostegno al lavoro dei docenti”, articolo l’estrazione dell’informazione limi- “corso integrativo”, “bisogni formativi”, tata ai verbi e i risultati emersi dall’applica- “documentazione”, “tecnologie”, “informa- zione dell’analisi delle corrispondenze. tica", “laboratori”, “autonomia”, “program- Per quanto riguarda l’estrazione dei verbi pe- mazione”, fino ad arrivare ai “Progetti con culiari, ottenuti confrontando la frequenza Enti esterni” e ai “Servizi per gli Studenti”, dei lemmi nel corpus dei messaggi con quel- che risultano essere le conferenze più “den- la presente nel linguaggio standard, emergo- se” di messaggi argomentati e di attenzio- no i toni generali del , oltre che i riferimenti alla salute”, “alternanza scuola lavoro”). all’attività web come , che documentano le manda a Bolasco [7]. Dalla lettura si confer- due principali dimensioni percepite della di- merà l’impressione generale di un crescen- scussione nei forum. te grado di interesse nella partecipazione e L’applicazione dell’analisi delle corrispon- nella comunicazione delle esperienze, che 1 denze produce invece una mappa della va- trova nelle aree di discussione quali il Foyer e il Caffè il suo livello minimo (coloro che sono rimasti “alla finestra”, a guardare dal- 0 26 Si rimanda il lettore interessato, all’analisi di det- taglio in Bolasco [7]. l’esterno questo nuovo strumento di comu- nicazione on-line) e nelle aree relative alle 38 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 Fattore 2 Alternanza scuola lavoro Progetti con enti 0.8 esterni Enti locali Educazione alla salute Ci sono riuscita Educazione ambientale Ci vediamo Interventi per gli studenti Ci sono anch’io Ci sentiamo Rapporti Dispersione scolastica 0.4 Finalmente Messaggi Buon lavoro a tutti Educazione Interventi Scuola media Iniziative Continuità Scuole superiori 1 Messaggio Area Collaborazione Scuola materna Famiglie 0 Ragazzi Genitori Internet Colleghi Realizzazione Corso d’aggiornamento Confronto Progettazione Autonomia Rete Docente Programmazione Classe Aggiornamento Docenti Autovalutazione –0.4 Computer Sostegno Innovazione Questionario Documentazione Laboratorio Laboratori 0 Sostegno al lavoro dei docenti Informatica Programma Lavoro dei docenti Laboratorio di informatica Bisogni formativi –0.8 Lavoro docente Tecnologie Documentazione educativa Corso integrato 0.4 0 –0.4 –0.8 Fattore 1 FIGURA 2 Piano fattoriale delle corrispondenze - Mappa delle unità lessicali (parole e sequenze più significative) associate ai forum sulle FO FO su Studenti e su Attività con enti esterni sente solo in Pio XII, i termini bene e sociale il suo massimo (coloro che hanno già svolto in Giovanni XXIII, il termine mondo solo in molte attività e rendono conto delle espe- Paolo VI e uomo solo in Giovanni Paolo II. Al rienze già compiute). contrario, il fatto che Dio, chiesa e vita siano Seguendo l’asse verticale, dall’alto verso il comuni ai 4 papi rende questi termini meno basso, si passa dalla dimensione del “pro- significativi, perché prevedibili. getto” a quella del “corso integrativo”, ossia Nel campo del marketing e degli studi socio- dal generale-ideale (sia Caffè, sia Enti ester- psicologici, un contributo interessante all’a- ni, ma con modalità opposte espresse dal nalisi semantica nell’estrazione di informa- primo asse fattoriale, rispettivamente “da zione è dovuto all’approccio semiometrico realizzare”/”già realizzato”) al particolare- [22]. La semiometria è una tecnica di descri- concreto (Docenti). Le parole diverse in cia- zione dei legami semantici fra parole e si fon- scun quadrante segnano dunque le differen- da sull’analisi di un insieme selezionato di ze fra i linguaggi degli insegnanti. termini che, al di là del loro significato, evo- cano ricordi e/o provocano sensazioni grade- 4.4. Ulteriori esempi di applicazione voli-sgradevoli27. A partire da un campione di Da uno studio sulle encicliche papali svolto individui intervistati che reagisce all’insieme da Bisceglia e Rizzi [4] si rileva come anche solo le alte frequenze siano in grado di sele- 27 zionare alcuni elementi essenziali dei docu- Si tratta di circa 200 sostantivi, verbi o aggettivi menti in esame. L’analisi delle prime 5 oc- correnze più utilizzate (top five) dagli ultimi come per esempio: l’assoluto, l’ambizione, l’a- micizia, l’angoscia, astuto, il coraggio, il perico- 1 lo, la disciplina, risparmiare, efficace, l’eleganza, quattro pontefici nelle loro encicliche forni- la famiglia, la gioia, la gloria, la guerra, la giusti- sce interessanti elementi che caratterizzano i pontificati (Figura 3). Il termine fede è pre- zia, avventuroso, boheme, concreto, Dio, nobile, sublime, teatro ecc. 0 39 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
0 PIO XII Giovanni XXIII Fede Dio Chiesa Sociale Vita Dio 1 Cristo Chiesa Bene Vita Paolo VI Giovanni Paolo II Cristo Uomo Dio 0 FIGURA 3 Chiesa Vita Le cinque parole maggiormente Vita utilizzate da questi Mondo Chiesa pontefici in tutte le encicliche da loro Dio Cristo promulgate di questi stimoli su una scala di sensazioni a Per Technology Watch (TW) si intende l’attività di mo- 7 livelli da –3 a +3, secondo un crescendo di nitoraggio della tecnologia, con lo scopo di evidenzia- gradevolezza, si descrivono sistemi di valori re le caratteristiche delle tecnologie esistenti e le loro relazioni, nonché di identificare e descrivere le tecno- e stili di vita. La tecnica di rappresentazione logie emergenti. dell’informazione è quella dei piani fattoriali, Gli elementi fondanti del TW sono quindi la capacità da un lato di raccogliere tutte le informazioni sulle tecno- ottenuti con l’analisi delle corrispondenze, logie consolidate che potrebbero non essere comune- che consentono il posizionamento degli indi- mente note, dall’altro di evidenziare sviluppi tecnolo- vidui su polarizzazioni semantiche quali: do- gici ancora in uno stato embrionale, cogliendone po- tenzialità e campi di applicazione e analizzandone le vere/piacere, attaccamento/distacco, spiri- relazioni con le tecnologie già note. to/materia e così via. ne delle Risorse Umane (analisi dei curricu- 5. UN ESEMPIO DI TEXT MINING NEL TECHNOLOGY WATCH lum vitae per la selezione di competenze specifiche, monitoraggio dell’Intranet I campi di applicazione del Text Mining28 aziendale); dalla classificazione automati- spaziano dal mining sul web (flussi di navi- ca delle risposte in linguaggio naturale nel- gazione dei siti, comportamenti di visita nel le indagini Istat (censimento, forze di lavo- sito), all’analisi delle banche dati sui bre- ro, indagini multiscopo) alla categorizza- vetti (Patent Analysis) e più in generale al zione dei document warehouse aziendali Technology Watch dalle azioni di Customer (database di case editoriali, basi documen- Relationship Management (gestione dei tali di istituzioni pubbliche ecc.). call center, re-routing di e-mail, analisi di Un esempio d’applicazione di Text Mining complaint, monitoraggio sulla pubblicità per il Technology Watch si trova all'interno dei prodotti, marketing diretto) alla gestio- del progetto europeo FANTASIE29 (Foreca- 1 28 Per un riferimento generale al TM si veda il sito del progetto europeo NEMIS (Network of Excellence in Text 0 29 Mining and its Applications in Statistics): http://nemis.cti.gr Si veda il sito: http://www.etsu.com/fantasie/fantasie.html 40 M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 4
Puoi anche leggere