La ricerca dell'informazione
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Documento Documento= risorsa informativa Fino agli anni’80 i documenti erano: • Quasi esclusivamente di tipo analogico. • Tipicamente cartaceo • Oggetto fisico manipolabile • Facilmente consultabile (vista o tatto) Oggi: - Molti documenti sono di tipo digitale - Accesso al contenuto è mediato tecnologicamente da un elaboratore elettronico
Ciclo di vita di un documento Ciclo di vita = periodo di tempo nel quale l’informazione che esso contiene è aggiornata o rilevante. E’ sempre opportuno valutare il grado di aggiornamento di un documento. Nel WEB? Nel Web possono esistere più versioni dello stesso documento e quindi è fondamentale trovare la più recente!
Information Retrieval Il punto di partenza di una ricerca di informazioni è sempre la percezione soggettiva di una lacuna, o mancanza, di conoscenza. Esigenza informativa Rivolgersi a un esperto → tacit knowledge retrieval Interrogare il catalogo di una biblioteca, una web directory, un motore di ricerca → information retrieval Consultare direttamente un documento pertinente→ full text retrieval Consultare direttamente un documento pertinente per reperire nella bibliografia altre possibili fonti di informazione→ reference linking
Information Retrieval Il web è sconfinato e le informazioni vanno richiamate. information overload MOTORI DI RICERCA Ma come fanno questi a fornire dati che combacino con le nostre richieste? IR – INFORMATION RETRIEVAL
Information Retrieval INFORMATION RETRIEVAL o RECUPERO DELLE INFORMAZIONI: processo di selezione di informazione rilevante da una collezione di documenti appositamente organizzata. rendere accessibile la conoscenza GRANDI QUANTITA’ DI attualmente disponibile INFORMAZIONI rendere disponibili in maniera automatica i dati archiviati. INFORMATION RETRIEVAL
Information Retrieval - Storia 1945 – Vannevar Bush - articolo “As We May Think” Bush individuò il seguente problema: gli esperti si specializzano sempre di più e hanno perciò bisogno di un numero sempre maggiore di informazioni, che però risultano sempre più difficili da trovare anche per via della differenziazione degli ambiti. La sua visione personale si chiamava Memex, (Memory Expansion) e consisteva in una scrivania dotata di tre schermi e con un sistema di archiviazione dei dati basata su microfilm. Anni 50 – Hans Peter Luhn Sviluppò tecnologie che sono ancora oggi rilevanti: full-text processing, auto- indicizzazione e la disseminazione selettiva delle informazioni (SDI).
Information Retrieval - Scopo Le ricerche degli utenti sono spesso imprecise, il termine di ricerca inserito lascia spesso spazio a VAGHEZZA interpretazioni. Il sistema non è sufficientemente a conoscenza dei contenuti delle informazioni archiviate al suo interno. INSICUREZZA Per questo motivo a volte vengono forniti dei risultati errati. Questo avviene ad esempio nel caso di parole omonime, ovvero parole identiche ma dal significato diverso. Inoltre il sistema dovrebbe anche valutare le informazioni, al fine di offrire all’utente ORDINE una successione dei dati dove, idealmente, il primo risultato è la risposta più adatta alla domanda posta dall’utente.
Information Retrieval - Scopo QUERY OGGETTO ("interrogazioni") sono stringhe di parole-chiavi rappresentanti Entità che possiede informazioni le l'informazione richiesta. Vengono quali potrebbero essere risposta digitate dall'utente in un sistema IR dell'interrogazione dell'utente. Un e sono la concretizzazione del reale documento di testo, per esempio, è un bisogno informativo dell'utente. oggetto di dati.
Information Retrieval - Modelli •Modelli booleani: le relazioni di affinità vengono individuate attraverso operazioni booleane. •Modelli algebrici: l’affinità viene identificata a coppie; documenti e ricerche sono rappresentabili come vettori, matrici o tuple ordinate (modello vettoriale). •Modelli probabilistici: questi modelli producono riferimenti di affinità considerando le quantità di dati come esperimenti casuali divisi in più fasi.
IR - Modello Booleano I motori di ricerca più famosi del web si basano sul principio booleano. Si tratta di collegamenti logici attraverso i quali gli utenti possono rendere più precisa e accurata la propria ricerca. • NOT • AND • OR Questi servono quando ad esempio è fondamentale che entrambi i termini utilizzati per una richiesta compaiano nella risposta o che al contrario vengano esclusi contenuti con determinati termini. Anche le operazione di Google funzionano secondo questo principio. Lo svantaggio di questo sistema è che non prevede in alcun modo l’ordine gerarchico dei risultati. Sarebbe utile infatti che seguissero un ordine in base alla loro utilità, ma questo metodo offre i risultati in ordine casuale.
IR - Operatori Booleani - Operatore Funzione Cerca X oppure Y. Restituisce risultati che hanno a che vedere con X o Y, oppure con entrambi. Attenzione: può anche essere usato l’operatore barra verticale (|) al posto di “OR”. OR Es. bicicletta OR usata Cerca X e Y. Restituisce soltanto i risultati connessi sia a X che a Y. Attenzione: non è diverso dalle ricerche normali, che Google esegue di default usando “AND”, ma è AND molto utile se combinato con altri operatori. Per trovare più velocemente le informazioni desiderate, Google mette a disposizione un operatore di ricerca per escludere dei termini precisi, ovvero il meno - (-) seguito da una parola. Così saranno mostrate solo le pagine che non contengono il termine indicato dopo il trattino. Es. jobs -apple Tabella estratta dal sito: https://www.ionos.it/digitalguide/online-marketing/marketing- sui-motori-di-ricerca/ricercare-con-gli-operatori-di-ricerca-di-google/
IR - Operatori Ricerca - Operatore Funzione "parola o Per ricercare citazioni, parti di canzoni o testi. Da notare che il motore di ricerca non frase esatta" tiene conto dei caratteri minuscoli o maiuscoli. Chi invece vorrebbe mantenersi sul generico o non conosce esattamente un termine, ha la possibilità di lasciar integrare automaticamente da Google le parole *parola mancanti, ricorrendo all’asterisco, un carattere jolly. Così è possibile ad esempio scoprire dei proverbi che non si conoscono esattamente: chi non *, non * Il cancelletto si utilizza anche su Google per ricercare tra i temi di tendenza. In #parola questo modo gli utenti possono cercare tramite hashtag (come avviene sui social) #GiornataMondialeDelLibro Come con gli hashtag, su Google con il simbolo @ è anche possibile ricercare per @parola tag nei social. Tabella estratta dal sito: https://www.ionos.it/digitalguide/online-marketing/marketing- sui-motori-di-ricerca/ricercare-con-gli-operatori-di-ricerca-di-google/
IR - Operatori Ricerca - Operatore Funzione Cerca i prezzi. € Es. bicicletta € Dice che tempo fa in una certa località. Il risultato viene visualizzato in uno snippet, Weather: ma l’operatore restituisce anche risultati da altri siti che si occupano di meteo. Es. weather:macerata Converte un’unità di misura in un’altra. Funziona con le valute, i pesi, le in temperature, ecc. Es. 30 c in fahrenheit Tabella estratta dal sito: https://www.ionos.it/digitalguide/online-marketing/marketing- sui-motori-di-ricerca/ricercare-con-gli-operatori-di-ricerca-di-google/
IR - Operatori Ricerca - Operatori di ricerca avanzati OPERATORI FUNZIONI site: Tutte le pagine indicizzate di un dominio. • Cristiano Ronaldo site: Repubblica.it • Cristiano Ronaldo -site:wikipedia.org related: Per trovare siti simili. • related:repubblica.it intext: Vengono mostrati i risultati che contengono la parola nel testo. • intext: Mattarella Unimc define: Fornisce delle spiegazioni in merito alla keyword inserita. • define:giornale filetype: Per trovare solo i risultati con uno specifico formato. • gimp tutorial filetype:pdf
Information Retrieval - Modelli •Modelli booleani: le relazioni di affinità vengono individuate attraverso operazioni booleane. •Modelli algebrici: l’affinità viene identificata a coppie; documenti e ricerche sono rappresentabili come vettori, matrici o tuple ordinate (modello vettoriale). •Modelli probabilistici: questi modelli producono riferimenti di affinità considerando le quantità di dati come esperimenti casuali divisi in più fasi.
IR - Modello algebrico Nel sistema vettoriale: - contenuti=vettori - I termini (terms) =assi delle coordinate Ad ogni termine negli oggetti e nelle query viene assegnato un peso, espresso con un numero reale positivo. I documenti e le query vengono visualizzati come vettori all’interno di uno spazio n dimensionale. Sia i documenti come anche le ricerche contengono valori specifici in riferimento al termine e sono perciò rappresentabili come punti o vettori all’interno di uno spazio vettoriale. Successivamente entrambi i vettori vengono paragonati. Il vettore più affine alla ricerca dovrebbe comparire come primo risultato nel ranking. Svantaggio: è che senza i principi booleani nessun risultato può essere escluso.
Information Retrieval - Modelli •Modelli booleani: le relazioni di affinità vengono individuate attraverso operazioni booleane. •Modelli algebrici: l’affinità viene identificata a coppie; documenti e ricerche sono rappresentabili come vettori, matrici o tuple ordinate (modello vettoriale). •Modelli probabilistici: questi modelli producono riferimenti di affinità considerando le quantità di dati come esperimenti casuali divisi in più fasi.
IR - Modello probabilistico A ogni contenuto viene attribuito un valore di probabilità. I risultati vengono ordinati in base alla loro probabilità di corrispondere all’intenzione di ricerca. Quanto elevate siano le possibilità che un dato contenuto corrisponda al desiderio dell’utente lo individua il modello in base al cosiddetto Relevance Feedback. Ad esempio gli utenti vengono esortati a valutare i risultati, così che la lista dei risultati mostrata alla prossima identica ricerca sia diversa e possibilmente migliore. Svantaggi: • il sistema dà per scontato che gli utenti siano disposti a collaborare fornendo un feedback a ogni ricerca. • Il presupposto è che gli utenti considerino i risultanti indipendenti l’uno dall’altro, ovvero che giudichino ogni contenuto come se fosse il primo che gli viene mostrato. Nella pratica gli utenti valutano sempre l’utilità di un’informazione in relazione con le altre, ovvero basandosi sui contenuti già visualizzati.
Information Retrieval - Funzionamento Inverse Term Frequency Document (TF) Frequency (IDF) la frequenza indica quanto spesso Le parole che compaiono in un numero un termine compare all’interno di limitato di documenti ma che un documento. all’interno di questi ricorrono con grande frequenza
IR - Funzionamento - TF Term Frequency: la frequenza indica quanto spesso un termine compare all’interno di un documento.
IR - Funzionamento - IDF •Inverse Document Frequency: per idf non si intende un solo documento ma un intero corpo di testi.
IR - Funzionamento – combinazione TF e IDF ESEMPIO: Intendo ricercare «la trasmissione televisiva con il topo» Inverse Term Frequency Document (TF) Frequency (IDF) Se utilizzassi solo TF, verrebbero Se utilizzassi solo IDF, ritenuti più rilevanti quei sarebbero i termini documenti contenenti il maggior “trasmissione”, “televisiva” e numero di volte le parole “la”, “topo” a essere “con” e “il”. particolarmente significativi ai fini della ricerca e sarebbero anzi riconosciuti come gli unici termini rilevanti.
IR - Funzionamento Problema: richieste Il sistema si occupa di imprecise o incomplete QUERY modificare portano ad ottenere autonomamente la informazioni sbagliate o MODIFICATION richiesta effettuata. insufficienti. A questo scopo il sistema si affida ai Thesauri e ai THESAURI feedback forniti dagli utenti.
IR - Funzionamento Eliminazione delle stop words: • come stop words vengono definite quelle espressioni che non contribuiscono al contenuto del testo o lo fanno solo in maniera non essenziale. In relazione a ciò è sensato non considerare articoli e congiunzioni come elementi rappresentativi del contenuto del documento. Identificazione di gruppi di più parole: • gli aggruppamenti di parole devono essere riconosciuti come tali. Questa identificazione permette che i motori di ricerca possano identificare come rilevanti anche singole parti di parole unite assieme. Seppur meno essenziale per la lingua italiana, per lingue come il tedesco è a dir poco fondamentale. Riduzione alla forma base e originaria della parola: • per cercare in maniera efficace, le parole devono essere ridotte alla propria radice. Altrimenti nei risultati non comparirebbero le forme flesse della parola.
Information Retrieval - Scopo RECALL PRECISION
IR - Recall Recall: Per calcolarlo bisogna confrontare il numero di documenti rilevanti recuperati con il numero di quelli non recuperati. Il quoziente rivela quanto sia probabile che un documento rilevante sia effettivamente trovato:
IR - Precision Precision: quanto è preciso il risultato di ricerca? Per capirlo bisogna confrontare il numero di documenti rilevanti recuperati con il numero di quelli non rilevanti. Il quoziente rivela quanto sia probabile che un documento recuperato sia rilevante:
IR - Fallout RECALL PRECISION Entrambi i valori si attestano tra 0 e 1, dove 1 è il valore perfetto Fallout: quoziente che restituisce il rapporto tra i documenti recuperati ma irrilevanti e i contenuti irrilevanti ma non recuperati. La precisione e il recupero sono rappresentabili in un diagramma ad asse, dove ognuno dei due valori corrisponde a un’asse.
IR - Esempio Information Retrieval: esempio di una ricerca Come già accennato ogni motore di ricerca si basa sull’Information Retrieval. Perciò Google, Bing e Yahoo sono degli esempi perfetti di recupero computerizzato delle informazioni. ESEMPIO: Biblioteca di libri per bambini • Metodo booleano apparirebbe così: elefante E giraffa NON coccodrillo.
IR - Funzionamento
IR - Funzionamento
IR - Metadati I metadati sono delle informazioni sull’informazione che ne favoriscono il reperimento I metadati vengono prodotti da catalogatori • dati salienti di un documento trascritti a mano • l’autore di un articolo è un catalogatore: abstract, keywords • social tagging (catalogazione da parte di utenti) Grazie ai sistemi di Information Retrieval la catalogazione è stata automatizzata
Tipi di metadati descrittivi (informazioni generali) semantici (contenuto intellettuale) localizzazione (posizione copia fisica o url) identificatore
Tipi di metadati – identificatore: ISBN
Tipi di metadati – identificatore:DOI Il Digital Object Identifier (DOI) è uno standard che consente di identificare persistentemente, all'interno di una rete digitale, qualsiasi oggetto di proprietà intellettuale e di associarvi i relativi dati di riferimento, i metadati, secondo uno schema strutturato ed estensibile.
Tipi di metadati – identificatore:DOI Cosa può essere identificato da un DOI? • Un DOI può essere registrato su qualunque forma di proprietà intellettuale espressa in qualsiasi ambiente digitale. • La proprietà intellettuale include tanto contenuti digitali che pubblicati su supporti fisici: i DOI possono essere utilizzati per identificare testi, immagini, risorse audio o video, software, ecc. • Un oggetto può essere arbitrariamente identificato a qualunque livello di granularità. Ciò significa che, ad esempio, si può registrare un DOI sulla testata di una rivista, sul suo singolo numero, sul singolo articolo di un dato numero, sulla singola tabella di un dato articolo.
Tipi di metadata - DOI Conoscere quello che possiedono Benefici dell'utilizzo del DOI •persistenza: il nome DOI continuerà a funzionare Trovare quello correttamente nonostante venga modificata di cui hanno l’ubicazione del materiale, venga riordinato o bisogno inserito nei "preferiti" •cooperazione con altri dati da altre fonti Conoscere •estensibilità: Il nome DOI può essere esteso dove esiste quello di cui aggiungendo nuove caratteristiche e servizi hanno bisogno attraverso l’amministrazione dei Gruppi dei DOI Name Riuscire ad •indipendenza dalla piattaforma ottenere quello che •aggiornamenti dinamici: gli aggiornamenti dei necessitano MetaDati, delle applicazioni e dei servizi risultano dinamici Usare quello che necessitano in una transizione
Tipi di metadata Metadati di legame • relazioni tra documenti diversi, versioni o parti logiche • solitamente il tipo di relazione viene specificato in sottocategorie di questo metadato Metadati specialistici • utile per la precisione dei risultati di ricerca • penalizza le ricerche effettuate contemporaneamente su più sistemi di Information Retrieval Il problema dell’interoperabilità dei metadati può rivelarsi secondo differenti aspetti: • Sintassi • Semantica • uso di etichette differenti
Tipi di metadata Metadati gestionali e strutturali • conservazione e gestione delle risorse • descrizione interna del documento per una corretta visualizzazione di risorse composte da più file Metadati per la gestione dei diritti • diritti d’uso delle risorse • informano l’utente in che misura i contenuti possono essere duplicati e diffusi
https://duckduckgo.com/
https://swisscows.com/
https://www.qwant.com
https://www.wolframalpha.com /examples/
Tabella estratta dal sito: https://www.ionos.it/digitalguide/online-marketing/marketing- sui-motori-di-ricerca/alternative-a-google//
Puoi anche leggere