La ricerca dell'informazione

Pagina creata da Enrico Cirillo
 
CONTINUA A LEGGERE
La ricerca dell'informazione
La ricerca
dell’informazione
La ricerca dell'informazione
Documento
Documento= risorsa informativa

Fino agli anni’80 i documenti erano:
• Quasi esclusivamente di tipo analogico.
• Tipicamente cartaceo
• Oggetto fisico manipolabile
• Facilmente consultabile (vista o tatto)

Oggi:
-   Molti documenti sono di tipo digitale
-   Accesso al contenuto è mediato tecnologicamente da un elaboratore
    elettronico
La ricerca dell'informazione
Ciclo di vita di un documento
Ciclo di vita = periodo di tempo nel quale l’informazione che esso contiene è
aggiornata o rilevante.

  E’ sempre opportuno valutare il grado di aggiornamento di un documento.

                                   Nel WEB?

   Nel Web possono esistere più versioni dello stesso documento e quindi è
                   fondamentale trovare la più recente!
La ricerca dell'informazione
Information Retrieval
  Il punto di partenza di una ricerca di informazioni è sempre la percezione
             soggettiva di una lacuna, o mancanza, di conoscenza.

                               Esigenza informativa

              Rivolgersi a un esperto → tacit knowledge retrieval
Interrogare il catalogo di una biblioteca, una web directory, un motore di ricerca
                             → information retrieval
     Consultare direttamente un documento pertinente→ full text retrieval
      Consultare direttamente un documento pertinente per reperire nella
       bibliografia altre possibili fonti di informazione→ reference linking
La ricerca dell'informazione
Information Retrieval
         Il web è sconfinato e le informazioni vanno richiamate.

                                       information overload

                            MOTORI DI RICERCA
Ma come fanno questi a fornire dati che combacino con le nostre richieste?

                     IR – INFORMATION RETRIEVAL
Information Retrieval
INFORMATION RETRIEVAL o RECUPERO DELLE INFORMAZIONI: processo di
selezione di informazione rilevante da una collezione di documenti
appositamente organizzata.

                                            rendere accessibile la conoscenza
GRANDI QUANTITA’ DI
                                                attualmente disponibile
  INFORMAZIONI

                                             rendere disponibili in maniera
                                              automatica i dati archiviati.

                       INFORMATION
                         RETRIEVAL
Information Retrieval - Storia
                     1945 – Vannevar Bush - articolo “As We
                    May Think”
                    Bush individuò il seguente problema: gli
                    esperti si specializzano sempre di più e
                    hanno perciò bisogno di un numero sempre
                    maggiore di informazioni, che però risultano
                    sempre più difficili da trovare anche per via
                    della differenziazione degli ambiti.
                    La sua visione personale si chiamava
                    Memex, (Memory Expansion) e consisteva
                    in una scrivania dotata di tre schermi e con
                    un sistema di archiviazione dei dati basata
                    su microfilm.
                    Anni 50 – Hans Peter Luhn
                    Sviluppò tecnologie che sono ancora oggi
                    rilevanti:    full-text   processing,    auto-
                    indicizzazione e la disseminazione selettiva
                    delle informazioni (SDI).
Information Retrieval - Scopo
    Le ricerche degli utenti sono spesso imprecise, il
    termine di ricerca inserito lascia spesso spazio a                 VAGHEZZA
                     interpretazioni.

                    Il sistema non è sufficientemente a conoscenza dei contenuti
                              delle informazioni archiviate al suo interno.
 INSICUREZZA         Per questo motivo a volte vengono forniti dei risultati errati.
                       Questo avviene ad esempio nel caso di parole omonime,
                           ovvero parole identiche ma dal significato diverso.

                   Inoltre il sistema dovrebbe anche valutare
                   le informazioni, al fine di offrire all’utente
                                                                         ORDINE
                  una successione dei dati dove, idealmente,
                 il primo risultato è la risposta più adatta alla
                           domanda posta dall’utente.
Information Retrieval - Scopo

            QUERY                                OGGETTO
  ("interrogazioni") sono stringhe di
      parole-chiavi rappresentanti        Entità che possiede informazioni le
  l'informazione richiesta. Vengono         quali potrebbero essere risposta
 digitate dall'utente in un sistema IR     dell'interrogazione dell'utente. Un
 e sono la concretizzazione del reale    documento di testo, per esempio, è un
   bisogno informativo dell'utente.                   oggetto di dati.
Information Retrieval - Modelli

•Modelli booleani: le relazioni di affinità vengono individuate attraverso
operazioni booleane.

•Modelli algebrici: l’affinità viene identificata a coppie; documenti e ricerche
sono rappresentabili come vettori, matrici o tuple ordinate (modello vettoriale).

•Modelli probabilistici: questi modelli producono riferimenti di affinità
considerando le quantità di dati come esperimenti casuali divisi in più fasi.
IR - Modello Booleano
I motori di ricerca più famosi del web si basano sul principio booleano.

Si tratta di collegamenti logici attraverso i quali gli utenti possono rendere più precisa e
accurata la propria ricerca.

 • NOT
 • AND
 • OR

Questi servono quando ad esempio è fondamentale che entrambi i termini utilizzati per
una richiesta compaiano nella risposta o che al contrario vengano esclusi contenuti con
determinati termini.
Anche le operazione di Google funzionano secondo questo principio. Lo svantaggio di
questo sistema è che non prevede in alcun modo l’ordine gerarchico dei risultati.
Sarebbe utile infatti che seguissero un ordine in base alla loro utilità, ma questo metodo
offre i risultati in ordine casuale.
IR - Operatori Booleani -
Operatore                                           Funzione
            Cerca X oppure Y. Restituisce risultati che hanno a che vedere con X o Y, oppure con
            entrambi. Attenzione: può anche essere usato l’operatore barra verticale (|) al posto
                                                     di “OR”.
   OR
                                                Es. bicicletta OR usata

            Cerca X e Y. Restituisce soltanto i risultati connessi sia a X che a Y. Attenzione: non è
             diverso dalle ricerche normali, che Google esegue di default usando “AND”, ma è
  AND
                                 molto utile se combinato con altri operatori.

                   Per trovare più velocemente le informazioni desiderate, Google mette a
            disposizione un operatore di ricerca per escludere dei termini precisi, ovvero il meno
   -        (-) seguito da una parola. Così saranno mostrate solo le pagine che non contengono
                                      il termine indicato dopo il trattino.
                                                  Es. jobs -apple

                              Tabella estratta dal sito: https://www.ionos.it/digitalguide/online-marketing/marketing-
                              sui-motori-di-ricerca/ricercare-con-gli-operatori-di-ricerca-di-google/
IR - Operatori Ricerca -
 Operatore                                                 Funzione
  "parola o Per ricercare citazioni, parti di canzoni o testi. Da notare che il motore di ricerca non
frase esatta"                   tiene conto dei caratteri minuscoli o maiuscoli.

                 Chi invece vorrebbe mantenersi sul generico o non conosce esattamente un
              termine, ha la possibilità di lasciar integrare automaticamente da Google le parole
  *parola                     mancanti, ricorrendo all’asterisco, un carattere jolly.
                   Così è possibile ad esempio scoprire dei proverbi che non si conoscono
                                          esattamente: chi non *, non *

                Il cancelletto si utilizza anche su Google per ricercare tra i temi di tendenza. In
  #parola     questo modo gli utenti possono cercare tramite hashtag (come avviene sui social)
                                             #GiornataMondialeDelLibro

               Come con gli hashtag, su Google con il simbolo @ è anche possibile ricercare per
  @parola
                                                tag nei social.

                               Tabella estratta dal sito: https://www.ionos.it/digitalguide/online-marketing/marketing-
                               sui-motori-di-ricerca/ricercare-con-gli-operatori-di-ricerca-di-google/
IR - Operatori Ricerca -
Operatore                                               Funzione
                                                     Cerca i prezzi.
   €                                                 Es. bicicletta €

            Dice che tempo fa in una certa località. Il risultato viene visualizzato in uno snippet,
Weather:      ma l’operatore restituisce anche risultati da altri siti che si occupano di meteo.
                                           Es. weather:macerata

                  Converte un’unità di misura in un’altra. Funziona con le valute, i pesi, le
   in                                       temperature, ecc.
                                           Es. 30 c in fahrenheit

                             Tabella estratta dal sito: https://www.ionos.it/digitalguide/online-marketing/marketing-
                             sui-motori-di-ricerca/ricercare-con-gli-operatori-di-ricerca-di-google/
IR - Operatori Ricerca -
Operatori di ricerca avanzati
 OPERATORI                                  FUNZIONI

    site:                   Tutte le pagine indicizzate di un dominio.
                             • Cristiano Ronaldo site: Repubblica.it
                             • Cristiano Ronaldo -site:wikipedia.org
  related:                            Per trovare siti simili.
                                     • related:repubblica.it
   intext:       Vengono mostrati i risultati che contengono la parola nel testo.
                                 • intext: Mattarella Unimc
   define:          Fornisce delle spiegazioni in merito alla keyword inserita.
                                        • define:giornale
  filetype:           Per trovare solo i risultati con uno specifico formato.
                                  • gimp tutorial filetype:pdf
Information Retrieval - Modelli

•Modelli booleani: le relazioni di affinità vengono individuate attraverso
operazioni booleane.

•Modelli algebrici: l’affinità viene identificata a coppie; documenti e ricerche
sono rappresentabili come vettori, matrici o tuple ordinate (modello vettoriale).

•Modelli probabilistici: questi modelli producono riferimenti di affinità
considerando le quantità di dati come esperimenti casuali divisi in più fasi.
IR - Modello algebrico
Nel sistema vettoriale:
- contenuti=vettori
- I termini (terms) =assi delle coordinate

Ad ogni termine negli oggetti e nelle query viene assegnato un peso, espresso
con un numero reale positivo. I documenti e le query vengono visualizzati come
vettori all’interno di uno spazio n dimensionale.

Sia i documenti come anche le ricerche contengono valori specifici in
riferimento al termine e sono perciò rappresentabili come punti o vettori
all’interno di uno spazio vettoriale.
Successivamente entrambi i vettori vengono paragonati. Il vettore più affine alla
ricerca dovrebbe comparire come primo risultato nel ranking.

Svantaggio: è che senza i principi booleani nessun risultato può essere escluso.
Information Retrieval - Modelli

•Modelli booleani: le relazioni di affinità vengono individuate attraverso
operazioni booleane.

•Modelli algebrici: l’affinità viene identificata a coppie; documenti e ricerche
sono rappresentabili come vettori, matrici o tuple ordinate (modello vettoriale).

•Modelli probabilistici: questi modelli producono riferimenti di affinità
considerando le quantità di dati come esperimenti casuali divisi in più fasi.
IR - Modello probabilistico
A ogni contenuto viene attribuito un valore di probabilità.
I risultati vengono ordinati in base alla loro probabilità di corrispondere
all’intenzione di ricerca.

Quanto elevate siano le possibilità che un dato contenuto corrisponda al
desiderio dell’utente lo individua il modello in base al cosiddetto Relevance
Feedback. Ad esempio gli utenti vengono esortati a valutare i risultati, così che la
lista dei risultati mostrata alla prossima identica ricerca sia diversa e
possibilmente migliore.

                Svantaggi:     •   il sistema dà per scontato che gli utenti siano
                                   disposti a collaborare fornendo un feedback a
                                   ogni ricerca.
                               •   Il presupposto è che gli utenti considerino i
                                   risultanti indipendenti l’uno dall’altro, ovvero che
                                   giudichino ogni contenuto come se fosse il primo
                                   che gli viene mostrato. Nella pratica gli utenti
                                   valutano sempre l’utilità di un’informazione in
                                   relazione con le altre, ovvero basandosi sui
                                   contenuti già visualizzati.
Information Retrieval - Funzionamento

                                                  Inverse
      Term Frequency
                                                 Document
           (TF)
                                              Frequency (IDF)

  la frequenza indica quanto spesso   Le parole che compaiono in un numero
  un termine compare all’interno di         limitato di documenti ma che
           un documento.                 all’interno di questi ricorrono con
                                                  grande frequenza
IR - Funzionamento - TF

Term Frequency: la frequenza indica quanto spesso
un termine compare all’interno di un documento.
IR - Funzionamento - IDF
•Inverse Document Frequency: per idf non si intende un solo documento ma un intero
corpo di testi.
IR - Funzionamento – combinazione TF e IDF
      ESEMPIO: Intendo ricercare «la trasmissione televisiva con il topo»

                                                       Inverse
        Term Frequency
                                                      Document
             (TF)
                                                   Frequency (IDF)

    Se utilizzassi solo TF, verrebbero                 Se utilizzassi solo IDF,
        ritenuti più rilevanti quei                     sarebbero i termini
    documenti contenenti il maggior               “trasmissione”, “televisiva” e
     numero di volte le parole “la”,                      “topo” a essere
                “con” e “il”.                    particolarmente significativi ai
                                                  fini della ricerca e sarebbero
                                                 anzi riconosciuti come gli unici
                                                         termini rilevanti.
IR - Funzionamento
   Problema: richieste
                                                          Il sistema si occupa di
imprecise o incomplete       QUERY                               modificare
  portano ad ottenere
                                                            autonomamente la
informazioni sbagliate o   MODIFICATION                    richiesta effettuata.
      insufficienti.

                              A questo scopo il sistema si affida ai Thesauri e ai
         THESAURI                       feedback forniti dagli utenti.
IR - Funzionamento
  Eliminazione delle stop words:

  • come stop words vengono definite quelle espressioni che non contribuiscono
    al contenuto del testo o lo fanno solo in maniera non essenziale. In relazione a
    ciò è sensato non considerare articoli e congiunzioni come elementi
    rappresentativi del contenuto del documento.

  Identificazione di gruppi di più parole:

  • gli aggruppamenti di parole devono essere riconosciuti come tali. Questa
    identificazione permette che i motori di ricerca possano identificare come
    rilevanti anche singole parti di parole unite assieme. Seppur meno essenziale
    per la lingua italiana, per lingue come il tedesco è a dir poco fondamentale.

  Riduzione alla forma base e originaria della parola:

  • per cercare in maniera efficace, le parole devono essere ridotte alla propria
    radice. Altrimenti nei risultati non comparirebbero le forme flesse della parola.
Information Retrieval - Scopo

       RECALL             PRECISION
IR - Recall

Recall: Per calcolarlo bisogna confrontare il numero di documenti
rilevanti recuperati con il numero di quelli non recuperati.

Il quoziente rivela quanto sia probabile che un documento rilevante
sia effettivamente trovato:
IR - Precision
Precision: quanto è preciso il risultato di ricerca?
Per capirlo bisogna confrontare il numero di documenti rilevanti
recuperati con il numero di quelli non rilevanti. Il quoziente rivela quanto
sia probabile che un documento recuperato sia rilevante:
IR - Fallout

           RECALL                          PRECISION

Entrambi i valori si attestano tra 0 e 1, dove 1 è il valore perfetto

Fallout: quoziente che restituisce il rapporto tra i documenti
recuperati ma irrilevanti e i contenuti irrilevanti ma non
recuperati. La precisione e il recupero sono rappresentabili in un
diagramma ad asse, dove ognuno dei due valori corrisponde a
un’asse.
IR - Esempio
Information Retrieval: esempio di una ricerca

Come già accennato ogni motore di ricerca si basa sull’Information Retrieval.
Perciò Google, Bing e Yahoo sono degli esempi perfetti di recupero
computerizzato delle informazioni.

ESEMPIO:

Biblioteca di libri per bambini

• Metodo booleano apparirebbe così: elefante E giraffa NON coccodrillo.
IR - Funzionamento
IR - Funzionamento
IR - Metadati

I metadati sono delle informazioni sull’informazione che ne
favoriscono il reperimento

I metadati vengono prodotti da catalogatori

 • dati salienti di un documento trascritti a mano
 • l’autore di un articolo è un catalogatore: abstract, keywords
 • social tagging (catalogazione da parte di utenti)

Grazie ai sistemi di Information Retrieval la catalogazione è
stata automatizzata
Tipi di metadati

                   descrittivi (informazioni
                           generali)

                    semantici (contenuto
                       intellettuale)

               localizzazione (posizione
                   copia fisica o url)

                        identificatore
Tipi di metadati – identificatore: ISBN
Tipi di metadati – identificatore:DOI

Il Digital Object Identifier (DOI) è uno standard che consente di
identificare persistentemente, all'interno di una rete digitale,
qualsiasi oggetto di proprietà intellettuale e di associarvi i
relativi dati di riferimento, i metadati, secondo uno schema
strutturato ed estensibile.
Tipi di metadati – identificatore:DOI
Cosa può essere identificato da un DOI?
• Un DOI può essere registrato su qualunque forma di proprietà
  intellettuale espressa in qualsiasi ambiente digitale.
• La proprietà intellettuale include tanto contenuti digitali che pubblicati su
  supporti fisici: i DOI possono essere utilizzati per identificare testi,
  immagini, risorse audio o video, software, ecc.
• Un oggetto può essere arbitrariamente identificato a qualunque livello di
  granularità. Ciò significa che, ad esempio, si può registrare un DOI sulla
  testata di una rivista, sul suo singolo numero, sul singolo articolo di un
  dato numero, sulla singola tabella di un dato articolo.
Tipi di metadata - DOI                                         Conoscere
                                                               quello che
                                                               possiedono
Benefici dell'utilizzo del DOI
•persistenza: il nome DOI continuerà a funzionare      Trovare quello
correttamente nonostante venga modificata               di cui hanno
l’ubicazione del materiale, venga riordinato o             bisogno
inserito nei "preferiti"
•cooperazione con altri dati da altre fonti                     Conoscere
•estensibilità: Il nome DOI può essere esteso                  dove esiste
                                                               quello di cui
aggiungendo nuove caratteristiche e servizi                   hanno bisogno
attraverso l’amministrazione dei Gruppi dei DOI
Name
                                                        Riuscire ad
•indipendenza dalla piattaforma                           ottenere
                                                         quello che
•aggiornamenti dinamici: gli aggiornamenti dei          necessitano
MetaDati, delle applicazioni e dei servizi risultano
dinamici                                                       Usare quello
                                                                   che
                                                              necessitano in
                                                                   una
                                                               transizione
Tipi di metadata
Metadati di legame

 • relazioni tra documenti diversi, versioni o parti logiche
 • solitamente il tipo di relazione viene specificato in sottocategorie di questo metadato

Metadati specialistici

 • utile per la precisione dei risultati di ricerca
 • penalizza le ricerche effettuate contemporaneamente su più sistemi di Information Retrieval

Il problema dell’interoperabilità dei metadati può rivelarsi secondo
differenti aspetti:
 • Sintassi
 • Semantica
 • uso di etichette differenti
Tipi di metadata
Metadati gestionali e strutturali
 • conservazione e gestione delle risorse
 • descrizione interna del documento per una corretta visualizzazione di risorse composte da più
   file

Metadati per la gestione dei diritti
 • diritti d’uso delle risorse
 • informano l’utente in che misura i contenuti possono essere duplicati e diffusi
https://duckduckgo.com/
https://swisscows.com/
https://www.qwant.com
https://www.wolframalpha.com
          /examples/
Tabella estratta dal sito: https://www.ionos.it/digitalguide/online-marketing/marketing-
sui-motori-di-ricerca/alternative-a-google//
Puoi anche leggere