Semantic Web Underneath the new Wave Luigi Iannone

Pagina creata da Diego Giuliano
 
CONTINUA A LEGGERE
Semantic Web Underneath the new Wave Luigi Iannone
Sem antic Web

Underneath the new Wave

     Luigi Iannone
Semantic Web Underneath the new Wave Luigi Iannone
Sem antic Web: Cos’è?
•   Nuova tendenza del Web
•   Risposta ai problemi del Web
•   Estensione Standard del Web
•   Idea di (Sir) Berners- Lee (
    http:/ / www.w3.org/ 2003/ 12/
    tim bl_knighted)
Problem i del Web
• Inform ation Overload
  – Sinonim i
  – Polisemi
  – Ambiguità in genere
• Inform azione non m achine-
  processable
  – HTML (infos m ischiate con grafica)
  – Nessun ragionam ento
Risposte del Sem antic Web
•   Ontologie
•   Metadati
•   Logica
•   Ragionam ento

                    
    Inform azione m achine- processable
Sem antic Web: Architettura

 http:/ / www.w3 .org/ DesignIssues/ diagrams/ sw- stack- 2 0 0 2 .png
Sem antic Web vs. Web

Web
Riuso degli standard
•   URL
•   URI
•   Unicode
•   XML
•   HTTP
Sem antic Web: Livelli
• Architettura a Pila (analogo a Pila
  ISO/ OSI, Pila Protocolli Internet)
• Un livello  Un set di responsabilità
  – Inform ation hiding
  – Alta coesione interna
  – Basso accoppiam ento tra livelli
                        
   Architettura m anutenibile e poco costosa
Livello sintattico
• Responsabilit à
  – Concetto di documento univoco e astratto
  – Strutturazione gerarchica di docum enti
    Web
• Tecnologie (standard)
  – URI/ URL
  – XML/ XML Schem a/ DTD/ Nam espaces
  – HTTP
Livello dei Metadati
• Responsabilit à:
  – Concetto di risorsa (web e non web)
  – Annotazione standard delle risorse
• Tecnologie (standard)
  – RDF (serializzabile XML)
    • Tutto è una URI
    • Tutto va descritto con la m assim a sem plicità
      possibile
    • Tutto può dire tutto su tutto
Livello Ontologico
• Responsabilit à:
  – Vocabolari condivisi
  – Interoperabilità semantica (Le applicazioni
    sanno di cosa stanno parlando)
• Tecnologie (standard)
  – RDF Schema DAML+ OIL  OWL
    (serializzabili in XML)
Livello Logico
• Responsabilit à:
  – Inferenza
  – Regole al top dell’ontologia

• Tecnologie (standard)
  – RuleML + OWL = OWLRules
Livello della prova e della fiducia
• Responsabilit à:
  – Risoluzione dei conflitti
  – Web of Trust

• Tecnologie (standard)
  – Nessuno standard
  – Digital Signature
  – Catene di (s)fiducia,Modelli Friend of a
    Friend
Sem antic Web: Scenari
• Ricerca di inform azioni su Internet
• Classificazione di risorse
  – Item reccom endation
  – e- com merce
  –…
• Sem antic Web Services
Ricerche su Internet
           (Esem pio)
   Voglio sapere chi è il direttore dell’
                   M.I.T.
 Apro Google (http:/ / www.google.com )
• Inserisco MIT Chair
• Risultati: 815.000 documenti che
  riguardano:
  – Massachussets Institute of Technology
  – m it (Tedesco) prep. con
  – Chair (Inglese) n. sedia
  –…
Classificazione di risorse …
    Dato un insiem e di art icoli voglio
     selezionare il revisore più adatto
       conoscendone le com petenze
         Tecnologie Tradizionali
• Ogni articolo n keywords
• Ogni revisore m keywords
• Intersezione (poco probabile)
… Classificazione di risorse
              …
    Dato un insiem e di art icoli voglio
     selezionare il revisore più adatto
       conoscendone le com petenze
              Semantic Web
• Ogni articolo n concetti (di
  un’ontologia)
• Ogni autore m com petenze (di
  un’ontologia)
• Intersezione ed inferenza (probabile)
… Classificazione di risorse
Dato un insieme di Item s i.e. articoli di
  un qualsiasi (e- ) shop ed un utente
     voglio indovinare quali articoli
    suggerire ad un generico utente

                Approccio
• User Modeling
• Sem antic Index ing
Sem antic Web Services
• Evoluzione dei Web Services
• Applicazioni dinam icam ente
  interfacciate
• Business 2 Business potenziato
Sem antic web: Com e?
                   Obiettivi
• Astrazione
  – Scam bio indipendente da piattaform e e
    formalismi proprietari
• Disambiguazione
  – Sinonim ia, Polisem ia
• Ragionam ento
  – Classificazione, Interoperabilità semnatica
… Sem antic Web: Com e? …
• Riuso del Web:
  – Ri- scrittura dell’inform azione

                        Vs.

  – Arricchimento delle risorse correnti
… Sem antic Web: Com e? …
• Inserimento di Meta- inform azione
  – Informazione sull’informazione
  – Form alism o Standard
  – Vocabolario condiviso
  – Ragionam ento su metadati
… Sem antic Web: Com e? …
                                          Eye Disease            …

                                      …                  Is A

                                               Retinoshisis

                                     affects
                                                                incidence
                                   Wom en
Articolo su eMedicine                        affects    0,0002 to 0,00004
sulla retinoschisi
giovanile                                  Men
http:/ / www.em edicine.com / oph/ topic639.htm
Ipotetico processo
•   Estrazione di contenuto rilevante da testo non
    strutturato
•   Trasform azione del inform azione rilevante in un
    form ato adatto alle fasi successive
•   Prim a fase di apprendim ento autom atico
    (addensam ento dei contenuti) t ipo clustering
•   Estrazione di una teoria prim ordiale basato
    sull’output della fase precedente (prim a
    concettualizzazione)
•   Raffinam ento della teoria (passo che può essere
    reiterato)
•   Fusione con ontologie preesist enti
Estrazione di inform azione
            rilevante
              Obiettivo:

  Individuare strutture nel test o che
possano essere framm enti di definizioni
             di concetti.
… Estrazione di informazione
         rilevante…

                   Retinoshisis juvenile is
                   an eye disease
                   Retinoschisis affects
                   m en
                   Retinoschisis affects
                   wom en
                   Retinoschisis has
                   incidence from 0,0002
                   to…

  Raw Test        Concept examples description
… Estrazione di contenuto
           rilevante…
                  Problem i
• Di solito la form a dei testi, in qualsiasi
  lingua è m olto meno lineare e
  strutturata di quella delle descrizioni
  soggetto predicato oggetto che
  vorremm o raggiungere
• Si potrebbe correre il rischio di
  perdere molta informazione (frasi
  coordinate, anafore…)
… Estrazione di informazione
              rilevante
               Approccio inziale
•   Estrazione di Noun Phrases (NP): Frasi
    che contengono gruppi nominali
•   Utilizzo di Shallow Parsers (SP)
                    Risultati:
•   Estrazione di gruppi soggetto- verbo-
    oggetto ()
•   SP attuali m olto imprecisi (soprattutto
    con frasi lunghe ())
Trasformazione del contenuto
         rilevante
               Obiettivo:

L’output di questo processo è ottenere
un insiem e di descrizioni in un form ato
standard adatto (e.g.: descrizioni RDF)
risultanti dalla trasformazione delle NP
    ottenute nella fase precedente .
… Trasformazione del
      contenuto rilevante …
                Problem i
• In questa fase vanno gestite sinonim ia
  e polisemia
• C’è bisogno di algoritm i di
  disam biguazione
… Trasformazione del
          contenuto rilevante
                 Approccio inziale
•   Trasformazione Noun Phrases+ verbo e
    oggetto in RDF
•   Codifica dei nom i con le URI (ove presenti)
    dei synsets di WordNet
                     Risultati:
•   Inform azione strutturata su cui si può
    operare ()
•   Nessun algoritm o di word sense
    disam biguation provato ()
Prima fase di apprendimento
 automatico (comincia lo spettacolo)
             Obiettivo
  Raggruppam ento delle descrizioni
 precedentemente ottenute in gruppi
 omogenei. Senza alcuna supervisione
            (~ clustering)
… Prima fase di
apprendimento automatico …
                 Problem i
• Dipende dall’ordine della
  rappresentazione (su rappresentazioni
  di ordine ≥1 non vi sono risultati
  incoraggianti finora)
• Cluster omogenei di istanze
… Prima fase di
apprendimento automatico …
                 Approccio iniziale
• Descrizioni RDF di partenza com e
  esempi
• Algoritm i di apprendim ento
  autom atico da esempi
 Attendere prego…    Risultati:   Attendere prego…
Estrazione di una teoria
      primordiale
      A

          B

                C
                                          F

  D
                                      E

 A  ….       C  A and not(B and C) ….
 B  A and … D  A and …
Raffinamento della teoria
             Obiettivo:

Perfezionare la concettualizzazione
  ottenuta per ottenere m odelli più
              predittivi
  (Apprendim ento supervisonato)
Apprendim ento
         supervisionato
                  Input
• Definizione di un concetto (dalle fasi
  precedenti)
• Esempi positivi e negativi
• Definizione che copre qualche
  negativo o non copre qualche positivo
  ( definizione erronea)
                 Output
    Nuova definizione che m inim izza
                  l’errore
Fusione con ontologie
       preesistenti
 Obiettivo:

Fusione della
 struttura con
  quanto già
preesistente ed
 integrazioni
                  Still pure dream
  eventuali in
 entram be le
   direzioni
Ricerca in corso...*
•    Estrazione di contenuto rilevante da testo non
     strutturato
•    Trasform azione del inform azione rilevante in un
     form ato adatto alle fasi successive
•    Prim a fase di apprendim ento autom atico
     (addensam ento dei contenuti) t ipo clustering
•    Estrazione di una teoria prim ordiale basato
     sull’output della fase precedente (prim a
     concettualizzazione)
•    Raffinam ento della teoria (passo che può essere
     reiterato)
•    Fusione con ontologie preesist enti

* Le dim ensioni delle frecce non sono casuali
Stato dell’arte (Sem antic Web)
• Metadati  Resource Description
  Framework (RDF)
• Concettualizzazioni Strutturate
  (Ontologie)
   DAML+ OIL, OWL
Rappresentazione della
         conoscenza (KR)
• Logica del prim o ordine (FOL) o suoi
  framm enti
  – Com pletam ente esplorata
  – Flessibile
  – Direttamente integrabile con i DB
• Logiche Descrittive (DL,DLs)
  – Conoscenza strutturata (concetti nativi di
    classe proprietà ecc.)
  – Grande espressività
… Rappresentazione della
        conoscenza (KR)
• Logica del prim o ordine (FOL) o suoi
  framm enti
  – Non decidibile se presa tutta
  – Nessuna struttura sui domini
• Logiche Descrittive (DL,DLs)
  – Spesso intrattabile
  – Difficile m odellare relazioni m - n
Apprendim ento da esem pi
• Robusto su FOL (ad esem pio Inductive
  Logic Program m ing)
• Non del tutto esplorato in DL
  – Kietz ed altri hanno provato a usare ILP
    per apprendere DL trasform ando DLFOL
  – Kuesters ed altri usano approcci puri per
    apprendere in DL
KR per il Sem antic Web
• DAML+ OIL è un istanza di una
  particolare DL chiam ata SHIQ
• RDF è il linguaggio usato per
  esprim ere asserzioni ( fatti in FOL)
Rim ane da valutare l’efficacia dei m etodi
              di apprendim ento
Confronto prelim inare
• Approccio ILP – oriented (DLP)
  – PAC lernability di alcune DL
  – Richiede trasformazione in FOL con
    aggiustamenti (perde vantaggio
    strutturazione)
  – Alcuni costrutti intraducibili (cfr. lavoro di
    Borgida)
• Approccio puro
  – Alcune operazioni intrattabili per alcune
    DL
Cosa abbiam o visto
• Semantic Web
  – Nuova generazione del Web
  – Integrabile con il precedente WWW
  – Ragionam ento inserito nel WWW
• Architettura a Livelli
  –   Sintattico
  –   Metadati
  –   Ontologie
  –   Logico
  –   Prova e fiducia
… Cosa abbiam o visto …
• Tecnologie im plem entate
  – XML     (interoperabilità sintattica)
  – RDF     rappresentazione standard dei
    m etadati
  – OWL      et similia vocabolari condivisi e
    ontologie
  – RuleML, DAMLRules, OWLRules regole
… Cosa abbiam o visto …
• Sfide
  – Non ri- scirvere il Web
  – Applicazioni che elaborano il significato
    delle informazioni
  – Informazioni estratte dal testo 
    Ontologie e regole  Conoscenza
… Cosa abbiam o visto
• Metodi e Tecniche necessari
  – Natural Language Processing
  – Knowledge Mangaem ent & Representation
     • First Order Logic
     • Description Logic
  – Reasoning
     • Theorem Proving
     • Reasoning
  – Apprendim ento Autom atico
     • Non Supervisionato
     • Supervisionato
Puoi anche leggere