Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...

Pagina creata da Filippo Marchetti
 
CONTINUA A LEGGERE
Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
Data mining per le scienze sociali

                  Davide Sardina
         davidestefano.sardina@unikore.it

         Università degli studi di Enna Kore
         Corso di Laurea in Servizio Sociale

                  A.A. 2017/2018
Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
Scienza dei dati
Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
Data Mining
• Dall’inglese, «estrazione dei dati»
• Scoprire informazioni non immediatamente visibili da
  grandi quantità di dati mediante specifiche tecniche
• Tali tecniche fanno parte della «scienza dei dati» e si
  basano su metodi informatici, matematici e statistici
   – «è possibile identificare dei sottogruppi all’interno della
     popolazione dei disoccupati in Italia?» (clustering)
   – «è possibile stimare fra quanti anni avverrà una crisi
     finanziaria?» (survival analysis)
Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
Perché è importante il data mining?
• Giornalmente viene raccolta una vastità di dati
  relativa alle scienze sociali (ad es. social network)
• Sapere analizzare tali informazioni e scoprire modelli
  ricorrenti (pattern) permette di capire «come» e «a
  che velocità» evolve società
• Tipologie di dati?
Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
Affari
Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
Società
Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
Salute
Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
Google Trends

https://trends.google.it
Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
Dai dati alla conoscenza
Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
Pattern frequenti
• Si tratta di modelli ricorrenti o pattern all’interno dei
  dati che stiamo analizzando
   – Ad es. «quali sono gli oggetti che vengono acquistati
     assieme quando si va a fare la spesa?»
Analisi dei raggruppamenti (clustering)
Classificazione
   Classificare significa assegnare ogni elemento ad
                                                               Malato
   una specifica categoria                                     Sano

Sapete apriori
quali sono i sani (blu)
e i malati (rosso),
volete trovare delle                                   Tecniche per
«regole» che, dato un                                  l’allenamento e la
nuovo elemento, vi                                     classificazione:
permettano di                                          • Decision tree
decidere se è sano o                                   • Support vector
malato                                                     machine
                                                       • Neural network
                                                       • Random forest
Albero di decisione (decision tree)
• Strumento che individua e rappresenta le «decisioni»
  per la classificazione (assegnare un’etichetta) dei dati
Analisi del contenuto testuale (text mining)
Analisi del testo
• AntWord – frequenza e stima della complessità di un
   testo
Link a generatori di word cloud:
• https://www.wordclouds.com/
• https://www.jasondavies.com/wordcloud/
• https://wordart.com/
• http://www.wordle.net
RapidMiner
• Software per la progettazione, analisi dei dati e
  visualizzazione dei risultati
• Dati contenuti in fogli elettronici
• Creazione di processi per rappresentare il flusso di
  lavoro
• Applicazione di modelli statistici predefiniti
Caso di studio: passeggeri del Titanic
Vista risultati
Vista progettazione

                Operatore di analisi

Dati da analizzare
Social network
Social network: definizione
• Rappresenta la struttura sociale composta da
  individui (o organizzazioni) legati da uno o più tipi di
  relazioni
   – ad es. amicizia, parentela, interesse comune, scambio
     finanziario, conoscenza o prestigio
• Lo studio di queste relazioni prende il nome di social
  network analysis
• Le reti sociali possono essere molto grandi (milioni di
  persone collegate tra loro) pertanto servono
  particolari strumenti per comprenderle
Social Network Analysis
• Insieme di tecniche per lo studio e la scoperta di
  informazioni a partire dalle connessioni sociali
  all’interno di una rete sociale
• La topologia, o modello geometrico di una rete
  sociale fornisce informazioni su come interagiscono
  le persone al suo interno
Materiale per lo studio
Social Network Analysis
Theory and Applications

•   Software per l’analisi dei social network
•   Misure per l’analisi delle reti
•   Teoria dei grafi
•   Glossario
Perché studiare le reti sociali?
1. Quali sottogruppi (community) emergono naturalmente
   dalla rete sociale? Come sono caratterizzati? Che
   relazioni hanno questi gruppi con le quelle «reali»?
2. Quali sono le persone più influenti nella rete? Che
   caratteristiche hanno nel mondo reale?
3. Come cambiano le relazioni sociali virtuali nel tempo?
4. Le informazioni che è possibile estrarre dalle reti che
   impatto hanno nelle discipline come il servizio sociale,
   la sociologia, psicologia, economia, ecc.?
Casi di studio
• In epidemiologia, ha permesso di analizzare come le
  interazioni tra persone hanno favorito o limitato la
  diffusione di malattie come l’HIV all’interno della
  popolazione
• Nella società cinese, permette di studiare l’intricato
  sistema di relazioni interpersonali che un individuo
  crea lungo gli anni con fini utilitaristici, chiamato
  Guanxi
Small world hypothesis
Small world
• Si basa sull’ipotesi che il numero di conoscenze sociali per
  mettere in comunicazione due persone in qualsiasi parte del
  mondo è generalmente breve (six degrees of separation)
Caso di studio
• Lo psicologo Stanley Milgram chiese ad alcuni individui di far
  recapitare un messaggio a specifiche persone usando una
  catena di conoscenze
• Nei casi in cui il messaggio è stato recapitato, la lunghezza
  media di tali catene era composta da soli 5 intermediari
• Tuttavia l’ipotesi non è stata verificata in generale e tale
  numero potrebbe essere più alto
Elementi di una rete sociale
• Un nodo all’interno di una rete sociale rappresenta
  un individuo o organizzazione
• Un arco che congiunge due nodi rappresenta una
  forma di relazione e in generale può essere di due
  tipi: simmetrico o diretto
• Nodi e archi possono contener informazioni, ovvero
  essere etichettati
                                                   0.9
                                                                3 nodi P1,P2,P3
                                              P1           P2   P1 e P2
      P1              P1              P2                        sono connessi da un
                                                         0.6    arco simmetrico pesato
                          2 nodi P1,P2                          mentre P3 è connesso a
  P1 è un nodo
                     P1 e P2 sono connessi                      P2 tramite un arco
                     da un arco simmetrico.                P3
                                                                diretto.
Reti in generale...
• Le reti sono strumenti tramite i quali si può
  rappresentare qualsiasi scenario in cui elementi sono
  in relazione o comunicano tra loro:
   –   Internet (informatica)
   –   Reti semantiche (linguistica)
   –   Molecole che interagiscono (biologia, chimica)
   –   Reti stradali
Rappresentazione di una rete
• Matrice di adiacenza             • Lista di adiacenza

       A   B   C   D   E   F   G       A   B       C       D     E   F   /
   A   0   1   1   1   1   1   0
                                       B   A       F   /
   B   1   0   0   0   0   1   0
                                       C   A   /
   C   1   0   0   0   0   0   0
                                       D   A   /
   D   1   0   0   0   0   0   0
   E   1   0   0   0   0   0   0       E   A   /
   F   1   1   0   0   0   0   1       F   A       B       G /
   G   0   0   0   0   0   1   0
                                       G   F   /
Metriche della social network analysis
Metriche di rete
• Cammino minimo (shortest path): il percorso minimo che congiunge i due
  nomi
• Diametro (diameter): la distanza del cammino minimo più lungo tra due
  nodi qualsiasi nella rete
Metriche di un nodo:
• Centralità (centrality): misura dell’importanza di un nodo all’interno della
  rete
• Grado (degree): numero di relazioni (archi) che ha con altri nodi vicini
• Coefficiente di raggruppamento (clustering): misura della tendenza dei
  vicini di un nodo a formare relazioni strette (triangoli) tra loro
Metriche di un arco:
• Ponte (bridge): importanza di un arco nel tenere uniti sottogruppi di nodi
Cammino minimo tra due nodi
• Una procedura molto usata per risolvere questo
  problema fu inventata nel 1956 da Edsger Dijkstra
Google Maps
Diametro
Misure di centralità di un nodo
• Betweenness: se una coppia di nodi qualsiasi della
  rete deve comunicare attraverso un cammino
  minimo, per quante di queste coppie il nodo si trova
  in tale percorso?
• Closeness: rappresenta la distanza media dei
  cammini minimi che vanno dal nodo ad ogni altro
  nodo della rete: misura la facilità di un nodo nel
  raggiungere gli altri nodi
Betweenness
Closeness
Grado di un nodo

                1

            3
    1

1
        5

                    2

    1
Coefficiente di raggruppamento
Arco ponte
Caratteristiche di una rete
• I motivi di una rete sono modelli (pattern) ricorrenti
  che caratterizzano una rete
• I motivi sono simili a «lettere» dell’alfabeto mentre la
  rete è il risultato dell’unione dei motivi in «parole» e
  «frasi»
Rete bipartita
• Una rete bipartita rappresenta relazioni tra nodi di
  due tipologie diverse
   – ad es. clienti e prodotti, persone e interessi
Puoi anche leggere