Data mining per le scienze sociali - A.A. 2017/2018 Davide Sardina Università degli studi di Enna Kore Corso di ...
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Data mining per le scienze sociali Davide Sardina davidestefano.sardina@unikore.it Università degli studi di Enna Kore Corso di Laurea in Servizio Sociale A.A. 2017/2018
Data Mining • Dall’inglese, «estrazione dei dati» • Scoprire informazioni non immediatamente visibili da grandi quantità di dati mediante specifiche tecniche • Tali tecniche fanno parte della «scienza dei dati» e si basano su metodi informatici, matematici e statistici – «è possibile identificare dei sottogruppi all’interno della popolazione dei disoccupati in Italia?» (clustering) – «è possibile stimare fra quanti anni avverrà una crisi finanziaria?» (survival analysis)
Perché è importante il data mining? • Giornalmente viene raccolta una vastità di dati relativa alle scienze sociali (ad es. social network) • Sapere analizzare tali informazioni e scoprire modelli ricorrenti (pattern) permette di capire «come» e «a che velocità» evolve società • Tipologie di dati?
Pattern frequenti • Si tratta di modelli ricorrenti o pattern all’interno dei dati che stiamo analizzando – Ad es. «quali sono gli oggetti che vengono acquistati assieme quando si va a fare la spesa?»
Analisi dei raggruppamenti (clustering)
Classificazione Classificare significa assegnare ogni elemento ad Malato una specifica categoria Sano Sapete apriori quali sono i sani (blu) e i malati (rosso), volete trovare delle Tecniche per «regole» che, dato un l’allenamento e la nuovo elemento, vi classificazione: permettano di • Decision tree decidere se è sano o • Support vector malato machine • Neural network • Random forest
Albero di decisione (decision tree) • Strumento che individua e rappresenta le «decisioni» per la classificazione (assegnare un’etichetta) dei dati
Analisi del contenuto testuale (text mining)
Analisi del testo • AntWord – frequenza e stima della complessità di un testo Link a generatori di word cloud: • https://www.wordclouds.com/ • https://www.jasondavies.com/wordcloud/ • https://wordart.com/ • http://www.wordle.net
RapidMiner • Software per la progettazione, analisi dei dati e visualizzazione dei risultati • Dati contenuti in fogli elettronici • Creazione di processi per rappresentare il flusso di lavoro • Applicazione di modelli statistici predefiniti Caso di studio: passeggeri del Titanic
Vista risultati
Vista progettazione Operatore di analisi Dati da analizzare
Social network
Social network: definizione • Rappresenta la struttura sociale composta da individui (o organizzazioni) legati da uno o più tipi di relazioni – ad es. amicizia, parentela, interesse comune, scambio finanziario, conoscenza o prestigio • Lo studio di queste relazioni prende il nome di social network analysis • Le reti sociali possono essere molto grandi (milioni di persone collegate tra loro) pertanto servono particolari strumenti per comprenderle
Social Network Analysis • Insieme di tecniche per lo studio e la scoperta di informazioni a partire dalle connessioni sociali all’interno di una rete sociale • La topologia, o modello geometrico di una rete sociale fornisce informazioni su come interagiscono le persone al suo interno
Materiale per lo studio Social Network Analysis Theory and Applications • Software per l’analisi dei social network • Misure per l’analisi delle reti • Teoria dei grafi • Glossario
Perché studiare le reti sociali? 1. Quali sottogruppi (community) emergono naturalmente dalla rete sociale? Come sono caratterizzati? Che relazioni hanno questi gruppi con le quelle «reali»? 2. Quali sono le persone più influenti nella rete? Che caratteristiche hanno nel mondo reale? 3. Come cambiano le relazioni sociali virtuali nel tempo? 4. Le informazioni che è possibile estrarre dalle reti che impatto hanno nelle discipline come il servizio sociale, la sociologia, psicologia, economia, ecc.?
Casi di studio • In epidemiologia, ha permesso di analizzare come le interazioni tra persone hanno favorito o limitato la diffusione di malattie come l’HIV all’interno della popolazione • Nella società cinese, permette di studiare l’intricato sistema di relazioni interpersonali che un individuo crea lungo gli anni con fini utilitaristici, chiamato Guanxi
Small world hypothesis
Small world • Si basa sull’ipotesi che il numero di conoscenze sociali per mettere in comunicazione due persone in qualsiasi parte del mondo è generalmente breve (six degrees of separation) Caso di studio • Lo psicologo Stanley Milgram chiese ad alcuni individui di far recapitare un messaggio a specifiche persone usando una catena di conoscenze • Nei casi in cui il messaggio è stato recapitato, la lunghezza media di tali catene era composta da soli 5 intermediari • Tuttavia l’ipotesi non è stata verificata in generale e tale numero potrebbe essere più alto
Elementi di una rete sociale • Un nodo all’interno di una rete sociale rappresenta un individuo o organizzazione • Un arco che congiunge due nodi rappresenta una forma di relazione e in generale può essere di due tipi: simmetrico o diretto • Nodi e archi possono contener informazioni, ovvero essere etichettati 0.9 3 nodi P1,P2,P3 P1 P2 P1 e P2 P1 P1 P2 sono connessi da un 0.6 arco simmetrico pesato 2 nodi P1,P2 mentre P3 è connesso a P1 è un nodo P1 e P2 sono connessi P2 tramite un arco da un arco simmetrico. P3 diretto.
Reti in generale... • Le reti sono strumenti tramite i quali si può rappresentare qualsiasi scenario in cui elementi sono in relazione o comunicano tra loro: – Internet (informatica) – Reti semantiche (linguistica) – Molecole che interagiscono (biologia, chimica) – Reti stradali
Rappresentazione di una rete • Matrice di adiacenza • Lista di adiacenza A B C D E F G A B C D E F / A 0 1 1 1 1 1 0 B A F / B 1 0 0 0 0 1 0 C A / C 1 0 0 0 0 0 0 D A / D 1 0 0 0 0 0 0 E 1 0 0 0 0 0 0 E A / F 1 1 0 0 0 0 1 F A B G / G 0 0 0 0 0 1 0 G F /
Metriche della social network analysis Metriche di rete • Cammino minimo (shortest path): il percorso minimo che congiunge i due nomi • Diametro (diameter): la distanza del cammino minimo più lungo tra due nodi qualsiasi nella rete Metriche di un nodo: • Centralità (centrality): misura dell’importanza di un nodo all’interno della rete • Grado (degree): numero di relazioni (archi) che ha con altri nodi vicini • Coefficiente di raggruppamento (clustering): misura della tendenza dei vicini di un nodo a formare relazioni strette (triangoli) tra loro Metriche di un arco: • Ponte (bridge): importanza di un arco nel tenere uniti sottogruppi di nodi
Cammino minimo tra due nodi • Una procedura molto usata per risolvere questo problema fu inventata nel 1956 da Edsger Dijkstra
Google Maps
Diametro
Misure di centralità di un nodo • Betweenness: se una coppia di nodi qualsiasi della rete deve comunicare attraverso un cammino minimo, per quante di queste coppie il nodo si trova in tale percorso? • Closeness: rappresenta la distanza media dei cammini minimi che vanno dal nodo ad ogni altro nodo della rete: misura la facilità di un nodo nel raggiungere gli altri nodi
Betweenness
Closeness
Grado di un nodo 1 3 1 1 5 2 1
Coefficiente di raggruppamento
Arco ponte
Caratteristiche di una rete • I motivi di una rete sono modelli (pattern) ricorrenti che caratterizzano una rete • I motivi sono simili a «lettere» dell’alfabeto mentre la rete è il risultato dell’unione dei motivi in «parole» e «frasi»
Rete bipartita • Una rete bipartita rappresenta relazioni tra nodi di due tipologie diverse – ad es. clienti e prodotti, persone e interessi
Puoi anche leggere