Analisi dell'opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19 Studente/i Relatore Costagliola Giada Luceri Luca Correlatore Giordano Cremonese Silvia Committente SUPSI Corso di laurea Modulo Ingegneria Informatica C10360 Anno 2020/2021 Data 12 settembre 2021
i Indice Abstract (italiano) 1 Abstract (inglese) 3 Progetto assegnato 5 1 Introduzione 7 1.1 Tema trattato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.2 Motivazione e contesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2 Obiettivi 11 2.1 Descrizione dell’obiettivo finale . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3 Analisi bibliografia 13 3.1 Covid-19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1.1 Eventi importanti in Italia . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1.2 Vaccinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.1.3 Novax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3 Dati utilizzati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.4 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4 Analisi as-is 23 4.1 Analisi condotte da SUPSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.1 Score sugli URL condivisi . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.2 Script per utenti sospesi . . . . . . . . . . . . . . . . . . . . . . . . . 27 5 Metodologia 29 5.1 Descrizione dell’approccio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 6 Risoluzione 33 6.1 Preparazione del dataframe . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 6.2 Studio degli account . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
ii INDICE 6.3 Studio del testo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 6.4 Preparazione dei gruppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6.4.1 Classificazione con account più attivi . . . . . . . . . . . . . . . . . . 44 6.4.2 Classificazione con retweet network . . . . . . . . . . . . . . . . . . . 47 6.5 Studio generale dei gruppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 6.6 Studio della retweet network . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 6.7 Studio degli URL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 6.8 Studio degli hashtags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 7 Analisi to-be 63 7.1 Risultati ottenuti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 7.2 Criticità note . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 8 Valutazione 67 8.1 Generalizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 8.2 Limiti del progetto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 8.3 Considerazioni personali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Conclusione 71 Piano di lavoro 73 Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
iii Elenco delle figure 6.1 Lettura dei file per tutti i mesi studiati . . . . . . . . . . . . . . . . . . . . . . . 34 6.2 Aggiunta al dataframe della feature user_code_error . . . . . . . . . . . . . 35 6.3 Aggiunta al dataframe della feature is_self_rt . . . . . . . . . . . . . . . . 35 6.4 Aggiunta al dataframe della feature user_credibility . . . . . . . . . . . . 36 6.5 Data di creazione degli account presenti nel dataframe . . . . . . . . . . . . . 37 6.6 Data di creazione degli account presenti nel dataframe . . . . . . . . . . . . . 38 6.7 Grafico a torta del tipo di tweet creato . . . . . . . . . . . . . . . . . . . . . . 39 6.8 Primi 50 account più attivi (dal 1° al 25°) . . . . . . . . . . . . . . . . . . . . . 40 6.9 Primi 50 account più attivi (dal 25° al 50°) . . . . . . . . . . . . . . . . . . . . 40 6.10 Primi 50 account più retwettati (dal 1° al 50°) . . . . . . . . . . . . . . . . . . 41 6.11 Primi 50 account più retwettati (dal 25° al 50°) . . . . . . . . . . . . . . . . . 41 6.12 Esempio di notizia complottista . . . . . . . . . . . . . . . . . . . . . . . . . . 42 6.13 Utilizzo delle parole legate alle vaccinazioni nel corso dei mesi . . . . . . . . . 43 6.14 Funzione per ricavare account che sono stati retwettati da una lista di altri utenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6.15 Funzione per ricavare la percentuale di retweet fatti verso una lista di utenti . 45 6.16 Distribuzione dello score per gli utenti high credibility . . . . . . . . . . . . . . 46 6.17 Distribuzione dello score per gli utenti novax . . . . . . . . . . . . . . . . . . 46 6.18 Informazione generali sui gruppi di utenti . . . . . . . . . . . . . . . . . . . . 48 6.19 Informazioni sui retweet dei gruppi . . . . . . . . . . . . . . . . . . . . . . . . 49 6.20 Informazioni sui reply dei gruppi . . . . . . . . . . . . . . . . . . . . . . . . . 49 6.21 Retweet network sul dataframe completo . . . . . . . . . . . . . . . . . . . . 50 6.22 Retweet network degli utenti novax . . . . . . . . . . . . . . . . . . . . . . . 51 6.23 Retweet network degli utenti high credibility . . . . . . . . . . . . . . . . . . . 52 6.24 Primi 40 URL più condivisi (dal 1° al 20°) . . . . . . . . . . . . . . . . . . . . 53 6.25 Primi 40 URL più condivisi (dal 20° al 40°) . . . . . . . . . . . . . . . . . . . . 54 6.26 Primi 20 URL più condivisi dagli utenti novax . . . . . . . . . . . . . . . . . . 54 6.27 Primi 20 URL più condivisi dagli utenti high credibility . . . . . . . . . . . . . . 55 6.28 Score di credibilità calcolato sugli URL condivisi . . . . . . . . . . . . . . . . 56 6.29 Score di credibilità calcolato sugli URL condivisi per gli utenti novax . . . . . . 56 Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
iv ELENCO DELLE FIGURE 6.30 Score di credibilità calcolato sugli URL condivisi per gli utenti high vredibility . 57 6.31 Visualizzazione grafica degli hashtag più utilizzati . . . . . . . . . . . . . . . . 58 6.32 Visualizzazione temporale dell’utilizzo degli hashtag "sospetti" . . . . . . . . . 59 6.33 Numero degli hashtag "sospetti" utilizzati . . . . . . . . . . . . . . . . . . . . 60 6.34 Preferenza di utilizzo hashtag "sospetti" usati . . . . . . . . . . . . . . . . . . 60 6.35 Utilizzo degli hashatg sospetti da parte degli utenti novax . . . . . . . . . . . 61 6.36 Utilizzo degli hashatg sospetti da parte degli utenti high credibility . . . . . . . 61 8.1 Piano di lavoro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
1 Abstract (italiano) Dal 2019 ci troviamo a convivere con una pandemia globale che ha cambiato le abitudini di tutte le persone in giro per il mondo. Ogni persona ha vissuto questo cambiamento in modo differente ma una cosa è stata comune per molte persone, l’attaccamento ai social media. Difatti, dopo che pian piano in tutto il mondo si é iniziato a parlare di coronavirus ma, sopra- tutto di lockdown, la popolazione ha dovuto trovare un modo per occupare le giornate e un modo sono stati appunto i social network. Con l’aumentare dell’uso dei social é aumentato anche il numero di utenti malevoli che usano i social network per influenzare le opinioni dei cittadini, diffondere storie faslate e fomentare scontri tra fazioni divergenti. L’obiettivo di questo progetto é, perciò, quello di identificare, comprendere ed analizzare l’attività delle entità malevoli nelle discussioni inerenti i vaccini Covid-19 in Italia. Lo studio condotto riguarda, in particolare, un’analisi osservazionale del comportamento degli utenti in modo da poter capire come questi diffondo le fake news riguardo al coronavirus. Per poter svolgere il compito assegnato sono state studiate le tematiche riguardo al Covid- 19 e, più precisamente ai vaccini contro questo virus. A tale scopo è necessario avvalersi di Python e delle librerie che questo linguaggio di programmazione mette a disposizione. Una volta approfonditi gli argomenti e compresa la mole di lavoro, è stato possibile iniziare con l’analisi vera e propria. Inizialmente il progetto è partito a rilento ma, studiando sempre meglio il dataset che fornito e approfondendo il tema delle fake news ho potuto recuperare il tempo perso e di concludere il lavoro in tempo. Il risultato ottenuto al termine dello studio risponde alle esigenze definite nella fase iniziale. È una base di studio degli utenti malevoli e dei loro antagonisti e di come queste due entità utilizzano il social media Twitter. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
2 Abstract (italiano) Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
3 Abstract (inglese) Since 2019 we are living with a global pandemic that has changed the habits of all people globally. Each person has experienced this change in different ways, there is though one common thing among all of them: the social media "dependence". That is, after the world began to talk about coronavirus, above all lockdown, people had to find a way out, and so- cial media were the solution. As the use of them increased, so did the number of malicious users who use social networks to influence the opinions of citizens, spread fake news and stir up conflicts between divergent opinions. The final goal of this project is, therefore, to identify, understand and analyze the activity of malicious entities in the discussions concerning the Covid-19 vaccines in Italy. The study conducted concerns, in particular, an observational analysis of user behavior in order to understand how users spread fake news about coronavirus. In order to carry out the assigned task, issues regarding Covid-19 and, more precisely, vac- cines against this virus have been studied. For this purpose it is necessary to use Python and the libraries that this programming language provides. Once deepened the arguments and understood the amount of work, it was possible to start with the real analysis. Initially the project started slowly but, studying more and better the dataset that I provided and deepening the theme of fake news, I was able to make up for lost time finishing the work on time. The result obtained at the end of the study meets the needs defined in the starting phase. That is a basis for the study of malicious users and their antagonists, getting the way how these two entities use Twitter as a social media. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
4 Abstract (inglese) Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
5 Progetto assegnato I social media, soprattutto negli ultimi anni, sono diventati sempre di più una parte impor- tante della vita di molte persone, in quanto possono essere utilizzati sia come passatempo sia come fonte di notizie. Le persone che utilizzano piattaforme come Twitter, Instagram e Facebook come fonte principale per le notizie riguardanti il mondo, si trova sempre più spesso confrontate con notizie false pubblicate da utenti malintenzionati o utenti poco infor- mati sullo svolgimento reale dei fatti. Oggigiorno, infatti, i social media rappresentano sempre di più degli strumenti di persuasio- ne che sono stati progressivamente utilizzati online in maniera malevola per influenzare le opinioni dei cittadini, diffondere storie false e fomentare scontri tra fazioni divergenti. Pertanto l’obiettivo di questo progetto é quello di identificare, comprendere ed analizzare l’attività delle entità malevoli nelle discussioni inerenti i vaccini Covid-19 in Italia utilizzando una collezione di dati raccolta presa dai tweet effettuati sul social media Twitter. Lo studio condotto riguarda, in particolare, un’analisi osservazionale del comportamento e delle iterazioni tra gli utenti per scoprire le strategie eseguite dagli utenti malevoli per diffon- dere ed amplificare storie false ed ingannevoli riguardanti il vaccino contro il Covid-19. Per poter condurre queste analisi sul set di dati che mi é stato dato ho utilizzato il linguaggio di programmazione Python. Più precisamente, di tutte le librerie che questa tecnologia mette a disposizione sono state utilizzate quelle di plotly, matlab, pandas, json, numpy e networkx. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
6 Progetto assegnato Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
7 Capitolo 1 Introduzione Lo scopo di questo capitolo è quello di introdurre brevemente il tema sul quale è stato svolto il lavoro, facendo una panoramica iniziale del progetto, per poi discutere e motivare i fattori che mi ha portata alla scelta di questa tematica. Nel prossimo capitolo, invece, discuteremo gli obiettivi del progetto, e di come si sono evoluti e sono aumentati nel corso dello svolgimento dello studio. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
8 Introduzione 1.1 Tema trattato Come anticipato nella descrizione del progetto assegnato, che riporta e integra il contenuto della scheda progetto iniziale, il tema principale è lo studio delle interazioni tra gli utenti ri- guardo la discussione sui social media riguardo le vaccinazioni contro il coronavirus in Italia. Più precisamente, l’idea è quella di capire come i diversi utenti, sopratutto quelli malevoli, interagiscono tra di loro e tra gli altri utenti. Queste interazione tra i diversi tipo di utenti, per essere studiate, hanno bisogno di una separazione tra i diversi tipi di utente che possono esistere che, come si vedrà nel corso del documento sono tre ovvero, gli utenti novax, quelli high credibility ed in fine gli utenti not classified che nel corso del progetto saranno chiamati other. Le iterazioni mi permetteranno, in primo luogo, di capire come gli utenti interagiscono tra di loro e, soprattutto di capire in che modo gli utenti malevoli, quindi i novax, condividono infor- mazioni false o sfalsate riguardo al coronoavirus e sulle vaccinazioni contro questo virus. Quello che mi é stato richiesto di fare, quindi, é di presentare uno studio dei dati generale prima, per poi usare le informazioni trovate per poter svolgere degli studi mirati sui diversi gruppi trovati per poi, in seguito, approfondi per ogni tipologia di gruppo con un focus sugli utenti classificati come novax. Nei prossimi capitoli questi punti verranno ampiamente approfonditi, sia per quanto riguarda gli obiettivi e la situazione iniziale, che la realizzazione effettiva e i risultati ottenuti. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
9 1.2 Motivazione e contesto Per concludere il percorso di Bachelor in Ingegneria Informatica alla SUPSI è stato richiesto di realizzare un progetto di laurea, che prevede di studiare e sviluppare in autonomia una delle proposte fornite da docenti e ricercatori. All’interno dell’apposita piattaforma erano presenti vari progetti caratterizzati da tematiche molto eterogenee, ma tutti riconducibili al nostro percorso di studi. Alcuni di questi vengono forniti da aziende esterne alla SUPSI, altri sono inerenti a progetti interni o a esigenze dei professori. Nel mio caso, il progetto è stato fornito dai ricercatori SUPSI. Diversi fattori mi hanno portata a scegliere questo progetto, primo fra questi l’attualità del tema trattato, ovvero la discussione delle vaccinazioni in Italia. Ogni giorno, infatti, si sente parlare di coronavirus, novax e vaccinazioni, per questo motivo ho pensato che un progetto come lo studio di questa discussione potesse essere interessan- te sia per il mio percorso formativo sia per arricchire il mio bagaglio di conoscenze personali. A questi motivi, vi è anche il mio interessamento generale alle fake news, e a come gli utenti si relazionano con esse. Infatti, ho sempre trovato molto interessante come per alcune per- sone le notizie condivise tramite un social media potessero essere più attendibili rispetto a quelle condivise da testate giornalistiche di successo. Infine, un altro fattore significativo per la scelta, é stato l’ambito del progetto ovvero l’ambito della data science. Per l’appunto, da un anno a questa parte, ho iniziato ad appassio- narmi a questo ambito dell’informatica, tanto per cui ho pensato che il modo migliore per approfondire le mie conoscenze in questo ramo. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
10 Introduzione Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
11 Capitolo 2 Obiettivi I relatori, come già trattato nella sezione di progetto assegnato hanno chiarito fin da subito che questo lavoro sarebbe stato prettamente di ricerca e che quindi, non vi era un obiettivo preciso se non quello di capire come i diversi utenti interagissero tra di loro tramite il social network studiato ovvero Twitter. Questo obiettivo però, come già introdotto nel capitolo precedente, é stato raggiunto grazie ad una serie di obiettivi minori che sono stati aggiunti da me e dai relatori nel corso dello svolgimento delle analisi. In questo capitolo, perciò, quello che andrò a descrivere l’obiettivo finale raggiunto e andrò ad introdurre tutta la serie di obiettivi che ho dovuto raggiungere prima nel corso di questo lavoro di diploma. La metodologia e la descrizione più dettagliata di tutte analisi intermedie é presente all’in- terno dei prossimi capitoli. È presente, inoltre, all’interno del capitolo piano di lavoro, un grafico che mostra quando tutti gli obiettivi che saranno descritti all’interno di questo capitolo sono stati raggiunti. Nel capitolo successivo sarà poi trattato generalmente la situazione attuale riguardo alla pandemia che é in corso alle vaccinazioni e all’importanza che i social media hanno assunto negli ultimi anni. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
12 Obiettivi 2.1 Descrizione dell’obiettivo finale Durante il primo incontro con i relatori é stato chiaro fin da subito che il lavoro sarebbe stato prettamente di analisi dei dati. Per l’appunto l’idea principale del progetto é quella di studiare il comportamento degli utenti sui social media durante questo periodo di pandemia nella quale ci siamo ritrovati da più di un anno a questa parte. Per cominciare questa ricerca, la prima cosa che i relatori mi hanno consigliato é di effet- tuare un’analisi osservazionale dei dati. Questo tipo di analisi, nello specifico, si occupa di esplorare il modo in cui gli utenti si relazionano e si comportano tra di loro. Successivamente, dopo aver osservato il comportamento degli utenti all’interno del datafra- me, è possibile iniziare a capire i tipi di utenti che sono presenti all’interno dei dati e, quindi, é possibile trovare un modo per poter classificare gli utenti in gruppi. Come si vedrà a seguire nel documento, questi gruppi sono tre e ho deciso di chiamarli novax,high credibility e other. Dopo aver suddiviso gli utenti in classi, sarà possibile studiare come gli utenti appartenenti ai diversi gruppi interagiscono tra di loro e, quindi, si potrà iniziare a capire come gli uten- ti malevoli preferiscono condividere false informazioni riguardo al Covid-19 e le vaccinazioni. Infine, dopo aver analizzato a fondo i gruppi di persone creati, sarà possibile capire se esistono altre feature presenti nel set di dati possono essere utilizzate per rendere la clas- sificazione degli utenti più precisa e che possa comprendere un numero di utenti sempre maggiore. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
13 Capitolo 3 Analisi bibliografia Nello scorso capitolo abbiamo discusso a fondo gli obiettivi alla base del progetto; in questo descriverò ulteriormente il tema trattato, che consiste nello studio della discussione riguardo i vaccini del Covid-19 in Italia. Più precisamente, in questo capitolo, ho deciso di approfondire il tema del coronavirus di come in Italia e nel mondo questa pandemia si é evoluta e ha cambiato le nostre abitudini nel corso degli ultimi due anni. Dopodiché, essendo che un altro tema molto importante di questo studio sono i social me- dia, ho descritto brevemente cosa sono e come, nel corso degli ultimi anni sono diventati sempre più indispensabili nella vita di tutti i giorni della maggior parte delle persone. Questa descrizione avrà un focus sul social media Twitter che, come già introdotto precedentemen- te é stata la fonte di tutti i dati studiati per questo lavoro. Infine, ho deciso di spiegare i concetti base che stanno dietro alle tecnologie utilizzate per le analisi condotte per questo progetto. Più precisamente, ho deciso di descrivere come i dati sono stati recuperati e studiati grazie all’aiuto del linguaggio di programmazione Python e delle librerie che questo linguaggio mette a disposizione. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
14 Analisi bibliografia 3.1 Covid-19 Il covid-19 è una malattia infettiva respiratoria causata dal virus denominato SARS-CoV-2 appartenente alla famiglia dei coronavirus che a origine in Cina. Il virus si diffonde attraverso l’aria, più comunemente attraverso le goccioline respiratorie. Al fine di limitarne la diffusione, devono essere prese precauzioni, come mantenere una distanza interpersonale di almeno 1,5 metri, e mantenere comportamenti corretti nell’igiene personale. I sintomi sono simili a quelli dell’influenza oltre alla perdita dell’olfatto e del gusto. Nei casi più gravi può verificarsi una polmonite, una sindrome da distress respiratorio acuto, sepsi e uno shock settico fino ad arrivare al decesso del paziente.[1] 3.1.1 Eventi importanti in Italia Partendo da alcune pagine web, tra cui quella di wikipedia [2], una delle prime ricerche che ho fatto è stata quella degli eventi più importanti avvenuti negli ultimi anni con un focus per gli eventi in Italia. In questo prima sezione sul Covid-19 ho deciso di immettere tutti gli eventi che ho trovato cercando su internet partendo da gennaio 2020 fino a giugno 2021. Gennaio 2020 • 23.01.2020: Il governo cinese mette in quarantena la metropoli di Wuhan • 30.01.2020: L’Organizzazione mondiale della sanità (OMS) ha dichiarato lo stato di emergenza globale Febbraio 2020 • 11.02.2020: È stato scelto il nome Covid-19 • 21.02.2020: Primi casi in Italia, di persone non provenienti dalla Cina (focolai di Codogno, Castiglione d’Adda, Casalpusterlengo,...) • 22.02.2020: Vengono confermati i primi decessi da Covid-19 nel Lodigiano Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
15 Marzo 2020 • Quattro candidati vaccini entrano nella valutazione umana • 04.03.2020: Scuole chiuse fino al 15 marzo in tutta Italia • 08.03.2020: Decreto per rendere Lombardia e altre 14 province "zona rossa" (escono le prime testate la sera prima) Da parte dei cittadini sono state intraprese spontaneamente delle iniziative simboliche di incoraggiamento e di supporto reciproco incoraggiamento e di supporto reciproco • 09.03.2020: Estensione della zona rossa in tutta Italia • 11.03.2020: L’Organizzazione mondiale della sanità (OMS) ha dichiarato la pandemia • 20.03.2020: Tutte le radio italiane hanno trasmesso in sincronia alle ore 11:00 quattro brani molto legati all’Italia nell’immaginario collettivo mondiale • 21.03.2020: Il governo ha predisposto la chiusura di tutte le imprese, industrie e attività economiche non essenziali • 22.03.2020: Nuovo DPCM vieta a tutte le persone di spostarsi in qualsiasi comune diverso da quello in cui si trovano • 31.03.2020: Alle ore 12:00 in tutta Italia è stato inoltre osservato un minuto di silenzio con bandiere a mezz’asta nei comuni, in ricordo dei deceduti per Covid-19 Aprile 2020 • 26.04.2020: Possibilità di spostarsi per le visite ai congiunti (all’interno del territorio regionale), l’apertura dei parchi pubblici e la ripresa di diverse attività produttive Maggio 2020 • 18.05.2020: Riapertura esercizi commerciali • 25.05.2020. Riapertura dei centri sportivi Giugno 2020 • 03.06.2020: Possibilità di circolare per le regioni • 11.06.2020: Riapertura di teatri e cinema, centri culturali e sociali • 12.06.2020: Diverse Regioni cominciano a riaprire anche discoteche e sale da ballo • 15.06.2020: Lancio dell’applicazione Immuni, per il tracciamento dei contatti • 24.06.2020: La Cina ha approvato il vaccino CanSino Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
16 Analisi bibliografia Luglio 2020 • - Agosto 2020 • 10.08.2020: Aumento dei casi causa apertura delle discoteche • 11.08.2020: La Russia annuncia l’approvazione del vaccino Sputnik V • 17.08.2020: Chiusura delle discoteche Settembre 2020 • 27.09.2020: I morti nel mondo superano il milione Ottobre 2020 • 08.10.2020: Diventa obbligatorio l’uso della mascherina sia nei luoghi all’aperto sia al chiuso • 13.10.2020: Limitazione delle possibilità di assembramento con regole precise per attività quali ristoranti, cinema, teatri, competizioni sportive, feste, cerimonie religiose e civili • 20.10.2020: Morto un volontario della sperimentazione del vaccino Pfizer • 22.10.2020: Istituzione di un coprifuoco dalle 22:00 alle 05:00 per Lombardia, Cam- pania, Lazio, Sicilia, Calabria e Piemonte • 26.10.2020: Vengono chiusi centri sportivi, cinema, teatri, musei, sale giochi e sale scommesse. La frequentazione di bar e ristoranti è consentita fino alle 18:00 Novembre 2020 • 03.11.2020: Istituzione di un coprifuoco dalle 22:00 alle 05:00 per tutta l’Italia Zona arancione - vengono estesi il divieto di spostamento al di fuori del Comune di residenza e la chiusura dei servizi di ristorazione Zona rossa - vale il divieto di spostamento anche all’interno del proprio Comune, la chiusura di negozi e mercati e il ricorso alla didattica a distanza a partire dalla seconda media • 13.11.2020: Record di casi nelle ultime 24 ore: sono 40.902 • 20.11.2020: Pfizer e BioNTech chiedono l’autorizzazione all’uso per il vaccino a mR- NA BNT162b2 Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
17 Dicembre 2020 • 02.12.2020: Si impongono inoltre restrizioni agli spostamenti fra Regioni nel periodo delle festività natalizie (dal 21.12.2020 al 06.01.2021) Il vaccino viene approvato in Regno Unito • 14.12.2020: Notizie fuorvianti sulla morte di 6 persone facenti parte della sperimenta- zione del vaccino Pfizer • 18.12.2020: Passaggio dell’intero territorio nazionale tra il 24 dicembre 2020 e il 6 gennaio 2021 in zona rossa nei giorni festivi e prefestivi, e in zona arancione nelle giornate feriali • 21.12.2020: Il vaccino viene approvato nell’unione Europea • 22.12.2020: L’Agenzia Italiana del Farmaco (AIFA) ha autorizzato l’immissione in commercio del vaccino anti COVID-19 Pfizer/BioNTech Comirnaty in Italia • 23.12.2020: Morti “sospette” di persone che sono state vaccinate • 27.12.2020: Vaccine Day: Inizio distribuzione del vaccino in Italia e in Europa Gennaio 2021 • 01.01.2021: Riprende la didattica in presenza nelle scuole superiori al 50-75% (tranne nelle zone rosse) • 04.01.2021: La variante inglese è stata confermata in almeno 37 paesi nel mondo, tra cui l’Italia • 07.01.2021: Approvazione di Moderna. È il secondo vaccino COVID-19 autorizzato da AIFA • 13.01.2021: Inizio crisi del governo Italiano • 14.01.2021: Istituzione una "zona bianca" per le aree a basso rischio di contagio. Riapertura dei musei nei giorni feriali in zona bianca e gialla e il divieto di asporto per i bar dopo le ore 18:00 • 18.01.2021: Fine crisi di governo • 26.01.2021: Conte rassegna le sue dimissioni • 30.01.2021: Approvazione da parte di AIFA del vaccino Astrazeneca Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
18 Analisi bibliografia Febbraio 2021 • 13.02.2021: Draghi diventa il presidente del Consiglio dei ministri della Repubblica Italiana Marzo 2021 • 02.03.2021: Chiusura di scuole, parrucchieri ed estetisti nelle zone rosse, e in zona bianca e gialla la riapertura dei musei anche nel fine settimana Approvazione da parte di AIFA del vaccino Janssen • 10.03.2021: Diversi paesi interrompono la somministrazione del vaccino Vaxzevira di AstraZeneca • 15.03.2021: Istituzione di una zona rossa nazionale durante le festività pasquali (dal 3 al 5 aprile). L’AIFA ha vietato l’utilizzo del vaccino AstraZeneca in tutta Italia per motivi precauzio- nali • 22.03.2021: Vengono ripristinate le zone gialle e viene prorogato lo stato di emergen- za fino al 31 luglio 2021 • 27.03.2021: Riapertura di teatri e musei nelle zone gialle e bianche Aprile 2021 • 25.04.2021: Possibilità di spostarsi tra le regioni Maggio 2021 • 18.05.2021: Istituzione di una certificazione verde anche per coloro che hanno rice- vuto una sola dose di vaccino • 19.05.2021: Restrizione del coprifuoco, a partire dalle 23:00 Giugno 2021 • 07.06.2021: Restrizione del coprifuoco, a partire dalle 24:00 Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
19 3.1.2 Vaccinazioni Un’altro punto molto importante della ricerca effettuata sono i vaccini contro il covid-19. Il vaccino è progettato per fornire l’immunità contro il coronavirus e prevenire malattie sinto- matiche solitamente gravi. Al momento, secondo i dati presi da Wikipedia[3], ci sono 22 vaccini autorizzati dai governi di vari paesi, di cui 6 sono stati approvati per l’emergenza o l’uso su vasta scala da almeno una severa agenzia di regolamentazione riconosciuta dall’OMS. In Italia, al momento, sono quattro i vaccini principali utilizzati e sono Astrazenica, John- son&Johnson, Moderna ed infine Pfizer. I primi due vaccini utilizzano la tecnologia a vettore virale mentre gli altri due sono a base di mRNA. Citando ciò che dice l’AIFA "Un vaccino a vettore virale utilizza un virus (generalmente un adenovirus incompetente per la replicazione) per portare all’interno della cellula la sequen- za del codice genetico che codifica per la proteina spike. Il sistema immunitario si attiva contro la proteina e produce degli anticorpi che, qualora il soggetto entrasse a contatto con il virus, lo proteggeranno dall’infezione."[4] Un vaccino a base di mRNA, invece sempre citando l’AIFA "I vaccini mRNA utilizzano mo- lecole di acido ribonucleico messaggero (mRNA) che contengono le istruzioni perché le cellule della persona che si è vaccinata sintetizzino le proteine Spike. Le proteine prodotte stimolano il sistema immunitario a produrre anticorpi specifici."[5] 3.1.3 Novax La posizione dei novax è la posizione di chi si oppone alla vaccinazione, soprattutto contro i gruppi infantili, prendendo così posizione contraria alla tendenza unitaria della comunità scientifica che ne sottolinea l’efficacia e la sicurezza. Ad oggi, il più grande studio sul legame tra il cosiddetto vaccino e l’autismo è stato condotto dallo Statens Serum Institut di Copenhagen su 6.57.461 bambini. Lo studio ha mostrato che nella popolazione danese non vi era alcuna correlazione tra l’insorgenza del disturbo dello spettro autistico e la vaccinazione pediatrica contro morbillo, parotite e rosolia. Dall’emergere del fenomeno antivaccino, i sostenitori di queste idee hanno dimostrato di es- sere riluttanti ad accettare dati scientifici ed empirici. Alcuni attribuiscono questa situazione a un certo disordine della modernità, oppure a causa della grande quantità di informazioni attualmente disponibili, è difficile per alcuni calcolare rischi e benefici delle cose. Molte carte supportate dagli antivaccinisti si basano anche su teorie del complotto o sulla diffusione di fake news.[6] Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
20 Analisi bibliografia 3.2 Twitter Citando Wikipedia "Twitter è un servizio americano di social network su cui gli utenti pubbli- cano e interagiscono con messaggi noti come "tweet". Gli utenti registrati possono postare, mettere mi piace e retwittare i tweet. Gli utenti interagiscono con Twitter attraverso un browser o un software mobile mentre gli sviluppatori possono interagire attraverso le sue API. Twitter è stato creato da Jack Dorsey, Noah Glass, Biz Stone e Evan Williams nel marzo 2006 e lanciato nel luglio dello stesso anno. Nel 2012, più di 100 milioni di utenti hanno postato 340 milioni di tweet al giorno, e il servizio ha gestito una media di 1,6 miliardi di query di ricerca al giorno." Come molti altri social media durante gli ultimi due anni, a causa delle regole ferree contro il coronavirus, ha aumentato il numero di utenti 24,2% nel giro di un anno[7]. Come già introdotto nel paragrafo precedente, per comunicare ed estrarre informazioni esi- stono delle API apposite per gli sviluppatori. Le API[8], forniscono gli strumenti necessari per contribuire, impegnarsi e analizzare la conversazione che avviene su Twitter e, sia per ricavare i dati sia per analizzare alcune informazioni ho dovuto abilitare l’accesso a questo tipo di comunicazione. Tra i diversi motivi per il quale ho dovuto utilizzare l’API vi è uno script, che descriverò nel capitolo successivo, che ricava dato l’id di un’utente se quest’ultimo é stato sospeso o meno. Difatti, come per altri social media anche Twitter ha delle regole da rispettare. Queste linee guida[9] riguardano la violenza, molestie e altri comportamenti di questo genere per evitare che le persone si esprimano in un modo poco consono e per e per permettere a tutti di partecipare alla conversazione pubblica liberamente e in sicurezza. Chi non rispetta le queste regole base rischia la sospensione dal social media per tempi più o meno lunghi. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
21 3.3 Dati utilizzati I dati utilizzati sono di uno studio che il politecnico di Milano [10] sta svolgendo sui dati ri- guardo alla discussione sul coronavirus in Italia. Uno dei motivi per il quale sono stati scelti questi dati, oltre alla reperibilità, è stato che la possibilità di studiare dati così "vicini" al mo- do di pensare e alla cultura che si può avere qui in Ticino, può sicuramente aiutare a poter svolgere delle analisi più mirate riguardo alla discussione sul coronavirus. A partire dal 20 dicembre 2020, il politecnico ha usato le API di Twitter per tracciare una lista di parole chiave, che aggiornano di routine per catturare le discussioni di tendenza. Per controllare i dati il team del politecnico di Milano monitorata la presenza di informazioni a bassa e alta credibilità controllando i domini degli URL condivisi del dataset. I siti web di notizie ad alta credibilità sono siti web di notizie mainstream, popolari e tradizio- nali identificati tramite l’Agenzia Diffusione Stampa. I siti di notizie a bassa credibilità sono estratti dalle blacklist compilate da fact-checkers. 3.4 Python Python[11] è un linguaggio di programmazione generale di alto livello interpretato. La forza di questo linguaggio di programmazione è la facilità di lettura e l’uso di indentazione signifi- cativa. I suoi costrutti di linguaggio e il suo approccio orientato agli oggetti hanno lo scopo di aiutare i programmatori a scrivere codice chiaro e logico per progetti piccoli e grandi. Tra gli usi più comuni di questo linguaggio di programmazione vi é lo sviluppo di siti web e software, per l’automazione dei compiti, l’analisi e la visualizzazione dei dati. Per poter svolgere le analisi necessarie ad adempire ai compiti di questo progetto Python è stato essenziale in quanto è un punto fermo nella scienza dei dati in quanto permette agli analisti di dati e ad altri professionisti di utilizzare il linguaggio per condurre complessi cal- coli statistici, creare visualizzazioni di dati, costruire algoritmi di apprendimento automatico, manipolare e analizzare i dati e completare altri compiti relativi ai dati. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
22 Analisi bibliografia Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
23 Capitolo 4 Analisi as-is Nel precedente capitolo abbiamo approfondito ulteriormente il tema del progetto, descriven- do in particolare la situazione generale riguardo il Covid-19, l’utilizzo dei social media negli ultimi anni ed, infine una descrizione generale delle tecnologie utilizzate per l’analisi del set di dati. In questo capitolo, invece, andrò a fare un resoconto della situazione attuale dello studio che SUPSI ha già iniziato ad effettuare su questo dataset. Su questi dati, infatti, sono in corso delle ricerche con l’obiettivo di capire come gli utenti malevoli condividono informazioni false e si relazionano con gli altri utenti. Più precisamente, quello che verrà trattato nel corso di questo capitolo, sono le analisi e gli script che il team di lavoro SUPSI aveva già preparato per le loro analisi e che io ho integrato agli studi che ho svolto. Come visto nel capitolo precedente, i dati sono stati recuperati da un analisi svolta dal po- litecnico di Milano ma, poiché l’obiettivo che si vuole raggiungere è lo stesso, ho deciso di non trattare in questo capitolo le loro analisi. Nei capitoli successivi approfondirò come ho gestito e affrontato le analisi svolte nel corso di questo lavoro e, quindi, come ho integrato le informazioni che il team SUPSI mi ha fornito. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
24 Analisi as-is 4.1 Analisi condotte da SUPSI Come già introdotto in precedenza, lo studio condotto da SUPSI ha lo stesso scopo che ha il mio studio ovvero cercare di capire come la disinformazione sul vaccino contro il Covid-19 si diffonde all’interno del social media Twitter. Per il motivo sovrastante, per alcuni studi, ho potuto riutilizzare del codice che il team di SUPSI che sta lavorando a questo progetto ha sviluppato prima che iniziassi a lavorare sui dati. Nello specifico ciò che ho utilizzato anche per i miei studi è uno score calcolato sugli URL che ogni utente ha condiviso e uno script che dato un set di utenti restituisce se l’utente é stato sospeso o si é eliminato da Twitter. 4.1.1 Score sugli URL condivisi All’interno del dataframe che ho studiato, tra le diverse feature ne è presente una che rag- gruppa tutti gli URL contenuti all’interno di un tweet. Il team che ha lavorato sui dati, perciò, ha utilizzato questa informazione per classificare gli utenti secondo le tipologie di URL che ogni utente ha condiviso nel corso dei mesi. Un link può essere classificato in tre categorie diverse che sono high per le fonti con cre- dibilità alta, low per quelle con credibilità bassa ed infine none, che rappresentano tutti i collegamenti che non sono stati classificati o che semplicemente non è possibile classifica- re secondo la scala che il team ha usato. Il gruppo che si é occupato di classificare i link condivisi,per l’appunto, oltre al buonsenso si è posto delle regole generali per poter rendere la classificazione il più oggettiva possibile. Queste regole tengono conto di cinque diversi fattori: Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
25 • Chi si occupa del sito? È necessario capire di che tipologia è il dominio e chi si occupa della scrittura del contenuto. Il contenuto deve disporre di un’identificazione chiare ed esplicita con la disponibilità di per poter verificare le fonti facilmente. • Cosa tratta il sito? Il tipo di contenuto della pagina deve essere vero e autentico. • Come viene esposto il contenuto del sito? Il contenuto del sito deve essere obiettivo e senza presenza di alterazione della realtà • Da dove sono prese le informazioni? • Quando il sito viene aggiornato? Il contenuto deve essere sempre aggiornato rispetto al contesto dei temi trattati • Quelle lo scopo principale della pagina? Oltre a questi fattori, vi sono delle regole che, chi si è occupato della classificazione ha mantenuto per poter rendere questa categorizzazione più semplice. Per quanto riguarda le fonti low credibility la direzione generale è quella di considerare tutti blog personali (secondo il principio di non distinzione delle fonti) come domini a bassa cre- dibilità. Le fonti e i domini associati a siti istituzionali e a testate giornalistiche accreditate (seppur con un chiaro schieramento politico o ideologico) sono state classificate come domini high credibility. Una volta che i link sono stati classificati poter produrre uno score diventa poi molto intuitivo. Per l’appunto la formula che é stata utilizzata per calcolare questa graduatoria è il. semplice rapporto: U RLhigh cred_score = (4.1) U RLtot_class Dove: • cred_score: Credibilità di un’utente, dove 0 rappresenta una credibilità bassa e 1 una credibilità alta • U RLhigh : Numero di link classificati come "credibilità alta" • U RLtot_class : Numero totale di link classificati tra high e low Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
26 Analisi as-is Il team di lavoro, prima che iniziassi a lavorare anche con questi dati, ha precisato che, per come sono stati classificati gli URL e gli utenti, vi sono alcune considerazioni importanti da fare. La prima considerazione da fare é che per poter classificare gli URL non esiste un metodo diverso dal controllare manualmente ogni singolo link condiviso. Questo, oltre che essere un lavoro poco stimolante risulta essere molto lungo, sopratutto se si calcola che all’interno del dataset vi sono ben 15’726 link differenti condivisi e solo il 26% di questi URL é stato classificato. Secondariamente, come per gli hashtag, le informazioni che si possono estrarre dagli URL sono volatili e, per questo motivo, ogni mese quelli più utilizzati possono cambiare e, quindi, vanno aggiornati. Infine, una persona che non é solita condividere link non può essere classificata o, ancora peggio, può essere classificata erroneamente. Fortunatamente le osservazioni che ho fatto prima, con una serie di accorgimenti non risulta- no essere un grosso impedimento per la creazione di uno score che può essere considerato utile per la classificazione degli utenti. Infatti, come si vedrà nel capitolo 6, questo punteggio è molto attendibile per gli utenti classificati come high credibility. Un primo accorgimento da fare è sul basso numero di URL che sono stati classificati. In- fatti, andando a studiare l’effettivo utilizzo dei link, si può vedere che solo il 0,48% di questi collegamenti (quindi poco più di 700) hanno un utilizzo totale maggiore di 100, e di questi ben il 31% é stato categorizzato. Dopodiché, per quanto riguarda la volatilità dei dati, l’unico grosso problema é quello che ogni mese, o semplicemente ogni volta che vengono aggiunti dei nuovi dati la classificazio- ne degli URL va aggiornata con i nuovi link più utilizzati. Per concludere, per risolvere il problema di un’utente che può essere classificato erronea- mente é possibile aggiungere una soglia sul numero minimo di collegamenti classificati che un’utente deve condividere per poter essere classificato. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
27 4.1.2 Script per utenti sospesi Come per ogni piattaforma anche Twitter ha delle regole generali per poter utilizzare il so- cial. Per l’appunto, come già approfondito nel sottocapitolo ??, vi sono delle linee giuda che ogni persona deve rispettare e il mancato rispetto di queste regole può portare alla sospen- sione degli account. La concezione di questo script parte dal presupposto che anche all’interno del dataset stu- diato ci siano alcuni account che sono stati sospesi e che perciò, in visione dell’obbiettivo finale, sono persone interessanti da distinguere e studiare all’interno dei dati. Prima di spiegare, a grandi linee, il funzionamento vero e proprio del codice é necessario introdurre come è stato necessario preparare i dati e l’ambiente di sviluppo per poter ese- guire il programma che SUPSI mi ha fornito. Come già descritto nel capitolo precedente, twitter mette a disposizione per gli sviluppatori delle api per poter accedere in modo privilegiato a tweet ed informazioni riguardo gli utenti per poter permettere agli sviluppatori di analizzare il social media. Queste api, nello speci- fico, sono utilizzate per ricevere informazioni riguardo allo stato attuale di un’utente dato il suo id. Oltre a queste interfacce, per poter utilizzare lo script, è necessario installare una serie di librerie di Python, le quali alcune sono presenti all’interno del file "requirement.txt". Per quanto concerne il formato dei dati da fornire allo script è solamente necessario fornire gli id degli utenti che si vogliono studiare per poi ricevere in output il file con le informazioni riguardanti i singoli utenti. Come già introdotto nel paragrafo precedente, l’uso dello script é molto semplice, infatti dan- do in input una serie di id si riceve in uscita un secondo file. Questo secondo file contiene, insieme all’identificativo dell’utente, un codice che mostra se l’utente é stato sospeso, si è rimosso da twitter o se semplicemente non ha avuto problemi. Per poter funzionare in questo modo, all’interno dello script, per ogni id, viene mandata una richiesta tramite api a twitter che dopo, inseme al resto delle informazioni riguardanti gli utenti, restituisce uno dei tre codici che sono stati descritti in precedenza. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
28 Analisi as-is Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
29 Capitolo 5 Metodologia Il capitolo precedente, ha trattato la situazione di partenza del progetto, in quanto questo studio è già stato iniziato da SUPSI. In questo capitolo tratterò quindi il modo in cui ho deciso di affrontare il lavoro e quindi i ragionamenti fatti per poter arrivare all’obiettivo finale ovvero quello di trovare e studiare i diversi gruppi di utenti presenti nei dati studiati. Come già descritto precedentemente, il lavoro di studio si é evoluto nel tempo progressi- vamente che le analisi procedevano e, per questo motivo, all’interno di questo capitolo ho deciso di descrivere come progressivamente sono arrivata verso l’obiettivo finale. Ad accompagnare questa descrizione testuale consiglio di prendere visone della sezione piano di lavoro presente alla fine del documento, che contiene una visualizzazione grafica degli obiettivi descritti all’interno di questo capitolo. Il documento continuerà poi con il processo di risoluzione vero e proprio che è stato svolto all’interno del progetto, andando a descrivere in modo dettagliato le analisi introdotte in questo capitolo. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
30 Metodologia 5.1 Descrizione dell’approccio Quando ho iniziato a studiare i dati, prima di avere tutti i file .csv dei mesi presenti nei dati forniti dal politecnico di Milano, ho iniziato le mie analisi su un campione di 5’000 dati. Su questo sample di dati ho iniziato a studiare generalmente l’andamento dei dati, in modo da poter, una volta ottenuti i dati completi, potesse essere possibile iniziare le analisi nel modo più veloce possibile. Gli studi svolti durante le prime settimane di lavoro hanno riguardato l’analizzare gli utenti e come nel corso dei mesi si sono relazionati a twitter. Dopodiché, sempre per le analisi riguardanti gli utenti, ho cercato di capire le loro abitudini e, quindi, che tipo di contenuto preferissero. Quando parlo di tipo di contenuti non intendo solamente i tweet, retweet e le reply ma anche il contenuto vero e proprio del post come le menzioni, gli hashtag ed i link condivisi. Qualche settimana dall’inizio dello studio ho ricevuto l’accesso al set di dati completi e ho potuto iniziare a studiare il dataframe completo. Uno dei primi passaggi che ho dovuto svol- gere è stato l’unire i dati, in quanto erano divisi per mesi, e il passaggio dalle analisi svolte sul sample a quelle su tutti dati. Questo passaggio, ha portato via molto tempo in quanto molte delle analisi svolte in precedenza non potevano essere svolte sul dataset completo. Mentre pensavo a come risolvere il problema, ho continuato le analisi sui dati che non mi davano molti problemi, in quanto non avevano bisogno di molto tempo per eseguire ed ho iniziato ad utilizzare lo script per ricavare gli utenti sospesi descritto nel capitolo precedente. Una volta risolto il problema che avevo con la lentezza del codice che avevo scritto ho potuto iniziare a concentrarmi su studi più mirati. Queste analisi più mirate potevano essere ese- guiti su diverse features come il testo, gli URL, gli hashtag ed infine le iterazioni tra gli utenti (perciò le menzioni, i retweet e le reply ). Avendo poche conoscenze nell’ambito dell’analisi testuale e avendo, grazie al team SUPSI, un analisi avanzata dei link mi sono concentrata sugli hashtag prima e sui retweet poi. Lo studio sugli hashtag, come per quello riguardanti gli utenti, è partito da uno studio di quelli più utilizzati e di come, nel tempo venissero utilizzati da tutti gli utenti. Come descri- verò anche nel capitolo successivo, é stato subito palese che, senza un filtro sugli hashtag più comuni sarebbe stato impossibile trovare degli hashtag che potessero essere usati da utenti malintenzionati. Per questo motivo, prima di cercare hashtag sospetti ho dovuto ri- muovere dal dataset tutti quelli che risultavano poco interessanti come quelli comuni o che riguardassero la politica. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
31 L’applicazione di quello che si può definire filtro mi ha portata a trovare un’insieme di hash- tag che, controllando manualmente su Twitter, venivano utilizzato per la maggior parte da utenti con un’ideologia novax. Perciò, grazie a questo insieme di hashtag sono riuscita a creare, anche se molto ridotto, un piccolo gruppo di utenti contro il vaccino anticovid. Una volta visto il funzionamento di questo metodo, ho provato ad aumentare il numero di hashtag sospetti controllando quelli che venivano utilizzati da utenti che erano stati sospesi e degli hashtag che venivano utilizzati spesso insieme a quelli "sospetti". Purtroppo entram- bi gli approcci si sono rivelati poco efficienti. In aggiunga a questo c’è da aggiungere che gli hashtag, come gli URL, sono delle informazioni volatili e che quindi, ad ogni aggiunta di nuovi dati, le informazioni trovate in passato sarebbero state da aggiornare. Sotto consiglio dei relatori, e dato l’accantonamento dello studio sugli hashtag sospetti, ho ripreso le analisi riguardanti gli account. Queste analisi mi hanno portata a provare a segui- re la strada del provare a studiare gli utenti più attivi all’interno del dataframe. Con mia grande sorpresa, controllando manualmente gli account in questione, mi sono re- sa conto che gli utenti più attivi all’interno dei dati sono novax. Non potendo analizzare il testo usando il sentimental analysis, oltre agli account più attivi ho studiato anche quelli più retweet e, anche in questo caso la maggior parte di questi utenti sono novax. A questo punto, avendo capito che l’uso delle iterazioni tra gli utenti poteva essere un buon modo per la creazione di gruppi, ho provato a trovare nello stesso modo degli utenti novax, anche gli utenti che possono essere visti come gli "antagonisti" dei novax ovvero quelli che ho poi denominato high credibility. Questi utenti con credibilità alta sono stati trovati tra gli utenti che hanno verificato il proprio account e, per la maggior maggior parte sono personaggi pubblici e testate giornalistiche di successo. Una volta aver trovato le persone più famose per entrambi i gruppi di utenti classificati, è stato possibile creare le due "fazioni". Per creare questi due gruppi ho usato le informazioni che si possono ricavare dai retweet. Inizialmente ho provato ad inserire nei rispettivi gruppi tutti gli utenti che venivano "retwee- tati" almeno una volta da un utente "famoso", nel rispettivo gruppo. Il risultato, però è stato poco utilizzabile in quanto, controllando gli utenti inseriti nei due gruppi, ve ne erano molti che venivano classificati erroneamente. Per il mio secondo tentativo ho utilizzato, seguendo l’idea data dalla classificazione de- gli URL, di creare uno score calcolato sul numero di volte che un’utente qualsiasi ha ret- wettato un utente di un determinato gruppo. Questo approccio è stato poi quello che ho effettivamente utilizzato per la creazione dei gruppi. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
32 Metodologia Dal momento in cui ho creato i gruppi ho potuto iniziare a studiarli singolarmente e ho potuto iniziare a capire come questi relazionassero tra di loro. Queste analisi le ho svolte in parte nello stesso modo in cui ho svolto quelle per tutto il dataset e in parte su come gli utenti preferissero comunicare tra di loro (perciò tramite i retweet e le reply ). Per concludere le analisi ho deciso, sotto consiglio dei relatori, di creare una network se- guendo i retweet. Questa retweet network mi ha permesso di aumentare il numero di utenti presenti all’interno dei gruppi e di classificare correttamente alcuni account che erano stati riconosciuti sia come high credibility sia come novax. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
33 Capitolo 6 Risoluzione Nel capitolo precedente ho trattato le metodologie adottate per questo progetto, spiegando come, analisi dopo analisi, sono riuscita ad arrivare al risultato finale. In questo capitolo descriverò in dettaglio le analisi che sono state introdotte nel capitolo antecedente per arrivare al risultato finale ovvero quello di poter analizzare i diversi gruppi di utenti per poterli poi analizzare ed, infine, capire i diversi modi di approcciarsi al social media Twitter. Lo svolgimento dello studio, come già spiegato nei capitoli precedenti, è iniziato cono un’a- nalisi iniziale di tutto il dataframe. Questa analisi è stata fatta, inizialmente, su tutte le features presenti all’interno del dataframe, ma, più precisamente, mi sono concentrata sugli attribuiti che riguardano gli utenti, il tipo e contenuto del tweet ed infine metodo di creazione di contenuti. Dopodiché, una volta capito l’andamento generale dei dati, ho potuto dividere gli utenti in tre diversi i novax, gli high credibility ed infine quelli che non sono stati classificati che ho denominato other. Infine, una volta creati i gruppi, ho potuto studiarne i diversi comportamenti per poi iniziare a capire in che altri modi fosse possibile distinguere gli utenti nei due gruppi interessanti (quindi i novax e gli high credibility ). Dopo aver descritto ampiamente il percorso e gli studi seguiti, nel prossimo capitolo fornirò un’analisi critica dei risultati ottenuti, considerando anche le criticità del progetto e le possibili migliorie. Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
Puoi anche leggere