Analisi dell'opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19

Pagina creata da Luca Alberti
 
CONTINUA A LEGGERE
Analisi dell'opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
Analisi dell’opinione pubblica sui social
media nel dibattito relativo ai vaccini
Covid-19

Studente/i               Relatore

Costagliola Giada        Luceri Luca

                         Correlatore

                         Giordano Cremonese Silvia

                         Committente

                         SUPSI

Corso di laurea          Modulo

Ingegneria Informatica   C10360

Anno

2020/2021

Data

12 settembre 2021
Analisi dell'opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
Analisi dell'opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
i

Indice

Abstract (italiano)                                                                                  1

Abstract (inglese)                                                                                   3

Progetto assegnato                                                                                   5

1 Introduzione                                                                                       7
   1.1 Tema trattato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         8
   1.2 Motivazione e contesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .            9

2 Obiettivi                                                                                         11
   2.1 Descrizione dell’obiettivo finale . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 Analisi bibliografia                                                                              13
   3.1 Covid-19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
        3.1.1 Eventi importanti in Italia . . . . . . . . . . . . . . . . . . . . . . . . . 14
        3.1.2 Vaccinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
        3.1.3 Novax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
   3.2 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
   3.3 Dati utilizzati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
   3.4 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4 Analisi as-is                                                                                     23
   4.1 Analisi condotte da SUPSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
        4.1.1 Score sugli URL condivisi . . . . . . . . . . . . . . . . . . . . . . . . . 24
        4.1.2 Script per utenti sospesi . . . . . . . . . . . . . . . . . . . . . . . . . 27

5 Metodologia                                                                                       29
   5.1 Descrizione dell’approccio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6 Risoluzione                                                                                       33
   6.1 Preparazione del dataframe          . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
   6.2 Studio degli account       . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

            Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
Analisi dell'opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
ii                                                                                           INDICE

     6.3 Studio del testo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
     6.4 Preparazione dei gruppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
          6.4.1 Classificazione con account più attivi         . . . . . . . . . . . . . . . . . . 44
          6.4.2 Classificazione con retweet network . . . . . . . . . . . . . . . . . . . 47
     6.5 Studio generale dei gruppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
     6.6 Studio della retweet network . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
     6.7 Studio degli URL       . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
     6.8 Studio degli hashtags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

7 Analisi to-be                                                                                   63
     7.1 Risultati ottenuti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
     7.2 Criticità note . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

8 Valutazione                                                                                     67
     8.1 Generalizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
     8.2 Limiti del progetto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
     8.3 Considerazioni personali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

Conclusione                                                                                       71

Piano di lavoro                                                                                   73

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
Analisi dell'opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
iii

Elenco delle figure

 6.1 Lettura dei file per tutti i mesi studiati . . . . . . . . . . . . . . . . . . . . . . . 34
 6.2 Aggiunta al dataframe della feature user_code_error . . . . . . . . . . . . . 35
 6.3 Aggiunta al dataframe della feature is_self_rt . . . . . . . . . . . . . . . . 35
 6.4 Aggiunta al dataframe della feature user_credibility . . . . . . . . . . . . 36
 6.5 Data di creazione degli account presenti nel dataframe . . . . . . . . . . . . . 37
 6.6 Data di creazione degli account presenti nel dataframe . . . . . . . . . . . . . 38
 6.7 Grafico a torta del tipo di tweet creato . . . . . . . . . . . . . . . . . . . . . . 39
 6.8 Primi 50 account più attivi (dal 1° al 25°) . . . . . . . . . . . . . . . . . . . . . 40
 6.9 Primi 50 account più attivi (dal 25° al 50°) . . . . . . . . . . . . . . . . . . . . 40
 6.10 Primi 50 account più retwettati (dal 1° al 50°) . . . . . . . . . . . . . . . . . . 41
 6.11 Primi 50 account più retwettati (dal 25° al 50°) . . . . . . . . . . . . . . . . . 41
 6.12 Esempio di notizia complottista . . . . . . . . . . . . . . . . . . . . . . . . . . 42
 6.13 Utilizzo delle parole legate alle vaccinazioni nel corso dei mesi . . . . . . . . . 43
 6.14 Funzione per ricavare account che sono stati retwettati da una lista di altri
      utenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
 6.15 Funzione per ricavare la percentuale di retweet fatti verso una lista di utenti          . 45
 6.16 Distribuzione dello score per gli utenti high credibility . . . . . . . . . . . . . . 46
 6.17 Distribuzione dello score per gli utenti novax        . . . . . . . . . . . . . . . . . . 46
 6.18 Informazione generali sui gruppi di utenti . . . . . . . . . . . . . . . . . . . . 48
 6.19 Informazioni sui retweet dei gruppi . . . . . . . . . . . . . . . . . . . . . . . . 49
 6.20 Informazioni sui reply dei gruppi . . . . . . . . . . . . . . . . . . . . . . . . . 49
 6.21 Retweet network sul dataframe completo . . . . . . . . . . . . . . . . . . . . 50
 6.22 Retweet network degli utenti novax         . . . . . . . . . . . . . . . . . . . . . . . 51
 6.23 Retweet network degli utenti high credibility . . . . . . . . . . . . . . . . . . . 52
 6.24 Primi 40 URL più condivisi (dal 1° al 20°) . . . . . . . . . . . . . . . . . . . . 53
 6.25 Primi 40 URL più condivisi (dal 20° al 40°) . . . . . . . . . . . . . . . . . . . . 54
 6.26 Primi 20 URL più condivisi dagli utenti novax . . . . . . . . . . . . . . . . . . 54
 6.27 Primi 20 URL più condivisi dagli utenti high credibility . . . . . . . . . . . . . . 55
 6.28 Score di credibilità calcolato sugli URL condivisi        . . . . . . . . . . . . . . . . 56
 6.29 Score di credibilità calcolato sugli URL condivisi per gli utenti novax . . . . . . 56

          Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
iv                                                                        ELENCO DELLE FIGURE

     6.30 Score di credibilità calcolato sugli URL condivisi per gli utenti high vredibility . 57
     6.31 Visualizzazione grafica degli hashtag più utilizzati . . . . . . . . . . . . . . . . 58
     6.32 Visualizzazione temporale dell’utilizzo degli hashtag "sospetti" . . . . . . . . . 59
     6.33 Numero degli hashtag "sospetti" utilizzati . . . . . . . . . . . . . . . . . . . . 60
     6.34 Preferenza di utilizzo hashtag "sospetti" usati . . . . . . . . . . . . . . . . . . 60
     6.35 Utilizzo degli hashatg sospetti da parte degli utenti novax         . . . . . . . . . . . 61
     6.36 Utilizzo degli hashatg sospetti da parte degli utenti high credibility . . . . . . . 61

     8.1 Piano di lavoro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
1

Abstract (italiano)

Dal 2019 ci troviamo a convivere con una pandemia globale che ha cambiato le abitudini di
tutte le persone in giro per il mondo. Ogni persona ha vissuto questo cambiamento in modo
differente ma una cosa è stata comune per molte persone, l’attaccamento ai social media.
Difatti, dopo che pian piano in tutto il mondo si é iniziato a parlare di coronavirus ma, sopra-
tutto di lockdown, la popolazione ha dovuto trovare un modo per occupare le giornate e un
modo sono stati appunto i social network.
Con l’aumentare dell’uso dei social é aumentato anche il numero di utenti malevoli che
usano i social network per influenzare le opinioni dei cittadini, diffondere storie faslate e
fomentare scontri tra fazioni divergenti.

L’obiettivo di questo progetto é, perciò, quello di identificare, comprendere ed analizzare
l’attività delle entità malevoli nelle discussioni inerenti i vaccini Covid-19 in Italia. Lo studio
condotto riguarda, in particolare, un’analisi osservazionale del comportamento degli utenti
in modo da poter capire come questi diffondo le fake news riguardo al coronavirus.

Per poter svolgere il compito assegnato sono state studiate le tematiche riguardo al Covid-
19 e, più precisamente ai vaccini contro questo virus. A tale scopo è necessario avvalersi
di Python e delle librerie che questo linguaggio di programmazione mette a disposizione.

Una volta approfonditi gli argomenti e compresa la mole di lavoro, è stato possibile iniziare
con l’analisi vera e propria. Inizialmente il progetto è partito a rilento ma, studiando sempre
meglio il dataset che fornito e approfondendo il tema delle fake news ho potuto recuperare
il tempo perso e di concludere il lavoro in tempo.

Il risultato ottenuto al termine dello studio risponde alle esigenze definite nella fase iniziale.
È una base di studio degli utenti malevoli e dei loro antagonisti e di come queste due entità
utilizzano il social media Twitter.

             Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
2                                                                                   Abstract (italiano)

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
3

Abstract (inglese)

Since 2019 we are living with a global pandemic that has changed the habits of all people
globally. Each person has experienced this change in different ways, there is though one
common thing among all of them: the social media "dependence". That is, after the world
began to talk about coronavirus, above all lockdown, people had to find a way out, and so-
cial media were the solution. As the use of them increased, so did the number of malicious
users who use social networks to influence the opinions of citizens, spread fake news and
stir up conflicts between divergent opinions.

The final goal of this project is, therefore, to identify, understand and analyze the activity of
malicious entities in the discussions concerning the Covid-19 vaccines in Italy. The study
conducted concerns, in particular, an observational analysis of user behavior in order to
understand how users spread fake news about coronavirus.

In order to carry out the assigned task, issues regarding Covid-19 and, more precisely, vac-
cines against this virus have been studied. For this purpose it is necessary to use Python
and the libraries that this programming language provides.

Once deepened the arguments and understood the amount of work, it was possible to start
with the real analysis. Initially the project started slowly but, studying more and better the
dataset that I provided and deepening the theme of fake news, I was able to make up for
lost time finishing the work on time.

The result obtained at the end of the study meets the needs defined in the starting phase.
That is a basis for the study of malicious users and their antagonists, getting the way how
these two entities use Twitter as a social media.

            Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
4                                                                                   Abstract (inglese)

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
5

Progetto assegnato

I social media, soprattutto negli ultimi anni, sono diventati sempre di più una parte impor-
tante della vita di molte persone, in quanto possono essere utilizzati sia come passatempo
sia come fonte di notizie. Le persone che utilizzano piattaforme come Twitter, Instagram
e Facebook come fonte principale per le notizie riguardanti il mondo, si trova sempre più
spesso confrontate con notizie false pubblicate da utenti malintenzionati o utenti poco infor-
mati sullo svolgimento reale dei fatti.

Oggigiorno, infatti, i social media rappresentano sempre di più degli strumenti di persuasio-
ne che sono stati progressivamente utilizzati online in maniera malevola per influenzare le
opinioni dei cittadini, diffondere storie false e fomentare scontri tra fazioni divergenti.

Pertanto l’obiettivo di questo progetto é quello di identificare, comprendere ed analizzare
l’attività delle entità malevoli nelle discussioni inerenti i vaccini Covid-19 in Italia utilizzando
una collezione di dati raccolta presa dai tweet effettuati sul social media Twitter.
Lo studio condotto riguarda, in particolare, un’analisi osservazionale del comportamento e
delle iterazioni tra gli utenti per scoprire le strategie eseguite dagli utenti malevoli per diffon-
dere ed amplificare storie false ed ingannevoli riguardanti il vaccino contro il Covid-19.

Per poter condurre queste analisi sul set di dati che mi é stato dato ho utilizzato il linguaggio
di programmazione Python. Più precisamente, di tutte le librerie che questa tecnologia
mette a disposizione sono state utilizzate quelle di plotly, matlab, pandas, json, numpy e
networkx.

             Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
6                                                                                 Progetto assegnato

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
7

Capitolo 1

Introduzione

Lo scopo di questo capitolo è quello di introdurre brevemente il tema sul quale è stato
svolto il lavoro, facendo una panoramica iniziale del progetto, per poi discutere e motivare
i fattori che mi ha portata alla scelta di questa tematica. Nel prossimo capitolo, invece,
discuteremo gli obiettivi del progetto, e di come si sono evoluti e sono aumentati nel corso
dello svolgimento dello studio.

            Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
8                                                                                            Introduzione

1.1      Tema trattato
Come anticipato nella descrizione del progetto assegnato, che riporta e integra il contenuto
della scheda progetto iniziale, il tema principale è lo studio delle interazioni tra gli utenti ri-
guardo la discussione sui social media riguardo le vaccinazioni contro il coronavirus in Italia.

Più precisamente, l’idea è quella di capire come i diversi utenti, sopratutto quelli malevoli,
interagiscono tra di loro e tra gli altri utenti. Queste interazione tra i diversi tipo di utenti, per
essere studiate, hanno bisogno di una separazione tra i diversi tipi di utente che possono
esistere che, come si vedrà nel corso del documento sono tre ovvero, gli utenti novax, quelli
high credibility ed in fine gli utenti not classified che nel corso del progetto saranno chiamati
other.
Le iterazioni mi permetteranno, in primo luogo, di capire come gli utenti interagiscono tra di
loro e, soprattutto di capire in che modo gli utenti malevoli, quindi i novax, condividono infor-
mazioni false o sfalsate riguardo al coronoavirus e sulle vaccinazioni contro questo virus.

Quello che mi é stato richiesto di fare, quindi, é di presentare uno studio dei dati generale
prima, per poi usare le informazioni trovate per poter svolgere degli studi mirati sui diversi
gruppi trovati per poi, in seguito, approfondi per ogni tipologia di gruppo con un focus sugli
utenti classificati come novax.

Nei prossimi capitoli questi punti verranno ampiamente approfonditi, sia per quanto riguarda
gli obiettivi e la situazione iniziale, che la realizzazione effettiva e i risultati ottenuti.

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
9

1.2    Motivazione e contesto
Per concludere il percorso di Bachelor in Ingegneria Informatica alla SUPSI è stato richiesto
di realizzare un progetto di laurea, che prevede di studiare e sviluppare in autonomia una
delle proposte fornite da docenti e ricercatori.

All’interno dell’apposita piattaforma erano presenti vari progetti caratterizzati da tematiche
molto eterogenee, ma tutti riconducibili al nostro percorso di studi. Alcuni di questi vengono
forniti da aziende esterne alla SUPSI, altri sono inerenti a progetti interni o a esigenze dei
professori. Nel mio caso, il progetto è stato fornito dai ricercatori SUPSI.

Diversi fattori mi hanno portata a scegliere questo progetto, primo fra questi l’attualità del
tema trattato, ovvero la discussione delle vaccinazioni in Italia.
Ogni giorno, infatti, si sente parlare di coronavirus, novax e vaccinazioni, per questo motivo
ho pensato che un progetto come lo studio di questa discussione potesse essere interessan-
te sia per il mio percorso formativo sia per arricchire il mio bagaglio di conoscenze personali.

A questi motivi, vi è anche il mio interessamento generale alle fake news, e a come gli utenti
si relazionano con esse. Infatti, ho sempre trovato molto interessante come per alcune per-
sone le notizie condivise tramite un social media potessero essere più attendibili rispetto a
quelle condivise da testate giornalistiche di successo.

Infine, un altro fattore significativo per la scelta, é stato l’ambito del progetto ovvero l’ambito
della data science. Per l’appunto, da un anno a questa parte, ho iniziato ad appassio-
narmi a questo ambito dell’informatica, tanto per cui ho pensato che il modo migliore per
approfondire le mie conoscenze in questo ramo.

            Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
10                                                                                           Introduzione

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
11

Capitolo 2

Obiettivi

I relatori, come già trattato nella sezione di progetto assegnato hanno chiarito fin da subito
che questo lavoro sarebbe stato prettamente di ricerca e che quindi, non vi era un obiettivo
preciso se non quello di capire come i diversi utenti interagissero tra di loro tramite il social
network studiato ovvero Twitter.

Questo obiettivo però, come già introdotto nel capitolo precedente, é stato raggiunto grazie
ad una serie di obiettivi minori che sono stati aggiunti da me e dai relatori nel corso dello
svolgimento delle analisi.

In questo capitolo, perciò, quello che andrò a descrivere l’obiettivo finale raggiunto e andrò
ad introdurre tutta la serie di obiettivi che ho dovuto raggiungere prima nel corso di questo
lavoro di diploma.

La metodologia e la descrizione più dettagliata di tutte analisi intermedie é presente all’in-
terno dei prossimi capitoli.
È presente, inoltre, all’interno del capitolo piano di lavoro, un grafico che mostra quando tutti
gli obiettivi che saranno descritti all’interno di questo capitolo sono stati raggiunti.

Nel capitolo successivo sarà poi trattato generalmente la situazione attuale riguardo alla
pandemia che é in corso alle vaccinazioni e all’importanza che i social media hanno assunto
negli ultimi anni.

             Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
12                                                                                           Obiettivi

2.1     Descrizione dell’obiettivo finale
Durante il primo incontro con i relatori é stato chiaro fin da subito che il lavoro sarebbe stato
prettamente di analisi dei dati.
Per l’appunto l’idea principale del progetto é quella di studiare il comportamento degli utenti
sui social media durante questo periodo di pandemia nella quale ci siamo ritrovati da più di
un anno a questa parte.

Per cominciare questa ricerca, la prima cosa che i relatori mi hanno consigliato é di effet-
tuare un’analisi osservazionale dei dati. Questo tipo di analisi, nello specifico, si occupa di
esplorare il modo in cui gli utenti si relazionano e si comportano tra di loro.

Successivamente, dopo aver osservato il comportamento degli utenti all’interno del datafra-
me, è possibile iniziare a capire i tipi di utenti che sono presenti all’interno dei dati e, quindi,
é possibile trovare un modo per poter classificare gli utenti in gruppi.
Come si vedrà a seguire nel documento, questi gruppi sono tre e ho deciso di chiamarli
novax,high credibility e other.

Dopo aver suddiviso gli utenti in classi, sarà possibile studiare come gli utenti appartenenti
ai diversi gruppi interagiscono tra di loro e, quindi, si potrà iniziare a capire come gli uten-
ti malevoli preferiscono condividere false informazioni riguardo al Covid-19 e le vaccinazioni.

Infine, dopo aver analizzato a fondo i gruppi di persone creati, sarà possibile capire se
esistono altre feature presenti nel set di dati possono essere utilizzate per rendere la clas-
sificazione degli utenti più precisa e che possa comprendere un numero di utenti sempre
maggiore.

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
13

Capitolo 3

Analisi bibliografia

Nello scorso capitolo abbiamo discusso a fondo gli obiettivi alla base del progetto; in questo
descriverò ulteriormente il tema trattato, che consiste nello studio della discussione riguardo
i vaccini del Covid-19 in Italia.

Più precisamente, in questo capitolo, ho deciso di approfondire il tema del coronavirus di
come in Italia e nel mondo questa pandemia si é evoluta e ha cambiato le nostre abitudini
nel corso degli ultimi due anni.

Dopodiché, essendo che un altro tema molto importante di questo studio sono i social me-
dia, ho descritto brevemente cosa sono e come, nel corso degli ultimi anni sono diventati
sempre più indispensabili nella vita di tutti i giorni della maggior parte delle persone. Questa
descrizione avrà un focus sul social media Twitter che, come già introdotto precedentemen-
te é stata la fonte di tutti i dati studiati per questo lavoro.

Infine, ho deciso di spiegare i concetti base che stanno dietro alle tecnologie utilizzate per
le analisi condotte per questo progetto. Più precisamente, ho deciso di descrivere come i
dati sono stati recuperati e studiati grazie all’aiuto del linguaggio di programmazione Python
e delle librerie che questo linguaggio mette a disposizione.

             Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
14                                                                                  Analisi bibliografia

3.1 Covid-19
Il covid-19 è una malattia infettiva respiratoria causata dal virus denominato SARS-CoV-2
appartenente alla famiglia dei coronavirus che a origine in Cina.

Il virus si diffonde attraverso l’aria, più comunemente attraverso le goccioline respiratorie.
Al fine di limitarne la diffusione, devono essere prese precauzioni, come mantenere una
distanza interpersonale di almeno 1,5 metri, e mantenere comportamenti corretti nell’igiene
personale.

I sintomi sono simili a quelli dell’influenza oltre alla perdita dell’olfatto e del gusto. Nei casi
più gravi può verificarsi una polmonite, una sindrome da distress respiratorio acuto, sepsi e
uno shock settico fino ad arrivare al decesso del paziente.[1]

3.1.1    Eventi importanti in Italia

Partendo da alcune pagine web, tra cui quella di wikipedia [2], una delle prime ricerche che
ho fatto è stata quella degli eventi più importanti avvenuti negli ultimi anni con un focus per
gli eventi in Italia.
In questo prima sezione sul Covid-19 ho deciso di immettere tutti gli eventi che ho trovato
cercando su internet partendo da gennaio 2020 fino a giugno 2021.

Gennaio 2020

     • 23.01.2020: Il governo cinese mette in quarantena la metropoli di Wuhan

     • 30.01.2020: L’Organizzazione mondiale della sanità (OMS) ha dichiarato lo stato di
        emergenza globale

Febbraio 2020

     • 11.02.2020: È stato scelto il nome Covid-19

     • 21.02.2020: Primi casi in Italia, di persone non provenienti dalla Cina (focolai di
        Codogno, Castiglione d’Adda, Casalpusterlengo,...)

     • 22.02.2020: Vengono confermati i primi decessi da Covid-19 nel Lodigiano

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
15

Marzo 2020

   • Quattro candidati vaccini entrano nella valutazione umana

   • 04.03.2020: Scuole chiuse fino al 15 marzo in tutta Italia

   • 08.03.2020: Decreto per rendere Lombardia e altre 14 province "zona rossa" (escono
     le prime testate la sera prima)
     Da parte dei cittadini sono state intraprese spontaneamente delle iniziative simboliche
     di incoraggiamento e di supporto reciproco incoraggiamento e di supporto reciproco

   • 09.03.2020: Estensione della zona rossa in tutta Italia

   • 11.03.2020: L’Organizzazione mondiale della sanità (OMS) ha dichiarato la pandemia

   • 20.03.2020: Tutte le radio italiane hanno trasmesso in sincronia alle ore 11:00 quattro
     brani molto legati all’Italia nell’immaginario collettivo mondiale

   • 21.03.2020: Il governo ha predisposto la chiusura di tutte le imprese, industrie e
     attività economiche non essenziali

   • 22.03.2020: Nuovo DPCM vieta a tutte le persone di spostarsi in qualsiasi comune
     diverso da quello in cui si trovano

   • 31.03.2020: Alle ore 12:00 in tutta Italia è stato inoltre osservato un minuto di silenzio
     con bandiere a mezz’asta nei comuni, in ricordo dei deceduti per Covid-19

Aprile 2020

   • 26.04.2020: Possibilità di spostarsi per le visite ai congiunti (all’interno del territorio
     regionale), l’apertura dei parchi pubblici e la ripresa di diverse attività produttive

Maggio 2020

   • 18.05.2020: Riapertura esercizi commerciali

   • 25.05.2020. Riapertura dei centri sportivi

Giugno 2020

   • 03.06.2020: Possibilità di circolare per le regioni

   • 11.06.2020: Riapertura di teatri e cinema, centri culturali e sociali

   • 12.06.2020: Diverse Regioni cominciano a riaprire anche discoteche e sale da ballo

   • 15.06.2020: Lancio dell’applicazione Immuni, per il tracciamento dei contatti

   • 24.06.2020: La Cina ha approvato il vaccino CanSino

           Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
16                                                                                  Analisi bibliografia

Luglio 2020

     • -

Agosto 2020

     • 10.08.2020: Aumento dei casi causa apertura delle discoteche

     • 11.08.2020: La Russia annuncia l’approvazione del vaccino Sputnik V

     • 17.08.2020: Chiusura delle discoteche

Settembre 2020

     • 27.09.2020: I morti nel mondo superano il milione

Ottobre 2020

     • 08.10.2020: Diventa obbligatorio l’uso della mascherina sia nei luoghi all’aperto sia al
       chiuso

     • 13.10.2020: Limitazione delle possibilità di assembramento con regole precise per
       attività quali ristoranti, cinema, teatri, competizioni sportive, feste, cerimonie religiose
       e civili

     • 20.10.2020: Morto un volontario della sperimentazione del vaccino Pfizer

     • 22.10.2020: Istituzione di un coprifuoco dalle 22:00 alle 05:00 per Lombardia, Cam-
       pania, Lazio, Sicilia, Calabria e Piemonte

     • 26.10.2020: Vengono chiusi centri sportivi, cinema, teatri, musei, sale giochi e sale
       scommesse. La frequentazione di bar e ristoranti è consentita fino alle 18:00

Novembre 2020

     • 03.11.2020: Istituzione di un coprifuoco dalle 22:00 alle 05:00 per tutta l’Italia
       Zona arancione - vengono estesi il divieto di spostamento al di fuori del Comune di
       residenza e la chiusura dei servizi di ristorazione
       Zona rossa - vale il divieto di spostamento anche all’interno del proprio Comune, la
       chiusura di negozi e mercati e il ricorso alla didattica a distanza a partire dalla seconda
       media

     • 13.11.2020: Record di casi nelle ultime 24 ore: sono 40.902

     • 20.11.2020: Pfizer e BioNTech chiedono l’autorizzazione all’uso per il vaccino a mR-
       NA BNT162b2

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
17

Dicembre 2020

   • 02.12.2020: Si impongono inoltre restrizioni agli spostamenti fra Regioni nel periodo
     delle festività natalizie (dal 21.12.2020 al 06.01.2021)
     Il vaccino viene approvato in Regno Unito

   • 14.12.2020: Notizie fuorvianti sulla morte di 6 persone facenti parte della sperimenta-
     zione del vaccino Pfizer

   • 18.12.2020: Passaggio dell’intero territorio nazionale tra il 24 dicembre 2020 e il 6
     gennaio 2021 in zona rossa nei giorni festivi e prefestivi, e in zona arancione nelle
     giornate feriali

   • 21.12.2020: Il vaccino viene approvato nell’unione Europea

   • 22.12.2020: L’Agenzia Italiana del Farmaco (AIFA) ha autorizzato l’immissione in
     commercio del vaccino anti COVID-19 Pfizer/BioNTech Comirnaty in Italia

   • 23.12.2020: Morti “sospette” di persone che sono state vaccinate

   • 27.12.2020: Vaccine Day: Inizio distribuzione del vaccino in Italia e in Europa

Gennaio 2021

   • 01.01.2021: Riprende la didattica in presenza nelle scuole superiori al 50-75% (tranne
     nelle zone rosse)

   • 04.01.2021: La variante inglese è stata confermata in almeno 37 paesi nel mondo, tra
     cui l’Italia

   • 07.01.2021: Approvazione di Moderna. È il secondo vaccino COVID-19 autorizzato
     da AIFA

   • 13.01.2021: Inizio crisi del governo Italiano

   • 14.01.2021: Istituzione una "zona bianca" per le aree a basso rischio di contagio.
     Riapertura dei musei nei giorni feriali in zona bianca e gialla e il divieto di asporto per
     i bar dopo le ore 18:00

   • 18.01.2021: Fine crisi di governo

   • 26.01.2021: Conte rassegna le sue dimissioni

   • 30.01.2021: Approvazione da parte di AIFA del vaccino Astrazeneca

            Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
18                                                                                  Analisi bibliografia

Febbraio 2021

     • 13.02.2021: Draghi diventa il presidente del Consiglio dei ministri della Repubblica
       Italiana

Marzo 2021

     • 02.03.2021: Chiusura di scuole, parrucchieri ed estetisti nelle zone rosse, e in zona
       bianca e gialla la riapertura dei musei anche nel fine settimana
       Approvazione da parte di AIFA del vaccino Janssen

     • 10.03.2021: Diversi paesi interrompono la somministrazione del vaccino Vaxzevira di
       AstraZeneca

     • 15.03.2021: Istituzione di una zona rossa nazionale durante le festività pasquali (dal
       3 al 5 aprile).
       L’AIFA ha vietato l’utilizzo del vaccino AstraZeneca in tutta Italia per motivi precauzio-
       nali

     • 22.03.2021: Vengono ripristinate le zone gialle e viene prorogato lo stato di emergen-
       za fino al 31 luglio 2021

     • 27.03.2021: Riapertura di teatri e musei nelle zone gialle e bianche

Aprile 2021

     • 25.04.2021: Possibilità di spostarsi tra le regioni

Maggio 2021

     • 18.05.2021: Istituzione di una certificazione verde anche per coloro che hanno rice-
       vuto una sola dose di vaccino

     • 19.05.2021: Restrizione del coprifuoco, a partire dalle 23:00

Giugno 2021

     • 07.06.2021: Restrizione del coprifuoco, a partire dalle 24:00

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
19

3.1.2   Vaccinazioni

Un’altro punto molto importante della ricerca effettuata sono i vaccini contro il covid-19. Il
vaccino è progettato per fornire l’immunità contro il coronavirus e prevenire malattie sinto-
matiche solitamente gravi.
Al momento, secondo i dati presi da Wikipedia[3], ci sono 22 vaccini autorizzati dai governi
di vari paesi, di cui 6 sono stati approvati per l’emergenza o l’uso su vasta scala da almeno
una severa agenzia di regolamentazione riconosciuta dall’OMS.

In Italia, al momento, sono quattro i vaccini principali utilizzati e sono Astrazenica, John-
son&Johnson, Moderna ed infine Pfizer. I primi due vaccini utilizzano la tecnologia a vettore
virale mentre gli altri due sono a base di mRNA.
Citando ciò che dice l’AIFA "Un vaccino a vettore virale utilizza un virus (generalmente un
adenovirus incompetente per la replicazione) per portare all’interno della cellula la sequen-
za del codice genetico che codifica per la proteina spike. Il sistema immunitario si attiva
contro la proteina e produce degli anticorpi che, qualora il soggetto entrasse a contatto con
il virus, lo proteggeranno dall’infezione."[4]
Un vaccino a base di mRNA, invece sempre citando l’AIFA "I vaccini mRNA utilizzano mo-
lecole di acido ribonucleico messaggero (mRNA) che contengono le istruzioni perché le
cellule della persona che si è vaccinata sintetizzino le proteine Spike. Le proteine prodotte
stimolano il sistema immunitario a produrre anticorpi specifici."[5]

3.1.3 Novax

La posizione dei novax è la posizione di chi si oppone alla vaccinazione, soprattutto contro
i gruppi infantili, prendendo così posizione contraria alla tendenza unitaria della comunità
scientifica che ne sottolinea l’efficacia e la sicurezza.
Ad oggi, il più grande studio sul legame tra il cosiddetto vaccino e l’autismo è stato condotto
dallo Statens Serum Institut di Copenhagen su 6.57.461 bambini. Lo studio ha mostrato che
nella popolazione danese non vi era alcuna correlazione tra l’insorgenza del disturbo dello
spettro autistico e la vaccinazione pediatrica contro morbillo, parotite e rosolia.

Dall’emergere del fenomeno antivaccino, i sostenitori di queste idee hanno dimostrato di es-
sere riluttanti ad accettare dati scientifici ed empirici. Alcuni attribuiscono questa situazione
a un certo disordine della modernità, oppure a causa della grande quantità di informazioni
attualmente disponibili, è difficile per alcuni calcolare rischi e benefici delle cose. Molte carte
supportate dagli antivaccinisti si basano anche su teorie del complotto o sulla diffusione di
fake news.[6]

            Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
20                                                                                  Analisi bibliografia

3.2 Twitter
Citando Wikipedia "Twitter è un servizio americano di social network su cui gli utenti pubbli-
cano e interagiscono con messaggi noti come "tweet". Gli utenti registrati possono postare,
mettere mi piace e retwittare i tweet.
Gli utenti interagiscono con Twitter attraverso un browser o un software mobile mentre gli
sviluppatori possono interagire attraverso le sue API.
Twitter è stato creato da Jack Dorsey, Noah Glass, Biz Stone e Evan Williams nel marzo
2006 e lanciato nel luglio dello stesso anno. Nel 2012, più di 100 milioni di utenti hanno
postato 340 milioni di tweet al giorno, e il servizio ha gestito una media di 1,6 miliardi di
query di ricerca al giorno."

Come molti altri social media durante gli ultimi due anni, a causa delle regole ferree contro
il coronavirus, ha aumentato il numero di utenti 24,2% nel giro di un anno[7].

Come già introdotto nel paragrafo precedente, per comunicare ed estrarre informazioni esi-
stono delle API apposite per gli sviluppatori. Le API[8], forniscono gli strumenti necessari
per contribuire, impegnarsi e analizzare la conversazione che avviene su Twitter e, sia per
ricavare i dati sia per analizzare alcune informazioni ho dovuto abilitare l’accesso a questo
tipo di comunicazione.

Tra i diversi motivi per il quale ho dovuto utilizzare l’API vi è uno script, che descriverò
nel capitolo successivo, che ricava dato l’id di un’utente se quest’ultimo é stato sospeso o
meno.
Difatti, come per altri social media anche Twitter ha delle regole da rispettare. Queste
linee guida[9] riguardano la violenza, molestie e altri comportamenti di questo genere per
evitare che le persone si esprimano in un modo poco consono e per e per permettere a tutti
di partecipare alla conversazione pubblica liberamente e in sicurezza. Chi non rispetta le
queste regole base rischia la sospensione dal social media per tempi più o meno lunghi.

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
21

3.3    Dati utilizzati
I dati utilizzati sono di uno studio che il politecnico di Milano [10] sta svolgendo sui dati ri-
guardo alla discussione sul coronavirus in Italia. Uno dei motivi per il quale sono stati scelti
questi dati, oltre alla reperibilità, è stato che la possibilità di studiare dati così "vicini" al mo-
do di pensare e alla cultura che si può avere qui in Ticino, può sicuramente aiutare a poter
svolgere delle analisi più mirate riguardo alla discussione sul coronavirus.

A partire dal 20 dicembre 2020, il politecnico ha usato le API di Twitter per tracciare una
lista di parole chiave, che aggiornano di routine per catturare le discussioni di tendenza.

Per controllare i dati il team del politecnico di Milano monitorata la presenza di informazioni
a bassa e alta credibilità controllando i domini degli URL condivisi del dataset.
I siti web di notizie ad alta credibilità sono siti web di notizie mainstream, popolari e tradizio-
nali identificati tramite l’Agenzia Diffusione Stampa. I siti di notizie a bassa credibilità sono
estratti dalle blacklist compilate da fact-checkers.

3.4 Python
Python[11] è un linguaggio di programmazione generale di alto livello interpretato. La forza
di questo linguaggio di programmazione è la facilità di lettura e l’uso di indentazione signifi-
cativa. I suoi costrutti di linguaggio e il suo approccio orientato agli oggetti hanno lo scopo
di aiutare i programmatori a scrivere codice chiaro e logico per progetti piccoli e grandi.
Tra gli usi più comuni di questo linguaggio di programmazione vi é lo sviluppo di siti web e
software, per l’automazione dei compiti, l’analisi e la visualizzazione dei dati.

Per poter svolgere le analisi necessarie ad adempire ai compiti di questo progetto Python è
stato essenziale in quanto è un punto fermo nella scienza dei dati in quanto permette agli
analisti di dati e ad altri professionisti di utilizzare il linguaggio per condurre complessi cal-
coli statistici, creare visualizzazioni di dati, costruire algoritmi di apprendimento automatico,
manipolare e analizzare i dati e completare altri compiti relativi ai dati.

             Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
22                                                                                  Analisi bibliografia

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
23

Capitolo 4

Analisi as-is

Nel precedente capitolo abbiamo approfondito ulteriormente il tema del progetto, descriven-
do in particolare la situazione generale riguardo il Covid-19, l’utilizzo dei social media negli
ultimi anni ed, infine una descrizione generale delle tecnologie utilizzate per l’analisi del set
di dati.

In questo capitolo, invece, andrò a fare un resoconto della situazione attuale dello studio che
SUPSI ha già iniziato ad effettuare su questo dataset. Su questi dati, infatti, sono in corso
delle ricerche con l’obiettivo di capire come gli utenti malevoli condividono informazioni false
e si relazionano con gli altri utenti.

Più precisamente, quello che verrà trattato nel corso di questo capitolo, sono le analisi e
gli script che il team di lavoro SUPSI aveva già preparato per le loro analisi e che io ho
integrato agli studi che ho svolto.

Come visto nel capitolo precedente, i dati sono stati recuperati da un analisi svolta dal po-
litecnico di Milano ma, poiché l’obiettivo che si vuole raggiungere è lo stesso, ho deciso di
non trattare in questo capitolo le loro analisi.

Nei capitoli successivi approfondirò come ho gestito e affrontato le analisi svolte nel corso di
questo lavoro e, quindi, come ho integrato le informazioni che il team SUPSI mi ha fornito.

             Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
24                                                                                           Analisi as-is

4.1        Analisi condotte da SUPSI
Come già introdotto in precedenza, lo studio condotto da SUPSI ha lo stesso scopo che ha
il mio studio ovvero cercare di capire come la disinformazione sul vaccino contro il Covid-19
si diffonde all’interno del social media Twitter.

Per il motivo sovrastante, per alcuni studi, ho potuto riutilizzare del codice che il team di
SUPSI che sta lavorando a questo progetto ha sviluppato prima che iniziassi a lavorare sui
dati.
Nello specifico ciò che ho utilizzato anche per i miei studi è uno score calcolato sugli URL
che ogni utente ha condiviso e uno script che dato un set di utenti restituisce se l’utente é
stato sospeso o si é eliminato da Twitter.

4.1.1 Score sugli URL condivisi

All’interno del dataframe che ho studiato, tra le diverse feature ne è presente una che rag-
gruppa tutti gli URL contenuti all’interno di un tweet. Il team che ha lavorato sui dati, perciò,
ha utilizzato questa informazione per classificare gli utenti secondo le tipologie di URL che
ogni utente ha condiviso nel corso dei mesi.

Un link può essere classificato in tre categorie diverse che sono high per le fonti con cre-
dibilità alta, low per quelle con credibilità bassa ed infine none, che rappresentano tutti i
collegamenti che non sono stati classificati o che semplicemente non è possibile classifica-
re secondo la scala che il team ha usato. Il gruppo che si é occupato di classificare i link
condivisi,per l’appunto, oltre al buonsenso si è posto delle regole generali per poter rendere
la classificazione il più oggettiva possibile. Queste regole tengono conto di cinque diversi
fattori:

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
25

     • Chi si occupa del sito?
        È necessario capire di che tipologia è il dominio e chi si occupa della scrittura del
        contenuto. Il contenuto deve disporre di un’identificazione chiare ed esplicita con la
        disponibilità di per poter verificare le fonti facilmente.

     • Cosa tratta il sito?
        Il tipo di contenuto della pagina deve essere vero e autentico.

     • Come viene esposto il contenuto del sito? Il contenuto del sito deve essere obiettivo
        e senza presenza di alterazione della realtà

     • Da dove sono prese le informazioni?

     • Quando il sito viene aggiornato? Il contenuto deve essere sempre aggiornato rispetto
        al contesto dei temi trattati

     • Quelle lo scopo principale della pagina?

Oltre a questi fattori, vi sono delle regole che, chi si è occupato della classificazione ha
mantenuto per poter rendere questa categorizzazione più semplice.
Per quanto riguarda le fonti low credibility la direzione generale è quella di considerare tutti
blog personali (secondo il principio di non distinzione delle fonti) come domini a bassa cre-
dibilità.
Le fonti e i domini associati a siti istituzionali e a testate giornalistiche accreditate (seppur
con un chiaro schieramento politico o ideologico) sono state classificate come domini high
credibility.

Una volta che i link sono stati classificati poter produrre uno score diventa poi molto intuitivo.
Per l’appunto la formula che é stata utilizzata per calcolare questa graduatoria è il. semplice
rapporto:
                                                       U RLhigh
                                     cred_score =                                                    (4.1)
                                                      U RLtot_class
Dove:

     • cred_score: Credibilità di un’utente, dove 0 rappresenta una credibilità bassa e 1 una
        credibilità alta

     • U RLhigh : Numero di link classificati come "credibilità alta"

     • U RLtot_class : Numero totale di link classificati tra high e low

               Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
26                                                                                           Analisi as-is

Il team di lavoro, prima che iniziassi a lavorare anche con questi dati, ha precisato che, per
come sono stati classificati gli URL e gli utenti, vi sono alcune considerazioni importanti da
fare.

La prima considerazione da fare é che per poter classificare gli URL non esiste un metodo
diverso dal controllare manualmente ogni singolo link condiviso. Questo, oltre che essere
un lavoro poco stimolante risulta essere molto lungo, sopratutto se si calcola che all’interno
del dataset vi sono ben 15’726 link differenti condivisi e solo il 26% di questi URL é stato
classificato.
Secondariamente, come per gli hashtag, le informazioni che si possono estrarre dagli URL
sono volatili e, per questo motivo, ogni mese quelli più utilizzati possono cambiare e, quindi,
vanno aggiornati.
Infine, una persona che non é solita condividere link non può essere classificata o, ancora
peggio, può essere classificata erroneamente.

Fortunatamente le osservazioni che ho fatto prima, con una serie di accorgimenti non risulta-
no essere un grosso impedimento per la creazione di uno score che può essere considerato
utile per la classificazione degli utenti. Infatti, come si vedrà nel capitolo 6, questo punteggio
è molto attendibile per gli utenti classificati come high credibility.

Un primo accorgimento da fare è sul basso numero di URL che sono stati classificati. In-
fatti, andando a studiare l’effettivo utilizzo dei link, si può vedere che solo il 0,48% di questi
collegamenti (quindi poco più di 700) hanno un utilizzo totale maggiore di 100, e di questi
ben il 31% é stato categorizzato.
Dopodiché, per quanto riguarda la volatilità dei dati, l’unico grosso problema é quello che
ogni mese, o semplicemente ogni volta che vengono aggiunti dei nuovi dati la classificazio-
ne degli URL va aggiornata con i nuovi link più utilizzati.
Per concludere, per risolvere il problema di un’utente che può essere classificato erronea-
mente é possibile aggiungere una soglia sul numero minimo di collegamenti classificati che
un’utente deve condividere per poter essere classificato.

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
27

4.1.2 Script per utenti sospesi

Come per ogni piattaforma anche Twitter ha delle regole generali per poter utilizzare il so-
cial. Per l’appunto, come già approfondito nel sottocapitolo ??, vi sono delle linee giuda che
ogni persona deve rispettare e il mancato rispetto di queste regole può portare alla sospen-
sione degli account.

La concezione di questo script parte dal presupposto che anche all’interno del dataset stu-
diato ci siano alcuni account che sono stati sospesi e che perciò, in visione dell’obbiettivo
finale, sono persone interessanti da distinguere e studiare all’interno dei dati.

Prima di spiegare, a grandi linee, il funzionamento vero e proprio del codice é necessario
introdurre come è stato necessario preparare i dati e l’ambiente di sviluppo per poter ese-
guire il programma che SUPSI mi ha fornito.
Come già descritto nel capitolo precedente, twitter mette a disposizione per gli sviluppatori
delle api per poter accedere in modo privilegiato a tweet ed informazioni riguardo gli utenti
per poter permettere agli sviluppatori di analizzare il social media. Queste api, nello speci-
fico, sono utilizzate per ricevere informazioni riguardo allo stato attuale di un’utente dato il
suo id.
Oltre a queste interfacce, per poter utilizzare lo script, è necessario installare una serie di
librerie di Python, le quali alcune sono presenti all’interno del file "requirement.txt".
Per quanto concerne il formato dei dati da fornire allo script è solamente necessario fornire
gli id degli utenti che si vogliono studiare per poi ricevere in output il file con le informazioni
riguardanti i singoli utenti.

Come già introdotto nel paragrafo precedente, l’uso dello script é molto semplice, infatti dan-
do in input una serie di id si riceve in uscita un secondo file. Questo secondo file contiene,
insieme all’identificativo dell’utente, un codice che mostra se l’utente é stato sospeso, si è
rimosso da twitter o se semplicemente non ha avuto problemi.
Per poter funzionare in questo modo, all’interno dello script, per ogni id, viene mandata una
richiesta tramite api a twitter che dopo, inseme al resto delle informazioni riguardanti gli
utenti, restituisce uno dei tre codici che sono stati descritti in precedenza.

             Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
28                                                                                           Analisi as-is

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
29

Capitolo 5

Metodologia

Il capitolo precedente, ha trattato la situazione di partenza del progetto, in quanto questo
studio è già stato iniziato da SUPSI.
In questo capitolo tratterò quindi il modo in cui ho deciso di affrontare il lavoro e quindi i
ragionamenti fatti per poter arrivare all’obiettivo finale ovvero quello di trovare e studiare i
diversi gruppi di utenti presenti nei dati studiati.

Come già descritto precedentemente, il lavoro di studio si é evoluto nel tempo progressi-
vamente che le analisi procedevano e, per questo motivo, all’interno di questo capitolo ho
deciso di descrivere come progressivamente sono arrivata verso l’obiettivo finale.
Ad accompagnare questa descrizione testuale consiglio di prendere visone della sezione
piano di lavoro presente alla fine del documento, che contiene una visualizzazione grafica
degli obiettivi descritti all’interno di questo capitolo.

Il documento continuerà poi con il processo di risoluzione vero e proprio che è stato svolto
all’interno del progetto, andando a descrivere in modo dettagliato le analisi introdotte in
questo capitolo.

             Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
30                                                                                           Metodologia

5.1     Descrizione dell’approccio
Quando ho iniziato a studiare i dati, prima di avere tutti i file .csv dei mesi presenti nei dati
forniti dal politecnico di Milano, ho iniziato le mie analisi su un campione di 5’000 dati. Su
questo sample di dati ho iniziato a studiare generalmente l’andamento dei dati, in modo da
poter, una volta ottenuti i dati completi, potesse essere possibile iniziare le analisi nel modo
più veloce possibile.
Gli studi svolti durante le prime settimane di lavoro hanno riguardato l’analizzare gli utenti
e come nel corso dei mesi si sono relazionati a twitter. Dopodiché, sempre per le analisi
riguardanti gli utenti, ho cercato di capire le loro abitudini e, quindi, che tipo di contenuto
preferissero. Quando parlo di tipo di contenuti non intendo solamente i tweet, retweet e le
reply ma anche il contenuto vero e proprio del post come le menzioni, gli hashtag ed i link
condivisi.

Qualche settimana dall’inizio dello studio ho ricevuto l’accesso al set di dati completi e ho
potuto iniziare a studiare il dataframe completo. Uno dei primi passaggi che ho dovuto svol-
gere è stato l’unire i dati, in quanto erano divisi per mesi, e il passaggio dalle analisi svolte
sul sample a quelle su tutti dati. Questo passaggio, ha portato via molto tempo in quanto
molte delle analisi svolte in precedenza non potevano essere svolte sul dataset completo.
Mentre pensavo a come risolvere il problema, ho continuato le analisi sui dati che non mi
davano molti problemi, in quanto non avevano bisogno di molto tempo per eseguire ed ho
iniziato ad utilizzare lo script per ricavare gli utenti sospesi descritto nel capitolo precedente.

Una volta risolto il problema che avevo con la lentezza del codice che avevo scritto ho potuto
iniziare a concentrarmi su studi più mirati. Queste analisi più mirate potevano essere ese-
guiti su diverse features come il testo, gli URL, gli hashtag ed infine le iterazioni tra gli utenti
(perciò le menzioni, i retweet e le reply ). Avendo poche conoscenze nell’ambito dell’analisi
testuale e avendo, grazie al team SUPSI, un analisi avanzata dei link mi sono concentrata
sugli hashtag prima e sui retweet poi.

Lo studio sugli hashtag, come per quello riguardanti gli utenti, è partito da uno studio di
quelli più utilizzati e di come, nel tempo venissero utilizzati da tutti gli utenti. Come descri-
verò anche nel capitolo successivo, é stato subito palese che, senza un filtro sugli hashtag
più comuni sarebbe stato impossibile trovare degli hashtag che potessero essere usati da
utenti malintenzionati. Per questo motivo, prima di cercare hashtag sospetti ho dovuto ri-
muovere dal dataset tutti quelli che risultavano poco interessanti come quelli comuni o che
riguardassero la politica.

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
31

L’applicazione di quello che si può definire filtro mi ha portata a trovare un’insieme di hash-
tag che, controllando manualmente su Twitter, venivano utilizzato per la maggior parte da
utenti con un’ideologia novax. Perciò, grazie a questo insieme di hashtag sono riuscita a
creare, anche se molto ridotto, un piccolo gruppo di utenti contro il vaccino anticovid.
Una volta visto il funzionamento di questo metodo, ho provato ad aumentare il numero di
hashtag sospetti controllando quelli che venivano utilizzati da utenti che erano stati sospesi
e degli hashtag che venivano utilizzati spesso insieme a quelli "sospetti". Purtroppo entram-
bi gli approcci si sono rivelati poco efficienti. In aggiunga a questo c’è da aggiungere che
gli hashtag, come gli URL, sono delle informazioni volatili e che quindi, ad ogni aggiunta di
nuovi dati, le informazioni trovate in passato sarebbero state da aggiornare.

Sotto consiglio dei relatori, e dato l’accantonamento dello studio sugli hashtag sospetti, ho
ripreso le analisi riguardanti gli account. Queste analisi mi hanno portata a provare a segui-
re la strada del provare a studiare gli utenti più attivi all’interno del dataframe.
Con mia grande sorpresa, controllando manualmente gli account in questione, mi sono re-
sa conto che gli utenti più attivi all’interno dei dati sono novax. Non potendo analizzare il
testo usando il sentimental analysis, oltre agli account più attivi ho studiato anche quelli più
retweet e, anche in questo caso la maggior parte di questi utenti sono novax.

A questo punto, avendo capito che l’uso delle iterazioni tra gli utenti poteva essere un buon
modo per la creazione di gruppi, ho provato a trovare nello stesso modo degli utenti novax,
anche gli utenti che possono essere visti come gli "antagonisti" dei novax ovvero quelli che
ho poi denominato high credibility.
Questi utenti con credibilità alta sono stati trovati tra gli utenti che hanno verificato il proprio
account e, per la maggior maggior parte sono personaggi pubblici e testate giornalistiche di
successo.

Una volta aver trovato le persone più famose per entrambi i gruppi di utenti classificati, è
stato possibile creare le due "fazioni". Per creare questi due gruppi ho usato le informazioni
che si possono ricavare dai retweet.
Inizialmente ho provato ad inserire nei rispettivi gruppi tutti gli utenti che venivano "retwee-
tati" almeno una volta da un utente "famoso", nel rispettivo gruppo. Il risultato, però è stato
poco utilizzabile in quanto, controllando gli utenti inseriti nei due gruppi, ve ne erano molti
che venivano classificati erroneamente.
Per il mio secondo tentativo ho utilizzato, seguendo l’idea data dalla classificazione de-
gli URL, di creare uno score calcolato sul numero di volte che un’utente qualsiasi ha ret-
wettato un utente di un determinato gruppo. Questo approccio è stato poi quello che ho
effettivamente utilizzato per la creazione dei gruppi.

             Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
32                                                                                           Metodologia

Dal momento in cui ho creato i gruppi ho potuto iniziare a studiarli singolarmente e ho potuto
iniziare a capire come questi relazionassero tra di loro. Queste analisi le ho svolte in parte
nello stesso modo in cui ho svolto quelle per tutto il dataset e in parte su come gli utenti
preferissero comunicare tra di loro (perciò tramite i retweet e le reply ).

Per concludere le analisi ho deciso, sotto consiglio dei relatori, di creare una network se-
guendo i retweet. Questa retweet network mi ha permesso di aumentare il numero di utenti
presenti all’interno dei gruppi e di classificare correttamente alcuni account che erano stati
riconosciuti sia come high credibility sia come novax.

Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
33

Capitolo 6

Risoluzione

Nel capitolo precedente ho trattato le metodologie adottate per questo progetto, spiegando
come, analisi dopo analisi, sono riuscita ad arrivare al risultato finale.
In questo capitolo descriverò in dettaglio le analisi che sono state introdotte nel capitolo
antecedente per arrivare al risultato finale ovvero quello di poter analizzare i diversi gruppi
di utenti per poterli poi analizzare ed, infine, capire i diversi modi di approcciarsi al social
media Twitter.

Lo svolgimento dello studio, come già spiegato nei capitoli precedenti, è iniziato cono un’a-
nalisi iniziale di tutto il dataframe. Questa analisi è stata fatta, inizialmente, su tutte le
features presenti all’interno del dataframe, ma, più precisamente, mi sono concentrata sugli
attribuiti che riguardano gli utenti, il tipo e contenuto del tweet ed infine metodo di creazione
di contenuti.
Dopodiché, una volta capito l’andamento generale dei dati, ho potuto dividere gli utenti in
tre diversi i novax, gli high credibility ed infine quelli che non sono stati classificati che ho
denominato other.
Infine, una volta creati i gruppi, ho potuto studiarne i diversi comportamenti per poi iniziare
a capire in che altri modi fosse possibile distinguere gli utenti nei due gruppi interessanti
(quindi i novax e gli high credibility ).

Dopo aver descritto ampiamente il percorso e gli studi seguiti, nel prossimo capitolo fornirò
un’analisi critica dei risultati ottenuti, considerando anche le criticità del progetto e le possibili
migliorie.

             Analisi dell’opinione pubblica sui social media nel dibattito relativo ai vaccini Covid-19
Puoi anche leggere