L'uso dei big data nella comunicazione politico-elettorale - IRIS

Pagina creata da Nicolo' Meloni
 
CONTINUA A LEGGERE
Rosanna De Rosa
           L’uso dei big data nella
           comunicazione politico-elettorale
           La previsione di voto
           nelle presidenziali francesi 2017
Saggi

            THE USE OF BIG DATA IN POLITICAL-ELECTORAL COMMUNICATION. THE VOTING PREDICTION
            IN THE FRENCH PRESIDENTIAL ELECTIONS 2017. The introduction of big data technologies
            in the political promises a greater control of the electoral campaign at every stage: from
            planning to defining the agenda, from building consent to monitoring results. Big data are,
            in fact, an effective tool for electoral profiling, especially when combined with structured
            databases and psychometric techniques. However, it is on the ground of the voting forecast
            that the real effectiveness of big data is being measured starting from the search for the
            perfect algorithm for the analysis of heterogeneous data. This article intends to contribute
            to the debate on the uses and perspectives of big data with a critical analysis of their use for
            electoral forecasting. The case examined is that of the 2017 French presidential elections,
            in particular it will be analysed voting forecasts produced during the election campaign for
            the first round qualification.

            Keywords: big data, vote forecast, French presidential elections, professionalisa-
            tion, electoral campaign.

              Quando nel corso della campagna presidenziale di Barack Obama nel 2012
si sentì parlare per la prima volta del progetto Narwhal e di come e perché l’integra-
zione di banche dati diverse avesse contribuito alla vittoria di Obama (Slaby, 2013; De
Rosa, 2014) furono in molti a pensare che la comunicazione politico-elettorale stesse
muovendo i suoi primi passi verso l’El Dorado. La creazione di un unico contenitore di
dati provenienti da fonti digitali rendeva finalmente possibile la messa a punto di una
strategia di campagna che fosse cost-effective che, cioè, a parità di costo consentisse
di raggiungere e coinvolgere nella campagna un numero nettamente maggiore di
supporter e donatori e, allo stesso tempo, fosse time-efficient che, cioè, contribuisse a
comprendere – quasi in real time – l’umore dell’elettorato e la sua risposta ai messag-
gi politici, riducendo, di conseguenza, i tempi di reazione della cosiddetta war room

ComPol      Comunicazione Politica 2/2018, 199-226
  199       ISSN 1594-6061   
            @ Società editrice il Mulino
Rosanna De Rosa

(Scammel, 1997; Mazzoleni, 2012). La metafora «Big Data is the new oil» ci mette di
fronte ad una ghiotta opportunità per estrarre valore da uno smisurato giacimento in-
formativo (Anderson, 2008). Tuttavia, né la metafora dell’El Dorado né quella del new
oil sembrano riuscire a rendere ragione di un processo che ha più a che fare con la
coltivazione – sperimentale, complessa e ricorsiva – del ragionamento probabilistico
e scientifico che con il mero sfruttamento di una inesauribile vena d’oro (Thorp, 2012;
Kitchin, 2014; Boyd e Crawford, 2012; Hesse, Moser e Riley, 2015; Collins, 2010). Que-
sto articolo intende contribuire al dibattito sugli usi e sulle prospettive dei big data a
partire da un’analisi critica del loro utilizzo nella previsione elettorale, banco di prova
della affidabilità dei metodi di analisi computazionale. Il caso esaminato è quello del
primo turno delle presidenziali francesi 2017.

1.            La nuova frontiera della comunicazione politico-elettorale

             La data-driven campaign è l’ultima novità in fatto di strategie politiche-
elettorali, novità che si inserisce nel solco della professionalizzazione della politica
(Scammel, 1997; Negrine e Lilleker, 2002) quando la conquista del consenso ha ini-
ziato ad essere affidata alle tecniche di marketing politico, alla personalizzazione del
discorso e ad un livello crescente di sofisticazione tecnologica (Blumler et al., 1996).
La specializzazione delle attività di campaign è una delle dimensioni evidenziate in
letteratura per sottolineare il cambio di paradigma, da campagne basate sul lavoro
di volontari e militanti a campagne con un decisivo impiego di esperti e tecnologie,
che quindi implicano più forti investimenti finanziari. I dati longitudinali sulle presi-
denziali americane dal 1960 sono impietosi nel mostrare l’andamento in tendenziale
crescita delle spese elettorali con una decisa impennata nelle presidenziali 2006 e,
ancor più, nelle presidenziali 2008 e 2012, quando Obama sfidava prima McCain e
poi Romney1. Tale andamento è confermato anche dai dati normalizzati all’inflazione,
alla crescita della popolazione e al reddito medio. Un trend che subisce una battuta
d’arresto – senza però doppiare i livelli del 2006 – nella recente horse race fra Donald
Trump e Hillary Clinton. Saremo in grado di comprendere se si tratta di un’anomalia
o di un effetto dell’affinamento delle tecniche di campaign solo fra qualche anno, e
qualche campagna in più. Il dato però non ci coglie di sorpresa perché, appunto, va
crescendo l’attenzione dei partiti verso tecniche di campagna cost-effective e time-
efficient, basate sul combinato disposto della maggiore pervasività dei social media

              1
               I dati sono stati elaborati da metrocosm.com a partire da dati ufficiali: http://metrocosm.
com/2016-election-spending.

ComPol
  200
L’uso dei big data nella comunicazione politico-elettorale

e della accresciuta disponibilità di dati. L’uso scientifico dei dati entra a pieno titolo
nell’organizzazione delle campagne elettorali come risposta alla difficoltà dei sondag-
gi di prevedere il comportamento di voto, segnando forse un primo decisivo passaggio
verso quella che già oggi viene definita «the new augmented age of computational
propaganda» (Woolley e Guilbeault, 2017: 4).
              Swanson e Mancini (1996) avevano intravisto nella scientificizzazione del
processo di voto la possibilità per assicurare la vittoria elettorale a partiti sempre
meno caratterizzati ideologicamente e sempre più in balia della volatilità elettorale
(Kirchheimer, 1966). Con un’importante differenza. A quel tempo comprendere scien-
tificamente il mercato politico significava attingere al bagaglio di conoscenza ac-
cumulata dalle scienze sociali in oltre cinquant’anni di analisi del comportamento
di voto, oppure applicare i principi del marketing commerciale, che aveva intanto
raggiunto livelli di formalizzazione tali da meritarsi la definizione di partial-science
(Kotler, 1981). Oggi comprendere scientificamente i comportamenti di voto significa
attingere a piene mani alla cosiddetta folk wisdom, al bagaglio di conoscenza che
risiede presso il popolo ordinario, e che è il risultato della radicale espansione dello
spazio pubblico (Cardon, 2011).
              L’introduzione dei big data nell’armamentario dello stratega politico pro-
mette un controllo ancora maggiore dell’organizzazione delle campagne elettorali,
dalla pianificazione alla definizione dell’agenda, dalla costruzione del consenso al
monitoraggio dei risultati. Essi rappresentano la traduzione informativa delle attività
umane, che espande i confini dell’universo quantificabile e prospetta la progressiva
datificazione della società (Mayer-Schönberger e Cukier, 2013). Poiché garantiscono
quella velocità di feedback che né la ricerca sociale né il marketing sono mai riu-
sciti ad assicurare, consentono di affrontare il clima di incertezza elettorale meglio
attrezzati. Dall’individuazione di quei segmenti di elettorato non rappresentato alla
definizione di target sempre più specifici, fino alla discriminazione fra indecisi, likely
voters e supporters, i big data diventano quella sponda tecnologica che le campagne
post-moderne stavano aspettando.
              Strategie di campaign possono essere costruite a partire dalla profilazio-
ne degli elettori per determinare, con ragionevole certezza, quali elettori siano di-
sponibili a supportare un candidato e con quale grado di coinvolgimento. Incrocian-
do i dati demografici contenuti nei database dei partiti e attribuendo un punteggio
ad azioni quali il voto passato, le donazioni effettuate, la partecipazione a campagne
di mobilitazione politica, le opinioni espresse, gli stili di consumo culturale, di beni e
servizi, i discorsi e i comportamenti sui social media, è possibile attribuire a ciascun
elettore uno score per categoria di impegno politico. Il behaviour score consente di
quantificare la disponibilità degli elettori ad attivarsi nelle attività di campagna. Il

ComPol
  201
Rosanna De Rosa

support score di prevedere le preferenze politiche ed elettorali dei cittadini; il re-
sponsiveness score di individuare quali individui rispondono a quali sollecitazioni
persuasive. In altre parole, questi punteggi aiuterebbero a discriminare con sufficien-
te precisione gli elettori in supporters, likely voters e indecisi. Ad un livello di analisi
più approfondito, i predictive score consentono, infine, di stimare quanti voti una
specifica attività o una specifica constituency potrebbero generare e a quale costo
(Nickerson e Rogers, 2014). Perso il tradizionale ancoraggio al sistema broadcast dei
media, le moderne teorie della persuasione fanno leva sul singolo individuo ponendo
l’elettore all’inizio della catena della comunicazione. Occore conoscere di più del
potenziale elettore per poterlo raggiungere con messaggi sempre più efficaci. È la
cosiddetta «campagna di precisione».
             I big data si configurano come uno strumento molto efficace di profilazio-
ne degli elettori se affiancati ad un database strutturato e a tecniche psicometriche.
Il database degli elettori non solo resta centrale ma, integrato da una notevole mole
di tracce digitali, consente quella personalizzazione della campagna che i media non
possono garantire. Per fare un esempio, Liegey Muller Pons è la start up che ha orga-
nizzato la campagna porta a porta di Macron per En Marche!. La start up ha utilizzato
gli open data disponibili per comprendere dove Macron avrebbe dovuto concentrare
gli sforzi maggiori e come combinare le attività porta a porta con la campagna social,
nella consapevolezza che il comportamento di voto non si cambia con la propaganda
online ma che i social media sono un insostituibile strumento di mobilitazione e di
supporto organizzativo. Inoltre, grazie proprio ai volontari reclutati per l’attività di
contatto (300.000 visite porta a porta), la start up ha potuto condurre una rilevazione
di opinione su ampia scala con domande aperte (25.000 interviste) per ottenere una
rappresentazione più realistica possibile del dibattito politico sul territorio.
             È quindi il data scientist ad avere ora in mano le chiavi della campagna:
elabora modelli sulla base dei quali partiti e candidati agiranno concentrando strate-
gicamente le attività in alcune aree elettorali o privilegiando un particolare segmento
di elettorato, individua sensitive-issues da immettere nel dibattito e monitora i flussi
di opinione fino ad istruire strategie più invasive di computational propaganda. La
computational propaganda è, infatti, l’uso strategico, mirato e soprattutto combinato
di algoritmi, automazione e content curation per diffondere informazioni strategiche
attraverso i social media ed ottenere gli effetti sperati. Secondo una ricerca dell’Ox-
ford Internet Institute, effettuata in ben nove paesi dal 2015 al 2017, i social media
sono stati utilizzati attivamente per manipolare l’opinione pubblica per finalità di
controllo sociale – come avviene sistematicamente in Russia e Cina – o per mani-
polare il consenso, come svelato dal caso «Cambridge Analytica» per la vittoria di
Trump. Le stesse strategie di computational propaganda sono state utilizzate anche in

ComPol
  202
L’uso dei big data nella comunicazione politico-elettorale

Brasile per le elezioni del 2014 e per influenzare il processo di impeachment di Dilma
Rousseff (Woolley e Guilbeault, 2017).
             L’uso dei big data nella previsione di voto è un tema sul quale la lette-
ratura ha appena iniziato a riflettere (Ceron, Curini e Iacus, 2017) mostrando più di
qualche cautela (Tumasjan, Sprenger, Sandner e Welpe, 2010). Nel 2010, un’inda-
gine condotta presso la Technical University di Monaco sulle elezioni federali del
2009 dimostrò una correlazione molto forte fra comportamento di voto e quantità
di menzioni degli attori politici via Twitter. Tuttavia, ai primi tentativi di replicare la
ricerca i risultati si rivelarono diametralmente opposti sottolineando alcuni dei limiti
nell’uso di tali dati (Jungherr, 2015). Il limite principale di tale applicazione è che
il pubblico analizzato difficilmente rappresenta l’opinione pubblica o una specifica
constituency, anzi in casi di rilevanza internazionale come le lezioni presidenziali
Usa, la controversia politica e il dibattico pubblico sono tali da valicare i confini
strettamente nazionali ampliando la sfera discorsiva analizzata che così non coinci-
de più con quella che vota (ibidem). Il suo vantaggio è, invece, che l’analisi del data
stream costituisce quel valore aggiunto che consente di cogliere le «vibrazioni» del
corpo sociale, vibrazioni che nessun metodo tradizionale può cogliere nel suo diveni-
re, in molti casi anticipando – piuttosto che prevedendo – il presente (Boullier, 2015;
Choi e Varian, 2012). Una distinzione questa – fra anticipare e prevedere – che ha,
come vedremo, importanti implicazioni.
             Ci troviamo dunque di fronte ad una prammatica della comunicazione
elettorale che risponde al processo di secolarizzazione della politica con l’ingegneria
del consenso, da un lato, e l’applicazione di strategie di computational propaganda,
dall’altro. Entrambe si fondano sulla ricerca dell’algoritmo perfetto che, nella previ-
sione di voto, deciderà anche del futuro dei sondaggi.

2.             Prevedere il voto: la probabilità e i suoi limiti

             L’adozione dei nuovi metodi computazionali non ha cambiato in maniera
radicale il modo in cui le campagne elettorali vengono condotte (Nickerson e Rogers,
2017). L’obiettivo è sempre vincere le elezioni sulla base di modelli predittivi affida-
bili ricavati da una estesa raccolta di dati e informazioni sui comportamenti di voto
passati e le preferenze correnti. Tuttavia, la potenza di calcolo raggiunta dalle nuove
tecnologie è ormai alla portata di tutti e sta facilitando la diffusione di capacità ana-
litiche e statistiche anche presso i cittadini-elettori, che a loro volta sono in grado di
mettere in atto comportamenti strategici politicamente finalizzati. I modelli di pre-
visione si muovono ora in un ambiente magmatico dove la percentuale di «tracce» (o

ComPol
  203
Rosanna De Rosa

rumore) disponibile tende a superare quella dei «segnali», trasformando la campagna
elettorale in una partita a scacchi multiplayer (Chadwich, 2013).
             È il giusto accoppiamento di segnali e tracce a determinare l’efficacia di
un modello previsionale. Ma cosa sono i segnali e quali le tracce? Cardon distingue
le informazioni esplicite – come un account Facebook – da quelle implicite come la
registrazione di click, percorsi di navigazione, like ecc. Gli algoritmi più efficaci sono
quelli che riescono ad accoppiare «strettamente segnali di informazioni a tracce di
azioni o che si servono delle tracce per trovare la migliore relazione tra i segnali»
(Cardon, 2016: 52).
             Il metodo solitamente utilizzato per realizzare modelli previsionali è il
metodo Bayes della probabilità inversa. In ambito elettorale, il metodo calcola la pro-
babilità di un certo esito elettorale sulla base delle performance di voto precedenti e
della probabilità che un insieme di variabili incidenti possano influenzare l’esito previ-
sto. In questi modelli stimare l’errore è fondamentale come lo è identificare e misurare
le differenti variabili in gioco. Per fare un esempio, ci sono modelli di previsione del
voto nelle elezioni presidenziali americane che considerano i risultati ottenuti nei sin-
goli stati come indipendenti fra loro. Nate Silver, il celebre blogger di «fivethirtyeight»,
previde correttamente il risultato delle presidenziali di voto 2008 in 49 su 50 stati
considerando non indipendente il voto nei singoli stati, quindi formulando ipotesi a
priori di interdipendenza. Inoltre, considerando i dati delle tornate elettorali prece-
denti, i sondaggi elettorali stato per stato, e calcolando anche la probabilità che tali
sondaggi fossero più o meno sbagliati in ragione dell’accuratezza mostrata in passato,
Silver riuscì a creare un modello probabilistico che tenesse sempre conto della per-
centuale di errore nel calcolo delle probabilità di tutte le variabili considerate.
             In The Signal and the Noise, Silver spiega come l’errore più comune, nelle
previsioni basate sul calcolo delle probabilità, fosse anche il più banale: la sottovalu-
tazione sistematica dello standard error con la conseguente creazione di falsi positivi
o di falsi negativi (Silver, 2012; Goldberg, 2013). Accade però che anche quando il
range di errore è disponibile e correttamente calcolato, per ragioni mediatiche questa
informazione viene taciuta perché considerata ingombrante, ingenerando nelle previ-
sioni politiche (e, naturalmente, nella vulgata social) una spirale di false aspettative.
Come è, infatti, accaduto nelle elezioni presidenziali del 2008 quando, nonostante
da settembre tutti i sondaggi dessero per vincente Barack Obama su John MacCain
e lo stesso Nate Silver con il suo modello rilevasse una probabilità dell’oltre il 95% a
favore di Obama, nelle più note trasmissioni televisive si continuava a sostenere la tesi
che gli indecisi avrebbero «deciso» il voto e che i candidati fossero «too close to call».
             Questa tendenza a sottovalutare la forza incidente di ciascuna variabile
presa in considerazione e il relativo standard di errore tende a peggiorare con l’uso dei

ComPol
  204
L’uso dei big data nella comunicazione politico-elettorale

big data che renderebbe superflua la formulazione di ipotesi a priori a favore del rile-
vamento di tutte le possibili correlazioni fra dati e variabili anche molto eterogenee.
In un ambito in cui il rumore tende a prevalere, come avviene in politica e in econo-
mia, le inferenze sono invece tanto più solide quanto più sono ancorate alle ipotesi
(Silver, 2012). Naturalmente più aumenta la massa di informazioni, maggiore è la loro
eterogeneità e più ipotesi o microteorie vanno formulate o investigate. Anche quando
dai dati emergono centinaia di possibili correlazioni da approfondire, quelle veramen-
te significative sono poche e, soprattutto, provenienti da insiemi di dati talmente ibri-
di da non consentire più una stima corretta dell’errore. È principalmente per questo
motivo che i modelli previsionali basati su big dati vengono affiancati dalle tecnologie
di machine learning, capaci di restituire quei microcontesti da cui sono stati estratti
i dati e contribuire così alla scelta a posteriori della migliore teoria testando migliaia
di ipotesi contemporaneamente (Cardon, 2013: 50). Occorre però fare una conside-
razione importante: le tecnologie di machine learning si muovono alla ricerca di re-
golarità statistiche sulla base della teoria generale che le azioni degli individui siano
appunto «regolari e prevedibili». I comportamenti sociali sono in effetti maggiormente
quantificabili ma non necessariamente prevedibili perché le stesse tecnologie che
consentono il monitoraggio in tempo reale delle azioni umane permettono anche il
completo stravolgimento delle modalità di relazione, con l’adozione di comportamenti
strategici, l’aumento esponenziale del rumore e la moltiplicazione fittizia dei segnali
(es. profili fake e bots) ampliando, così, il margine di errore dei modelli previsionali. I
casi delle elezioni presidenziali americane e francesi sono in tal senso molto significa-
tivi sia per l’influenza esercitata dalle tecniche di computational propaganda che per
il fallimento dei modelli previsionali basati sui big data.
              Un’ultima considerazione concerne il noto principio di indeterminazione
di Eisenberg applicato ai big data: tale principio ipotizza una relazione fra durata della
misurazione e precisione del risultato, per cui più lunga è la misurazione più precisi
saranno i risultati. Laddove la durata della misurazione tende ad essere breve o, ad-
dirittura, in tempo reale è la quantità di dati a dover sopperire al limite del tempo.
Ma quanto grande debba essere l’universo da esaminare per poter garantire risultati
robusti è un’informazione rimasta anch’essa ad un certo livello di «indeterminatezza».
              In sintesi, l’applicazione dei big data soffre di limiti a monte, durante e a
valle della realizzazione di modelli previsionali. A monte la mancata formulazione di
assunzioni a priori non consente la corretta gestione della probabilità che un fatto
possa effettivamente verificarsi, che possa verificarsi per l’incidenza di una o più va-
riabili, e che tale incidenza sia soggetta ad una certa probabilità di errore. Nel corso
delle analisi, la durata della misurazione può influenzare pesantemente i risultati, e
questo è tanto più evidente quanto più i ritmi delle campagne elettorali e la richiesta

ComPol
  205
Rosanna De Rosa

di analisi quasi in tempo reale da parte di media e campaign strategist si fa pressante.
A valle, l’uso dei big data può produrre falsi positivi, ingenerare una percezione distor-
ta della realtà ed aspettative che vengono poi amplificate dai social media con effetti
imprevedibili. Quel che è peggio è che i comportamenti ingenerati da una percezione
distorta restituiscono ovviamente un quadro statistico ampiamente biased.

3.                Alla ricerca dell’algoritmo perfetto: i big data nelle elezioni
                  presidenziali francesi

             Le elezioni presidenziali 2017 sono state considerate una delle tornate
elettorali più incerte e competitive della V repubblica francese2 con 11 candidati e un

Figura 1. Intenzioni di voto, media dei sondaggi. Presidenziali francesi primo turno
  30

  20

  10

     0
                       6-    13-    20-    27-     6-    13-    20-    27-     3-    10-    17-    23-
                      M02    M02    M02    M02    M03    M03    M03    M03    M04    M04    M04    M04

         Le Pen       25,2   25,9   26,6   26,3   26,5   26,2   26,4   25,2   25     23,8   22,3   22,1

         Macron       21,5   21,2   19,6   23,6   24,8   25,2   25     25     25,1   23,3   23,1   24

         Fillon       19,4   18,8   19,5   20,3   18,9   19,7   18,1   18,3   18,2   18,5   19,3   19,6

         Mélenchon    10,8   11,4   11,7   11     11,4   11,5   11,6   13,8   15,1   18     19,2   18,9

         Hamon        15,5   14,9   17,4   13,8   14,4   13,7   13     10,9   10,1   8,8     8     7,3

Fonte: The Telegraph

             2
               Dominique Moisi, esperto di politica francese, in un discorso presso l’Association of
European Journalists.

ComPol
  206
L’uso dei big data nella comunicazione politico-elettorale

Figura 2. Sondaggio Ipsos-Cevipof su campione rappresentativo di 1.000 persone
  30

  25

  20

  15

  10

   5

   0
                      7-12 febbraio       1-5 marzo          6-7 marzo   14-15 marzo      21-22 aprile

        Le Pen              26                27                27            27               25

        Macron              23                25                23            26               25

        Fillon             18,5              17,5              19,5          17,5             17,5

        Mélenchon          14,5               14               13,5          12,5              10

        Hamon               12               11,5               12           11,5              15

giovanissimo aspirante all’Eliseo che – pur promettendo il cambiamento – si poneva
come l’unico vero baluardo contro le tendenze sovraniste, difendendo l’idea di una
nazione aperta e solidale. I sondaggi fin dal mese di Febbraio segnalavano il duello
serrato fra due soli contendenti – Marine Le Pen per il Front National e Emmanuel
Macron per la nuova formazione politica En Marche! – con una forbice iniziale di
quasi 5 punti percentuali a favore di Le Pen3, un periodo di sostanziale prossimità
tra i due, ed un trend che, invece, si concludeva a favore di Macron con una distanza
dell’1,9% dalla Le Pen (figg. 1 e 2)4.
             Dopo i fallimenti con la Brexit, la vittoria di Trump e lo choc del 2002,
quando i sondaggi non segnalarono l’ascesa paurosa di Jean Marie Le Pen che si qua-
lificò al secondo turno contro Chirac, i sondaggi sono stati spesso criticati, talvolta
derubricati a tecnologia obsoleta. Questo ha spinto i media a dedicare maggiore at-

               3
                 HuffPost Pollster, French Presidential Election, http://elections.huffingtonpost.com/poll-
ster/france-presidential-election-round-1.
               4
                 Il trend mostrato nella figura 1 risulta dal punteggio medio di 88 sondaggi provenienti da
9 sondaggisti, 8 dei quali a favore di Macron e soltanto uno (Ipsos-Cevipof) che vedeva il pareggio fra i due
principali contendenti (fig. 2).

ComPol
  207
Rosanna De Rosa

tenzione ai big data tanto da trasformare le elezioni presidenziali in un banco di prova
per le nuove tecniche computazionali. E se a pochi giorni dal voto c’è ancora qualcuno
che si chiedeva se e quanto i sondaggi influenzassero le scelte di voto5, le previsioni di
voto basate sui big data tenevano ormai banco nel dibattito pubblico.
             I big data sono stati introdotti nelle presidenziali 2017 con l’adozione
da parte di quasi tutti i candidati di sistemi esperti per la gestione delle campagne:
l’americano NationBuilder a supporto di Mélenchon come prima di Bernie Sanders
nelle primarie democratiche americane del 2016; il francese 50+1 della start up
Liegey Muller Pons, già utilizzata da Hollande nel 2012, a supporto poi di Macron;
Federavox, cavallo di battaglia di Fillon nelle primarie della destra e DigitaleBox,
piattaforma di community organizing che ha fiancheggiato altri due candidati di cui
non è stato rivelato il nome. Per Benoît Thieulin, fondatore dell’agenzia di comuni-
cazione digitale La Netscouade, è la condizione di forte volatilità dell’elettorato che
consente ai big data di esprimere il proprio potenziale6. I media, di fronte ad elezioni
così rilevanti per il futuro dell’Europa e con quattro candidati realmente competitivi
hanno cercato certezze nei big data trasformando la horce race in un «match dans
le match» fra i big data e i sondaggi7. Liberation8 ne stigmatizza l’uso strumentale,
come già accaduto per i sondaggi, per innescare un effetto winnowing nell’eletto-
rato. Valeurs Actuel, il quotidiano economico di stampo conservatore, rilanciando
quotidianamente i dati della compagnia canadese Filteris, ne sfrutta l’effetto novità
e il rimbalzo sui social media. Countrepoints, quotidiano liberale9, prende le dife-
se dei vecchi sondaggi che, nonostante i suoi limiti, restano comunque una valida
istantanea delle intenzioni di voto. Per Le Monde la metodologia dei big data è poco
trasparente e soffre degli stessi limiti di rappresentatività e distorsione dei sondag-
gi10. Le Parisien evidenzia come i big data siano utilizzati dai candidati in maniera
controfattuale quando sono i sondaggi a sottostimare il loro posizionamento. I media
ne hanno fatto quindi un uso problematico, ammettendo come, pur senza aver dato
prova di affidabilità, i big data siano un portato di novità e di orientamento in un
contesto politico e mediatico molto fluido.
             Nei paragrafi che seguono esamineremo quelle iniziative che, nel corso
della campagna, si sono guadagnate l’attenzione mediatica. La loro analisi si è svolta
               5
                L. Boy, «Présidentielle: les sondages influencent-ils notre vote?». Franceinfo, 18.04.2017.
               6
                N. Ri, «Comment le Big Data s’est invité dans l’élection». Les Echos, 20.04.2017.
             7
                J.-C. Chanut, «Présidentielle: la grande “trouille” des instituts de sondage». La Tribune, 18.04.17.
             8
                V. Coquaz, «Filteris ne passe pas le premier tour». Liberation, 23.04.2017.
             9
                Nathalie MP, «Sondages: que nous disent-ils». Countrepoints, 1.04.2017.
             10
                 «Filteris, Enigma… Face aux instituts de sondage, la défaite des prévisions “alternatives”».
Le Monde, 24.04.2017.

ComPol
  208
L’uso dei big data nella comunicazione politico-elettorale

attraverso i materiali rilasciati dalle agenzie stesse, gli articoli delle principali testate
online e i commenti degli osservatori politici. Ne descriveremo e compareremo la
metodologia a partire dalla natura dei dati e delle loro caratteristiche. I dati citati
sono stati ampiamente pubblicizzati dalle agenzie stesse e dai media a stampa. La
metodologia di ciascuna analisi è stata ricostruita attraverso le interviste rilasciate e i
report interni, quando disponibili. Una tabella di sintesi sarà presentata per comparare
le caratteristiche più salienti dei diversi tools.
              In Francia la metà della popolazione è su Facebook e 15 milioni di per-
sone utilizzano Twitter. Secondo un sondaggio di Harris Interactive11 effettuato su
un campione di 1.000 utenti twitter francesi (+18 età) e di 517 utenti che hanno
utilizzato Twitter nei precedenti 30 giorni dal sondaggio, il 73% di essi dichiara un
esplicito interesse per la politica e una percentuale piuttosto alta dichiara di avere un
comportamento attivo nel partecipare, in vario modo, al dibattito politico (48% likers
ecc.). La Twittersfera si conferma quindi come un ambiente elettivo per l’analisi delle
leadership e dell’opinione pubblica (Bentivegna, 2015).
              La compagnia canadese Filteris – che si pregia di aver correttamente pre-
detto la vittoria di Trump alle presidenziali americane – realizza un barometro delle
opinioni analizzando la discussione (buzz) che si genera sui social media durante il
periodo elettorale. Attribuendo un punteggio da 1 a 100 a ciascun candidato, Filteris
evidenzia quale candidato provoca più reazioni e con quale mood (percezione e valore
positivo e negativo delle reazioni). Nella sua ultima rilevazione a ridosso del primo
turno delle presidenziali francesi ha dato in testa Marine Le Pen (Front National) con il
22,72%, posizionando Emmanuel Macron (En Marche!) al quarto posto con il 20,03%,
dopo François Fillon (Les Républicains, 21,57%), e Jean-Luc Mélenchon (La France
Insoumise, 21,34%) fallendo, quindi, le aspettative (fig. 3).
              Eppure Filteris in un comunicato su Entreprende del 25 novembre 2016
non solo si felicitava di aver correttamente previsto la vittoria di Fillon alle primarie
della destra contro Juppé, ma suonava la campana a morte per i tradizionali sondag-
gi12, valorizzando come specificità il fatto che, a differenza dei sondaggi, le loro analisi
non si basassero su campioni rappresentativi, non prevedessero domande suscettibili
di orientare le risposte né si affidassero alla regola della casualità. Filteris sostene-
va, inoltre, di essere capace di cogliere le tendenze dell’opinione pubblica nel breve,
medio e lungo periodo. Il suo fondatore – Jérôme Coutard – si era spinto anche oltre
attestando una correlazione diretta ed esplicita tra popolarità dei candidati nella sfe-
               11
                 «Twitter dans la vie politique et les campagnes électorales», http://harris-interactive.fr/
opinion_polls/twitter-dans-la-vie-politique-et-les-campagnes-electorales, 12.10.2016.
              12
                 O. Pérou, «Filteris, le baromètre que les fillonistes s’arrachent». Le Point, 14.04.2017.

ComPol
  209
Rosanna De Rosa

Figura 3. Peso digitale dei candidati, buzz e percezioni positive e negative. Presidenziali 2017,
primo turno

     25      22,72
                          21,57       21,34        20,03
     20

     15
 %
     10
                                                                  6,68
      5                                                                         3,51
                                                                                          1,91         1,04
      0
               M.           F.         J.L.         E.             B.       N. Dupont-     P.           F.
             Le Pen       Fillon    Mélenchon     Macron         Hamon        Aignan     Poutou     Asselineau

                                                           Previsione di voto

Fonte: Filteris, 21 aprile, ore 23.50.

ra social e risultato dello scrutinio13. Non sono mancate critiche critiche sulla rappre-
sentatività del campione da parte degli istituti di sondaggio Odoxa e Kantar Sofres14.
Una tecnica simile a quella utilizzata da Filteris è stata utilizzata anche da Predata,
una società con base a New York che aveva correttamente anticipato la Brexit, sba-
gliando però sulla vittoria di Hillary Clinton nelle elezioni americane e sull’iniziativa
referendaria di Matteo Renzi per la riforma costituzionale. E come per Filteris, anche
Predata ha sottostimato Macron a favore di Fillon e Le Pen15.
             Vigiglob è una startup francese guidata da Leendert de Voogd, già diretto-
re generale dell’istituto di sondaggi TNS che, grazie all’accesso ai profili personali de-
gli utenti Facebook e Twitter, garantisce un migliore abbinamento di tracce e segnali.
La metodologia di Vigiglob non si discosta molto da quella utilizzata da Filteris, salvo
per l’applicazione di tecnologie di machine learning capaci di discriminare meglio i
contesti d’uso di reazioni e sentiment ed offrire quindi una classificazione automatica
del tono delle opinioni espresse, ovviamente «istruita» da una precedente attività di

               13
                  L. Galtier, «Présidentielle: qu’est-ce que Filteris, l’étude qui qualifie Fillon au 2nd tour?»,
http://www.rtl.fr/actu/politique/presidentielle-2017-filteris-l-etude-qui-qualifie-fillon-au-second-tour-
7788005932, 12.04.2017.
               14
                  S. Sabiron, «Filteris. Le baromètre des réseaux sociaux qui fait rêver les fillonistes».
FranceInter, 10.04.2017; A. Sénécat, «Filteris, la pseudo-enquête électorale à prendre avec des pin-
cettes». Le Monde, 03.04.2017.
               15
                  F. Benedetti Valentini e H. Fouquet, «Web Chatter Analysts: Macron’s Lead May Not Be as
Secure as Polls Say», www.bloomberg.com, 31.03.2017.

ComPol
  210
L’uso dei big data nella comunicazione politico-elettorale

Tabella 1. Sentiment Analysis su Twitter, 19 aprile 2017
Candidati                  Partito        Volume       N. autori     Sentiment (%)      Sesso (%)
                                                       dei tweet
                                                                   Pos.   Neutro Neg.   M      F

M. Le Pen             Front National      118.880        49.513     8      36     56    58    42
                                           (18%)         (22%)
F. Fillon             Les Républicains 178.980           48.929    21      35     44    65    35
                                        (27%)            (22%)
J. L. Mélenchon       La France           118.122        38.220    16      33     51    69    31
                      Insoumise            (17%)         (17%)
E. Macron             En Marche!          136.490        36.788    20      25     55    66    34
                                           (20%)         (17%)
B. Hamon              Parti Socialiste    42.339         15.299    26      25     49    63    37
                                           (6%)           (7%)
N. Dupont-Aignan      Debout la            10.539        3.391     19      34     47    65    35
                      France                (2%)         (2%)
F. Asselineau         Union Populaire     15.678         3.131     17      36     47    71    29
                      républicaine         (2%)          (1%)
N. Sarkozy            Union populaire     12.803         6.479     44      15     41    64    36
                      républicaine         (2%)          (3%)
A. Juppé              Union populaire     19.469         9.342     22      55     23    69    31
                      républicaine         (3%)          (4%)
F. Hollande           Parti Socialiste    22.093         10.508    19      12     69    65    35
                                           (3%)           (5%)

Base dati: 600.489 tweet
Fonte: Vigiglob

classificazione manuale. In un’intervista rilasciata a La Tribune il 20.04.2017, Leendert
de Voogd dà il senso delle metriche utilizzate. In pratica, se è vero che nella settima-
na dal 12 al 19 aprile, la Twittersfera francese è stata dominata da Macron con 1,26
milioni di tweet (Fillon 1,25, Mélenchon 1,22, Le Pen 589.600) quel che davvero conta
per l’algoritmo messo a punto da Vigiglob è il contenuto del messaggio quindi il suo
tono, generalmente più positivo e con maggiore engagement nel caso di Fillon che
degli altri candidati. In altre parole, Fillon sarebbe stato sottostimato dai sondaggi
d’opinione, mentre aveva buone chance di qualificazione al secondo turno.
             Al contrario Le Pen mostrava un trend di popolarità in caduta libera seb-
bene di gran lunga più popolare di tutti gli altri candidati per numero di follower (1,3
milioni di follower su Facebook, 1,4 milioni su Twitter).

ComPol
  211
Rosanna De Rosa

             Predict my President è un algoritmo messo a punto da cinque studenti del-
la scuola Telécom Paris Tech per il settimanale Le Point16. L’algoritmo utilizza il calcolo
delle probabilità, i big data e le tecnologie di machine learning per un’analisi molto
approfondita dello scenario elettorale. Combinando, infatti, dati socio-demografici ed
economici alla geografia del voto della tornata elettorale 2012, al volume di query di
ricerca in Google, ai dati di sondaggio e ai giudizi sui candidati nella Twittersfera, l’al-
goritmo si mostra più solido degli altri. I suoi realizzatori si sono interrogati innanzi-
tutto su quali variabili fossero suscettibili di influenzare il voto costruendo un modello
a due step principali. La prima fase – quella di analisi – è servita per farsi una idea più
precisa della geografia elettorale francese a partire dalla tornata elettorale del 2012
esaminando i dati a livello del singolo dipartimento in modo da evidenziare i blocchi
omogenei di voto, il voto territoriale e il voto parigino, esplorando anche eventuali
correlazioni fra i comportamenti di voto nei diversi dipartimenti e nel tempo.
             Per la seconda fase – quella di modellizzazione – invece, i creatori dell’al-
goritmo si sono avvalsi di open data e della formulazione di alcune di ipotesi17:
             a) che il voto si raggruppasse in aree politicamente omogenee (blocco
di sinistra ed estrema sinistra18; blocco di centro; di destra e di estrema destra; non
essendo stato rilevato un candidato di centro nelle elezioni 2017, il blocco di centro è
stato calcolato in via ipotetica);
             b) che Macron afferisse al blocco di sinistra;
             c) che il voto dipartimentale potesse essere spiegato dai dati socio-demo-
grafici ed economici;
             d) che le elezioni del 2012 avessero un’influenza su quelle del 2017.
             L’applicazione di tecnologie di machine learning e di modelli econometri-
ci a questo punto ha stabilito i nuovo blocchi di voto 2017 e le relative percentuali
(23,5 per l’estrema destra, 40,1 per la sinistra, 26 per la destra e 10,4 per un ipotetico
centro, ciascun blocco con un margine di errore del +/–2,5 %). Questi dati sono stati,
inoltre, ponderati per la popolarità che ciascun candidato godeva nella Twittersfe-
ra, considerata come un’attendibile rappresentazione della sfera pubblica francese.
Selezionando 26.000 tweet che menzionavano i candidati in maniera positiva nella
settimana da 10 al 15 aprile i risultati consentivano di individuare nella coppia Le Pen
(24,13) e Fillon (24,08) i candidati più popolari ed apprezzati, mentre Macron (20,71)
e Mélenchon (17,07) erano in terza e quarta posizione. Infine, i dati di sondaggio sono
stati utilizzati per comprendere come distribuire la quota del blocco di centro non

               16
                   M. Al Ani, D. Bensoussan, A. Brehelin, B. de Véricourt e R. Vignes, «Présidentielle: les deux
qualifiés pour le second tour sont…». Le Point, 18.04.2017.
               17
                   Fonti: Institut national de la statistique et des études économiques (Insee) e data.gouv.fr.
               18
                   I due blocchi sono stati inclusi insieme per ragioni di performance del modello.

ComPol
  212
L’uso dei big data nella comunicazione politico-elettorale

Figura 4. Previsione di voto, misura composita

              25          24,13
                                               21,77                              20,32
              20                                                        18,66

              15
         %
              10

               5

               0
                           M.                    F.                     J.L.        E.
                         Le Pen                Fillon                Mélenchon    Macron

                                                             Previsione di voto

Fonte: Predict My President.

assegnata a partire dalle intenzioni di voto espresse, scoprendo che Macron avrebbe
potuto recuperare il 46% di quella quota, Fillon il 20%, mentre Le Pen soltanto il 6%.
Insomma, tutte queste metriche nel modello matematico hanno finito con l’attesta-
re – sorprendentemente – l’affermazione al primo turno di Marine Le Pen (24,13%)
e François Fillon (21,77%). Emmanuel Macron soltanto terzo (20,32%) e Jean-Luc
Mélenchon all’ultimo posto con il 18,66%.
             Eppure Predict My President sembrava avere tutte le carte in regola per
predire il dato elettorale con maggiore precisione: il modello, piuttosto complesso,
poggiava infatti su un insieme di apriori e di ipotesi probabilistiche esplicite e falsi-
ficabili, consentiva il controllo delle variabili incidenti e il calcolo del range di errore,
metteva in relazione una maggiore quantità di segnali rispetto alle tracce e teneva
conto di variabili quali la granularità geografica e i comportamenti di voto nel tempo.
             In sintesi Filteris, Vigiglobe e Predict My President, pur utilizzando me-
todologie differenti, hanno predetto in maniera erronea la qualificazione di Fillon-Le
Pen al secondo turno contro tutte le evidenze prodotte dai sondaggi, che davano la
coppia in pole position già a qualche settimana dal voto.
             Sembrerebbe essere andata meglio, invece, a Echobox se le analisi da loro
prodotte non sollevassero più di un dubbio. Vediamo perché.
             Echobox è una start up inglese che ha sviluppato tecnologie di intelligen-
za artificiale per comprendere il significato dei contenuti web. Con il lancio di French
Election Tracker ha voluto posizionarsi anche nel campo delle previsioni di voto. Il suo
è un approccio sperimentale basato sulla rilevazione del livello cumulativo di interes-

ComPol
  213
Rosanna De Rosa

se generato da un candidato e trattato come indicatore della performance elettorale.
Utilizzando 2,5 bilioni di dati di alta qualità sulle audience dei principali media, con
granularità elevata ed esaustività dei dati per l’intera campagna elettorale, Echobox19
afferma di aver previsto in maniera abbastanza accurata il risultato di ciascun can-
didato al primo e al secondo turno. Il modello sviluppato da Echobox è molto diverso
dagli altri tre già esaminati: compara, infatti, l’ammontare di traffico di news genera-
to dai candidati nelle elezioni presidenziali in tempo reale.
              Il French Election Tracker analizza i dati provenienti dalle audience di radio,
TV e giornali francesi e confronta il volume medio di traffico generato dagli articoli per
ciascuno dei 5 candidati presi in considerazione. Se ciascuno di essi riceve lo stesso
volume di interesse allora il valore medio è il 20%. I discostamenti dalla media indicano
il maggiore o minore interesse suscitato. La misura non sarebbe quindi sensibile alla
quantità di articoli che si scrivono per ogni candidato né alla particolare viralità gene-
rata da un ridotto numero di articoli, in maniera da offrire misurazioni non influenzabili
da singoli e specifici eventi. La figura 5 evidenzia l’interesse nella settimana precedente
il voto. Ciò che però qui importa evidenziare è che i dati di previsione sono corretti sì,
ma solo a poche ore dal voto, con Macron (23,7) e Le Pen (22,9) in testa.
              Consapevoli dei limiti del loro modello – solo tre giorni prima del voto
Echobox prevedeva la qualificazione per il secondo turno di Fillon e Macron20 – Se-
bastian Huempfer, Communication manager di Echobox, dichiarava che «i grandi dati
sono il futuro della ricerca d’opinione […] possono eventualmente rendere obsoleti i
sondaggi, ma oggi sono imperfetti come lo sono le indagini campionarie»21.

Tabella 2. Previsioni di voto del French Election Tracker (%)
                  Previsione I turno       Risultato         Previsione II turno        Risultato

Macron                  23,7                 24,0                   64,7                  65,8
Le Pen                  22,9                 21,3                   35,3                  34,2
Fillon                  21,0                 20,0
Mélenchon               17,3                 19,6
Hamon                   15,1                  6,4

               19
                  A. Amann, «Marine Le Pen Will Probably Not Be the Next French President, Big Data
Suggests». Medium, 20.04.2017.
               20
                  A. Amann, «Fillon and Macron Are in a Strong Position Going into the French Election».
Medium, 12.04.2017.
               21
                  S. Huempfer, «We Used Big Data to Predict Macron Would Win. Here Is What We Learned
in the Process». Medium, 28.04.2017.

ComPol
  214
Figura 5. Grado di interesse per i candidati al primo turno

Fonte: French Election Tracker.
Figura 6. Volume di ricerche nel periodo 1 gennaio-9 aprile come elaborato da Enigma via GoogleTrends

Fonte: French Election Tracker.
L’uso dei big data nella comunicazione politico-elettorale

              Infine, per completezza, va citato il ruolo di Enigma, agenzia di comuni-
cazione svizzera con forti convinzioni sul ruolo che algoritmi, big data e passaparola
svolgono nel determinare il successo di una campagna digitale. A differenza delle
altre agenzie citate, Enigma non elabora una propria metodologia, piuttosto si affida
all’analisi dell’evoluzione delle query di ricerca Google utilizzando il tool GoogleTrend.
Questo tool per Enigma è un modo per capire – più prudentemente – chi siano i favo-
riti di un’elezione attraverso la quantità di interesse generato nel tempo. Il tool, oltre
a fornire diverse opzioni per rifinire i dati (es. ricerche geolocalizzate, filtro temporale,
filtro per tipo di tool utilizzato fra quelli di casa Google), consente di visualizzare quat-
tro misure: l’andamento delle ricerche nel tempo, la quantità media di tali ricerche
nel periodo considerato, i picchi di interesse e i temi associati ai picchi di interesse. In
tal modo è possibile comprendere quale candidato genera maggiore interesse lungo
l’intera campagna elettorale, quale candidato suscita invece più interesse nei giorni
precedenti il voto e quali temi influenzano tale interesse. Prendendo in considerazio-
ne il periodo dal primo gennaio all’11 aprile 2017, il volume di ricerche generato dai
nomi dei candidati favoriva decisamente Fillon che, quindi, veniva considerato come
il candidato che riscuoteva il maggiore interesse nel tempo. Tuttavia, considerando il
volume di ricerche generato nel periodo a ridosso delle elezioni – più precisamente a
dodici giorni prima del voto – era Mélénchon ad emergere come candidato favorito
facendo, quindi, avanzare l’ipotesi di un duello Fillon-Mélenchon (fig. 6).
              Un uso questo di GoogleTrends che, naturalmente, suscita delle perples-
sità. Innanzitutto per la natura dell’unità di analisi considerata – le query di ricerca
sono infatti molto legate alla cronaca e agli eventi della campagna (ad es. lo scan-
dalo che aveva colpito Fillon per i lavori affidati a moglie e figlia) – poi per il periodo
considerato, una scelta priva di una precisa ratio, soprattutto se si considera che in
gennaio alcuni partiti stavano ancora svolgendo primarie interne per decidere il pro-
prio candidato ottenendo anche maggiore attenzione da parte dei media, e, infine,
per la decisione di considerare l’interesse verso un candidato a dodici giorni dal voto
come indicazione del suo «favore», a dispetto dell’interesse medio suscitato lungo l’in-
tero periodo che, invece, avrebbe premiato Macron. In ogni caso, pur utilizzando una
diversa periodizzazione, i dati di GoogleTrend difficilmente avrebbero potuto essere
considerati come una misura affidabile del «favore» riscosso dai candidati in lizza.
Continuando, infatti, ad osservare il trend del volume di ricerche fino al giorno che
precede il voto, si vedrà come Mèlenchon mantenga la sua posizione condividendola
con Macron solo a campagna quasi conclusa. Interessante poi osservare come, fra le
ricerche correlate al nome del candidato, emerga il ruolo svolto da Filteris nell’incre-
mento dell’attenzione verso Fillon. Producendo e promuovendo le proprie analisi sul
gradimento di Fillon nei social media, Filteris di fatto generava curiosità ed aumen-

ComPol
  217
Tabella 3. Comparazione fra analisi previsionali. Elezioni presidenziali francesi 2017
AGENZIA                       Big data                                                       Metodologia                                      Grado di
                Volume          Velocità   Varietà           Assunzione              Fonte             Tecnica             Tipo di dati      complessità

FILTERIS         Basso            Alta      Bassa      Correlazione diretta tra      Twitter           Indice di            Opinioni           Basso
                  (nd)                     (1 tipo     popolarità dei candidati                      popolarità +           espresse
                                           di dati)   nella Twittersfera e risul-                 sentiment analysis
                                                         tato dello scrutinio

VIGIGLOB         Medio            Alta     Media        Il tono delle opinioni      Facebook     Indice di gradimento:      Opinioni           Basso
               (base dati                  (2 tipi     espresse è un migliore       e Twitter     sentiment analysis +      espresse
                600.489)                   di dati)       indicatore di voto                        machine learning

PREDICT MY        Medio          Media      Alta      Il comportamento di voto OpenData          Indice di popolarità +  Dati elettorali +      Alto
PRESIDENT       (base dati                 (3 tipi    è correlato alla geografia (Insee),         machine learning +    query di ricerca +
              parz.: 26.000                di dati)    elettorale ed economica, Twitter,         modelli econometrici opinioni espresse +
               tweet posi-                              ai blocchi di voto e alla Google,                                  dati socio-
               tivi, nd per                            popolarità del candidato Sondaggi                                  demografici +
               altre fonti)                                                                                              dati economici

ECHOBOX           Alto            Alta     Bassa      Il volume di traffico news     Media             Indice di            Menzioni           Basso
               (base dati:                             generato da un candida-                        popolarità              news
               2,5 bilioni)                            to nel sistema dell’infor-                                          complessive
                                                        mazione è correlato al
                                                        suo successo elettorale

ENIGMA            Alto            Alta     Bassa       Il volume di query di ri-     Google        Query di ricerche          Query            Basso
                  (nd)                                cerche Google è un buon        Trends          in base 100            di ricerca
                                                      indicatore di favore verso                   e geolocalizzate
                                                              il candidato
L’uso dei big data nella comunicazione politico-elettorale

Figura 7. Trend del volume di ricerche associate delle keyword Filteris Fillon

  120

  100

   80

   60

   40

   20

    0
     17

                                                                                                        17
                                                                         17
               17

                      17

                                17

                                       17

                                                                                   17

                                                                                         17

                                                                                                  17

                                                                                                                        17
                                                 17

                                                        17

                                                                  17

                                                                                                                   7
                                                                                                               /1
      /

                                                                                                       3/
                                                                         2/
            1/

                      1/

                             1/

                                       1/

                                                                               3/

                                                                                        3/

                                                                                              3/

                                                                                                                       4/
                                              2/

                                                        2/

                                                               2/
   01

                                                                                                             04
          /0

                    /0

                           /0

                                     /0

                                                                       /0

                                                                                                       /0
                                            /0

                                                      /0

                                                             /0

                                                                              /0

                                                                                        /0

                                                                                              /0

                                                                                                                       /0
    /
 01

                                                                                                               /
          08

                 15

                           22

                                  29

                                                                    26

                                                                                                   26
                                            05

                                                   12

                                                             19

                                                                              05

                                                                                    12

                                                                                             19

                                                                                                                   09
                                                                                                            02
Fonte: GoogleTrends.

tava il volume delle ricerche influenzando così sensibilmente anche i risultati delle
analisi basate su GoogleTrends (fig. 7).
             Nella tabella 3 sono riportate le caratteristiche di ciascuna indagine ci-
tata in relazione a quelle che sono considerate le features dei dati 22 e le note meto-
dologiche come fornite o ricostruite dal materiale documentale consultato. Occorre
specificare infatti che, al contrario dei sondaggi che sono ben regolamentati dalla
normativa francese, per i big data non c’è alcun obbligo di pubblicità dell’algoritmo
e, quindi, della metodologia utilizzata. In alcuni casi, inoltre l’universo dei dati non
è esposto con precisione preferendo riportare il volume dei dati in unità di gradezza
complessiva (es. migliaia, milioni). La tabella mostra anche come il grado di struttura-
zione delle indagini (complessità) si attesti su un uso limitato delle tecnologie dei big
data, confermando l’impressione che il potenziale di fuoco dei big data resti ancora
ampiamente inespresso.

               22
                  I big data sono dati si caratterizzano per volume, varietà e velocità secondo il noto mo-
dello delle 3V (Laney, 2001).

ComPol
  219
Rosanna De Rosa

4.           Conclusioni

             C’è un generale accordo sul potere disruptive dei big data, eppure no-
nostante la possibilità di esplorare infinite correlazioni, di creare profili sempre più
dettagliati, di accedere a dati in real time, l’utilizzo e l’analisi dei big data sembra
restituire risultati ancora piuttosto deludenti sul piano della previsione (Kay, 2016).
Soprattutto in politica, dove la ricerca dell’algoritmo perfetto per la previsione di voto
nella campagna presidenziale francese del 2017 mostra quanto questa tecnologia sia
fondamentalmente immatura e quanto le sue metodologie restino largamente speri-
mentali. Ciascuno dei tentativi presentati soffre infatti di errori e distorsioni che nelle
tradizionali metodologie di ricerca sarebbero stati sotto controllo.
             Per la grande disponibilità e facilità di accesso ai dati, Twitter è conside-
rato una delle migliori piattaforme social per le analisi delle dinamiche di opinione. Il
numero di menzioni è trattato come un indicatore di interesse e di attenzione verso un
candidato ma difficilmente può essere considerato come un indicatore di voto. Nate
Silver (2013) aveva già messo in guardia dalla quantità di rumore presente nei big data
e dalla difficoltà a creare modelli basati sull’abbinamento corretto di tracce e segnali.
Anche Jungherr (2015) nella sua approfondita critica all’uso di Twitter per l’analisi
previsionale aveva evidenziato come uno dei principali limiti risiedeva nella variabilità
delle metriche utilizzate. Anche quando alcune correlazioni sembrano essere statisti-
camente significative, il fatto stesso che persista una grande variabilità nella scelta
delle variabili dipendenti ed indipendenti indica che tali correlazioni non sono stabili
ma che esistono solo in specifici contesti temporali ed elettorali. A questo bisogna ag-
giungere le critiche classiche della non rappresentatività statistica della twittersphera
e delle manipolazioni a cui è soggetta nelle strategie più invasive di manifacturing
consent. L’uso strategico di bots e di profili falsi crea difatti una percezione distorta del
volume di tweet, menzioni e condivisioni portando a sovrastimare la presenza di alcuni
candidati, e a misurare un volume di opinioni che non trova alcuna corrispondenza
statistica con l’elettorato di riferimento né lo rappresenta. E la rappresentatività per le
previsioni di voto è una dimensione metodologicamente rilevante soprattutto quando
le utenze dei social media tendono ad essere così specifiche (Blank, 2016). Non deve
dunque sorprendere se l’analisi dei big data effettuati sui soli dati Twitter (Filteris e
Vigiglob) non sono un indicatore di voto, ma un mero indice di popolarità di un candi-
dato nella Twittersfera. Inoltre, a differenza del sondaggio dove si fanno delle doman-
de dirette sulle intenzioni di voto e quindi la misurazione delle opinioni è correlata a
priori con il risultato elettorale, nel caso della Twittersfera desumere dalla popolarità
un’intenzione di voto può essere vista come un’inferenza azzardata per la quale non è
possibile calcolare nemmeno la probabilità di errore. A quali condizioni l’indicatore di

ComPol
  220
L’uso dei big data nella comunicazione politico-elettorale

popolarità può essere considerato un indicatore di voto? Quanto estesa deve essere la
misurazione? Quali misurazioni offrono i risultati più attendibili? Esistono variabili in-
cidenti, se sì come vengono controllate? Alcune di queste criticità sono riferibili anche
alla sentiment analysis che, anche quando basate su sofisticate tecnologie di machi-
ne learning, riescono a decodificare solo una parte delle reazioni positive e negative
espresse nei tweet. Il limite evidente di queste analisi inoltre è quello di concentrarsi
sui «dati che abbiamo» piuttosto che sui «dati di cui avremmo bisogno», ignorando qua-
si completamente le informazioni provenienti da altri contesti o forme alternative al
voto di opinione, come il voto di appartenenza, ancora forte in certi contesti territoriali.
               Risultati deludenti sono stati prodotti anche nei casi di analisi predittive ba-
sate su modelli più complessi. Predict my President sembrava poggiare infatti sulla me-
todologia più solida che teneva conto di numerosi fattori e variabili. Il limite più evidente
di questa analisi consiste nell’aver sovrastimato i dati web – volume di ricerche Google
e popolarità del candidato su Twitter come fedele rappresentazione della sfera pubblica
francese – e nell’aver sottovalutato le indicazioni provenienti dai sondaggi, che pure col-
locavano Macron al centro dello spettro politico e meno a sinistra, come ipotizzato invece
da Predict my President. D’altronde, dopo la fallimentare presidenza di Hollande (il 59%
degli intervistati dal Cevipof-Ipsos ad aprile 2017 si dichiarava insoddisfatto della presi-
denza Holland), configurarsi a sinistra per Macron sarebbe stato anche un imperdonabile
errore di strategia. La misurazione del blocco di centro come bacino elettorale di Macron
e il conseguente ridimensionamento del blocco di voti destinati alla sinistra avrebbe pro-
babilmente contribuito a bilanciare meglio le previsioni di voto di Predict My President.
               Infine, l’analisi dell’attenzione cumulativa dell’interesse mediatico effettua-
ta dal French Election Tracker è quella che onestamente presenta i risultati più interlo-
cutori. Pur potendo contare su bilioni di dati di alta qualità provenienti da media online
in tempo reale è riuscita a fornire sì dati attendibili ma soltanto il giorno che precedeva
il voto. In altri termini non avrebbe predetto ma anticipato il comportamento di voto che
sarebbe avvenuto di lì a poche ore. Le perplessità suscitate da questo risultato sono tali
che anche lo stesso staff di Echobox ha sentito di esprimersi in maniera cauta, non can-
tando vittoria, quanto piuttosto qualificando il risultato come «sperimentale», che avreb-
be cioè richiesto di altri indicatori, altri test ed altre fonti per potersi ritenere stabile.
               Insomma emerge un quadro ancora in progress dove:
               a) l’oggetto di misurazione non viene sempre definito con chiarezza tanto
da confondere la copertura mediale con l’interesse suscitato da un candidato e la po-
polarità con le intenzioni di voto, in pratica confondendo la variazione di una variabile
con la variabile stessa;
               b) si tende a sottovalutare il ruolo di quelle variabili incidenti come, ad
esempio, la percentuale di astensione (salita al primo turno ad oltre il 40%), la vola-

ComPol
  221
Puoi anche leggere