IL VALORE DEI BIG DATA NELLA DATA-DRIVEN SOCIETY - FABRIZIO ANTONELLI, LUIGI ARTUSIO, CORRADO MOISO - TELECOM ITALIA

Pagina creata da Valerio Ferretti
 
CONTINUA A LEGGERE
IL VALORE DEI BIG DATA NELLA DATA-DRIVEN SOCIETY - FABRIZIO ANTONELLI, LUIGI ARTUSIO, CORRADO MOISO - TELECOM ITALIA
Usa il tuo
                  38                                                  smartphone per
                                                                         visualizzare
                                                                     approfondimenti
                                                                         multimediali

                  Il valore dei Big Data nella
                  Data-driven Society
SPECIALE TRENDS

                  Fabrizio Antonelli, Luigi Artusio, Corrado Moiso
IL VALORE DEI BIG DATA NELLA DATA-DRIVEN SOCIETY - FABRIZIO ANTONELLI, LUIGI ARTUSIO, CORRADO MOISO - TELECOM ITALIA
39

                                                                                                                        SPECIALE TRENDS
N
   el futuro prossimo, secondo alcuni entro il 2020 [1], tutto sarà connesso in rete: persone, cose,
   macchine e processi operativi contribuiranno quotidianamente a realizzare un canale perma-
   nente tra il mondo reale e le dimensioni virtuali abilitate da Internet.
   La quantità di dati generati da queste connessioni sarà enorme, "Big Data" appunto, e la loro
analisi e sfruttamento consentiranno la nascita di una nuova società e di una nuova economia
fondate sul valore dei dati digitali, la "Data-driven Society". Vediamo come.

1   Introduzione
                                      cesso pervasivo alla rete Internet,
                                      garantito dalle reti broadband fis-
                                                                                600 società solo il 12% dei dati
                                                                                in loro possesso veniva utilizza-
Secondo recenti studi [2] la con-     sa e mobile. Il secondo elemento è        to a fine 2012 [4]. Nel medesimo
vergenza fra il sistema industriale   costituito dalla possibilità di gene-     periodo una nota società di con-
globale, le avanzate capacità ela-    rare, a basso costo ed in modo più        sulenza indiana ha realizzato un
borative dell’ICT, il decrescente     o meno conscio, grandi quantità di        sondaggio internazionale, che ha
costo dei sensori e l’ubiquità del-   dati digitali tramite sensori, weare-     evidenziato che il 53% del cam-
le reti di comunicazione renderà      able personal computer, smartpho-         pione analizzato nel 2012 aveva
possibile la nascita e lo sviluppo    ne, tablet, ... Inoltre, l’IT (Informa-   in corso progetti di sfruttamento
della terza onda di innovazione       tion Technology) ha fatto enormi          e valorizzazione dei dati dispo-
negli ultimi 200 anni, la cosiddet-   progressi in termini di capacità di       nibili in azienda [5]. Uno studio
ta "Industrial Internet", preceduta   memorizzazione ed elaborazione            recente dal Politecnico di Milano
dalla "Internet Revolution" e dalla   di grandi masse di dati, grazie all’e-    [6] illustra uno scenario italiano
"Industrial Revolution". La pro-      voluzione del cloud computing e           positivo, sebbene ancora in sta-
fonda integrazione fra il mondo       degli strumenti di analisi dei dati. A    to di sviluppo iniziale: il 67% dei
digitale e quello delle macchine      tutti questi ingredienti va aggiunta      CIO italiani intervistati credono
implicherà una forte trasforma-       la propensione umana alla gene-           nell’innovazione derivante dall’u-
zione sia del settore industriale     razione di dati digitali ed alla loro     tilizzo dei Big Data.
sia della nostra vita quotidiana.     condivisione tramite gli strumenti        Un aspetto fondamentale nel pro-
La "Data-driven Society" sarà ca-     offerti dal mondo globale dei social      cesso di trasformazione verso la
ratterizzata da un significativo      networks.                                 "Data-driven Society" è l’utilizzo
aumento della produttività: ad        Tuttavia, il processo di trasforma-       etico dei Big Data che, essendo
esempio, General Electric stima       zione delle imprese e del relativo        molto spesso riferiti a persone,
che negli Stati Uniti la sola In-     business richiede necessariamen-          devono essere raccolti, memo-
dustrial Internet potrebbe incre-     te tempo ed investimenti. Recenti         rizzati, difesi ed utilizzati nel ri-
mentare la produttività di oltre 1    analisi internazionali hanno evi-         spetto dei principi e delle regole
punto percentuale all’anno [2].       denziato luci ed ombre, come è            stabilite dalle direttive nazionali
L’attuale innovazione tecnologica     naturale che avvenga in situazio-         ed internazionali relative alla pro-
rende questo scenario concreto ed     ni di cambiamento dirompente.             tezione dei dati personali.
economicamente perseguibile. Il       Ad esempio, secondo un’indagine           I nuovi usi dei Big Data, dei relati-
primo elemento abilitante è l’ac-     condotta su un campione di oltre          vi modelli di business e degli sce-
IL VALORE DEI BIG DATA NELLA DATA-DRIVEN SOCIETY - FABRIZIO ANTONELLI, LUIGI ARTUSIO, CORRADO MOISO - TELECOM ITALIA
40

                       La privacy nel mondo dei Big Data
                       I big data offrono prospettive molto pro-       tarli per finalità diverse dalla esecuzione     successivo parere del 2013, ha chiarito
SPECIALE TRENDS

                       mettenti, non solo per le aziende, ma           del contratto stipulato con il cliente sen-     che per i big data possono presentarsi
                       anche nell’ambito di iniziative e progetti      za il relativo consenso. Ad esempio, è          due scenari. Nel primo caso, se l’ana-
                       di utilità sociale: basti pensare alle ricer-   necessario un consenso specifico degli          lisi è finalizzata ad informare misure o
                       che nel campo medico e farmacologico            interessati per trattare i dati relativi ai     decisioni da prendere nei confronti de-
                       o alle applicazioni finalizzate a migliora-     servizi di telecomunicazioni (anagra-           gli interessati (esempio: profilazione dei
                       re le infrastrutture ed i servizi a vantag-     fiche dei clienti, traffico telefonico,…),      clienti per finalità commerciali), occorre
                       gio dei cittadini.                              per analisi di profilazione dei clienti con     il relativo consenso esplicito, cioè il co-
                       Questi aspetti positivi non sono però di-       finalità di marketing. Anche la bozza del       siddetto opt-in. Quando invece l’analisi
                       sgiunti da rischi, principalmente connes-       nuovo Regolamento UE sul trattamento            ha solo lo scopo di identificare trend e
                       si ad un’indebita invasione della privacy       dei dati personali, attualmente all’esa-        correlazioni tra le informazioni, senza
                       e ad un utilizzo improprio di informazioni      me del Consiglio Europeo, sembra con-           ricadute verso i singoli individui (esem-
                       concernenti la sfera privata degli indivi-      fermare questa impostazione.                    pio: studi statistici su dati anonimi e ag-
                       dui. Alcuni di questi rischi sono imme-         Tale quadro offre tuttavia possibili aper-      gregati), la capacità di rispettare il prin-
                       diatamente percepibili: la quantità stes-       ture che, se correttamente attuate, con-        cipio di "separazione funzionale" può
                       sa dei dati disponibili e la possibilità di     sentirebbero di bilanciare i legittimi inte-    giocare un ruolo chiave, nel determinare
                       correlazione tra fonti anche molto etero-       ressi delle aziende e la tutela dei diritti     se le analisi possano considerarsi lecite
                       genee, lo squilibrio nei rapporti di forza      dei cittadini. Ciò riguarda in particolare il   o meno. A tal fine, i dati analizzati non
                       tra le aziende ed i consumatori, le mag-        trattamento di dati resi anonimi o l’utilizzo   devono essere disponibili per supporta-
                       giori possibilità di controllo da parte dei     della pseudonimizzazione (cioè la sosti-        re misure o decisioni da prendersi nei
                       governi... Altri rischi, come la possibilità    tuzione dei dati identificativi con codici      confronti dei singoli interessati. Devono
                       di giungere a risultati inaccurati o discri-    che non consentono di individuare i sin-        perciò essere adottate misure per ga-
                       minatori, sono meno evidenti, ma non            goli interessati, attraverso meccanismi         rantire la sicurezza dei dati; ad esem-
                       per questo meno significativi. Ad esem-         crittografici irreversibili), nell’ambito di    pio i meccanismi di completa o parziale
                       pio, le inferenze statistiche individuate       analisi aventi il solo scopo di identificare    anonimizzazione ed accorgimenti tec-
                       da un algoritmo potrebbero aggravare i          trend e correlazioni tra le informazioni,       nici ed organizzativi che scongiurino la
                       problemi di esclusione e stratificazione        senza ricadute verso i singoli individui.       possibilità di re-identificazione degli in-
                       sociale, se indebitamente utilizzate per        A questo proposito, il gruppo di lavo-          teressati.
                       guidare decisioni rilevanti per un indivi-      ro che riunisce i Garanti Privacy dei           E’ quindi necessario che i progetti di
                       duo (l’assunzione per un lavoro, la con-        28 stati membri della UE (il cosiddetto         utilizzo dei big data siano attentamente
                       cessione di un mutuo e così via).               Working Party 29, che prende il nome            valutati anche sotto il profilo del rispetto
                       Occorre quindi trovare modalità di sfrut-       dall’art. 29 della Direttiva 95/46/CE, che      della privacy, tenendo in considerazio-
                       tamento dei big data compatibili con il         lo ha istituito), sul concetto di "dato per-    ne non solo gli aspetti più strettamente
                       rispetto delle normative previste a tu-         sonale" ha indicato, nel 2007, tra l’altro,     tecnici, quali ad esempio le misure per
                       tela dei dati personali e dei diritti degli     "che i dati pseudonimizzati con sistema         la sicurezza dei dati o la robustezza
                       interessati. Peraltro, alcuni dei principi      tracciabile possono essere assimilati           dei meccanismi crittografici, ma anche
                       fondamentali previsti dalla normativa           a informazioni su persone identificabili        la natura dei dati utilizzati, le modalità
                       privacy europea, e da quella italiana che       indirettamente; in questo caso, i rischi        della loro acquisizione e del successivo
                       la recepisce, sembrano quasi antitetici         per gli interessati saranno per lo più          trattamento ed i possibili impatti verso
                       allo sfruttamento dei big data, che per         bassi, consentendo un’applicazione              gli individui 
                       sua natura presuppone flessibilità nella        delle norme più flessibile che nel caso
                       raccolta ed elaborazione dei dati. In par-      di informazioni su persone direttamente
                       ticolare, non è consentito accumulare e         identificabili".
                       conservare dati personali senza una             Sviluppando ulteriormente questa linea
                       finalità ben definita a priori, oppure trat-    di pensiero, il Working Party 29, in un          stefano.tagliabue@telecomitalia.it
IL VALORE DEI BIG DATA NELLA DATA-DRIVEN SOCIETY - FABRIZIO ANTONELLI, LUIGI ARTUSIO, CORRADO MOISO - TELECOM ITALIA
41

nari competitivi richiedono che        Anche le pubbliche amministra-           cialistiche in grado di valorizzare
chi opera sul mercato, i governi e     zioni si attendono risultati signi-      al meglio il patrimonio dei dati
le istituzioni siano tutti consape-    ficativi dall’utilizzo sistematico       aziendali, i "data scientist", dei
voli delle opportunità e anche del-    dei Big Data, soprattutto nei set-       quali già oggi si prevede la caren-
le minacce derivanti dallo svilup-     tori delle finanze e della sanità        za entro breve tempo [9].

                                                                                                                        SPECIALE TRENDS
po del nuovo ecosistema digitale e     pubblica. Infatti, l’analisi dei Big     Entrando, invece, nel tema delle
che, conseguentemente, vengano         Data potrebbe consentire di ri-          opportunità di business, vi sono
ridefinite le politiche industriali    durre l’evasione fiscale ed il pas-      esempi concreti di aziende che
ed il sistema delle regole in modo     saggio da un sistema sanitario che       utilizzano i Big Data [10] oltre
coerente con il nuovo contesto.        interviene per curare, ad uno che        naturalmente ai noti casi, che
                                       prevede e previene le malattie. Si       non tratteremo nel seguito, delle
                                       stima che i Big Data potranno far        aziende del Web (Google, Ama-
                                       risparmiare al sistema sanitario         zon, Facebook, Twitter, …) che
2   Dalla scienza al business
                                       americano 300 miliardi di dollari
                                       all’anno ed al settore pubblico eu-
                                                                                hanno basato il loro modello di
                                                                                business proprio sui Big Data.
Fino a pochi anni fa i Big Data        ropeo 250 miliardi di euro [8].          Un primo ambito di applicazione
potevano essere analizzati e sfrut-    Un modo pragmatico per mi-               dei Big Data è relativo alle aree
tati principalmente per la ricerca     surare lo stato di adozione dei          del marketing e delle vendite, ove
scientifica (astronomia, geofisica,    Big Data nel business può essere         i principali obiettivi strategici
genomica, …) o per finalità mili-      quello di quantificare gli investi-      sono orientati al miglioramento
tari. Tuttavia, gli enormi progressi   menti delle aziende; un’indagine         della relazione con il cliente alla
compiuti dall’IT nell’ultimo de-       condotta da Tata Consulting Ser-         crescita della reputazione azien-
cennio hanno consentito di ab-         vices ha rivelato che sul campione       dale ed al perfezionamento delle
bassare i costi di memorizzazione      delle società investigate la media-      pratiche di customer intelligen-
e di elaborazione dei Big Data,        na di spesa nel 2012 è stata di 10       ce. Un esempio di rilievo in que-
aprendo nuove opportunità per le       milioni di dollari, pari a circa lo      sto ambito è rappresentato dalla
aziende e per le amministrazioni       0,14 della mediana dei loro ricavi       americana Walmart [11], pionie-
pubbliche.                             [5]. In Italia, secondo il Politec-      re nell’applicazione di tecnologie
Le prime puntano primariamen-          nico di Milano, gli investimenti         per il trattamento dei Big Data,
te ad accrescere la produttività e     su sistemi e soluzioni per l’analisi     finalizzato al miglioramento del-
ad aumentare i margini operati-        dei dati risulta in forte crescita nel   le vendite di prodotti di consumo.
vi sfruttando, oltre i tradiziona-     2013 (+22% YoY), a fronte di un          Walmart ha sviluppato nei propri
li dati strutturati, anche i nuovi     mercato ICT in flessione di circa        laboratori alcune applicazioni,
dati non strutturati o semi-strut-     il 4% [6].                               quale Shoppycat, che analizza i
turati provenienti dai blog dai        Per entrare nel mondo dei Big            gusti ed i desideri degli amici di
social media o da strumenti di         Data, le imprese, oltre agli investi-    un cliente e, conseguentemente,
comunicazione (testi, immagini,        menti per le tecnologie abilitanti,      propone a quest’ultimo i migliori
video, audio, likes, e-mail,…); a      devono fare fronte ad alcune sfide       regali che egli potrebbe fare agli
questi si aggiungono i dati gene-      non trascurabili. La prima, di tipo      amici. In Italia, nel 2011, il Grup-
rati dalle macchine e dai senso-       organizzativo e culturale, consiste      po Ferrovie dello Stato ha iniziato
ri che già oggi sono in grado di       nel convincere le business unit a        a sviluppare la propria presenza
comunicare dati. Un’inchiesta di       condividere le informazioni oggi         sui social networks, al fine di mo-
Capgemini ha recentemente evi-         rigidamente organizzate secondo          nitorare e analizzare le opinioni
denziato che le aziende che han-       un modello verticale e chiuso. La        espresse dalle persone sui servizi
no sfruttato i Big Data nei propri     seconda è di tipo semantico, ossia       ferroviari [6].
processi hanno ottenuto un mi-         acquisire la capacità di seleziona-      L’elaborazione dei Big Data può
glioramento medio del 26% delle        re i dati giusti in funzione del pro-    essere messa a valore nell’ambito
prestazioni, rispetto ai tre anni      blema di business che si intende         dell’efficientamento dei processi
precedenti e prevedono un ulte-        risolvere. Infine, ultima, ma non        aziendali e della riduzione di costi.
riore miglioramento del 41% nei        meno importante, è la necessità          Un originale esempio di applica-
prossimi 3 [7].                        di sviluppare le competenze spe-         zione in questo contesto è offerto
IL VALORE DEI BIG DATA NELLA DATA-DRIVEN SOCIETY - FABRIZIO ANTONELLI, LUIGI ARTUSIO, CORRADO MOISO - TELECOM ITALIA
42

                  da McDonald’s, che ha sostituito         ca veloce di un parcheggio, grazie       società inglese The Data Exchan-
                  l’ispezione manuale della corret-        all’elaborazione dei dati di loca-       ge, ad esempio, già oggi offre una
                  ta produzione dei propri panini          lizzazione degli automezzi e dei         piattaforma attraverso la quale gli
                  (forma, doratura, distribuzione          dati provenienti da sensori alloca-      utilizzatori possono memorizzare
                  dei semini) con l’analisi automa-        ti presso i posteggi [14]. Sempre        i dati personali, gestirli ed, even-
SPECIALE TRENDS

                  tizzata delle foto dei panini in cot-    in America, la General Electric nel      tualmente, offrirli in vendita se-
                  tura. La società petrolifera messi-      2011, con un investimento di un          condo le proprie regole [15].
                  cana Pemex, invece, ha ridotto il        miliardo di dollari, ha lanciato un
                  tempo di fuori servizio dei propri       progetto per la realizzazione di un
                  impianti di raffinamento ed ha           centro, in grado di sviluppare ed
                  trasformato i propri processi di
                  manutenzione da ciclici a pre-
                                                           esercire soluzioni per la gestione
                                                           dei dati digitali resi disponibili da
                                                                                                    3   Quali opportunità per gli Operatori?

                  ventivi, grazie all’analisi di indi-     sensori ed altri dispositivi digitali    Gli operatori di telecomunicazio-
                  catori relativi ai livelli dell’acqua,   integrati nelle macchine prodot-         ne dispongono di grandi quantità
                  alla pressione, alla temperatura,        te: i motori aereonautici, le turbi-     di dati provenienti dalle loro reti,
                  alla vibrazione dei motori e delle       ne elettriche, i treni, le apparec-      dai processi operativi implemen-
                  pompe [12].                              chiature mediche,... [2]. L’enorme       tati e dai loro clienti; questi asset
                  Anche nel campo della gestione           mole di dati prodotti sarà raccolta      possono essere valorizzati sia per
                  del rischio e dell’identificazione       ed elaborata da General Electric,        il rafforzamento del business tra-
                  delle frodi i Big Data trovano mol-      ai fini di fornire benefici ai propri    dizionale, sia per la creazione di
                  teplici ambiti di applicazione. La       clienti (es. manutenzione preven-        nuovi servizi per le imprese e gli
                  società assicurativa americana           tiva delle macchine, riduzione           individui. In entrambi i casi gli
                  Infinity ha migliorato il tasso di       dei consumi energetici, miglio-          Operatori devono realizzare nuo-
                  successo di identificazione del-         ramento dei processi operativi) e        ve infrastrutture tecniche, svilup-
                  le richieste fraudolente di risar-       di migliorare i propri prodotti ed       pare nuove competenze ("data
                  cimento danni dal 50% al 88%,            i relativi processi produttivi. In       scientist") e rivedere l’organizza-
                  grazie all’utilizzo di strumenti di      pratica, General Electric sta cre-       zione ed i processi interni.
                  analisi predittiva applicati su dati     ando i presupposti per l’Industrial      Vi sono già dei casi concreti di
                  relativi a richieste di risarcimen-      Internet.                                Operatori che utilizzano i Big
                  ti, dichiarazioni dei carrozzieri,       La monetizzazione dei dati è un          Data per migliorare il business
                  coperture dei sinistri accumulate        ulteriore modello di business reso       tradizionale; l’Operatore giappo-
                  negli anni [12]. Le società del-         possibile dai Big Data. In termini       nese KDDI, ad esempio, impiega
                  le carte di credito (es. Visa) e le      tecnici, stiamo parlando del "data       tecniche di analisi realtime dei
                  società di credito (es. Citigroup,       marketplace", cioè della vendita di      dati per migliorare la relazione
                  Zestcash, Kabbage, Lendup) trag-         dati, opportunamente aggregati e         con i clienti in caso di malfunzioni
                  gono significativi vantaggi dallo        pre-elaborati, ad organizzazioni         o disservizio, nonché per ottimiz-
                  sfruttamento dei Big Data in ter-        interessate al loro acquisto e sfrut-    zare la manutenzione preventiva
                  mini di riduzione dei rischi di in-      tamento. La società Nielsen offre        degli impianti e la pianificazione
                  solvenza e di frode [12].                alle emittenti TV servizi basati         tempestiva degli investimenti.
                  L’elaborazione dei Big Data abili-       sulla raccolta ed analisi dei mes-       Anche Deutsche Telekom utilizza
                  ta la creazione di nuovi prodotti e      saggi Twitter, che consentono di         l’analisi dei Big Data per miglio-
                  l’innovazione dei servizi. La socie-     migliorare la fidelizzazione degli       rare il customer care, applicando
                  tà inglese Hailo offre ad esempio        spettatori [12]. Recentemente si         tecniche di "voice analytics", non-
                  un servizio di prenotazione del          sta sviluppando un nuovo approc-         ché per ridurre i rischi per gli ac-
                  taxi in near-realtime basato sull’e-     cio, definito "user-centric", per        quisti on-line [10].
                  laborazione dei dati di localizza-       la commercializzazione dei dati          Per il mercato business si assiste
                  zione dei clienti e dei taxi dispo-      personali, che riconosce agli in-        alla crescita di offerte di soluzio-
                  nibili [13]. In America la società       dividui la possibilità di sfruttare i    ni e servizi "cloud-based" che
                  Streetline offre il primo servizio       propri dati ed il diritto di stabilire   abilitano l’analisi dei Big Data
                  in realtime, su smartphone e su si-      le regole e le modalità di commer-       "as-a-service"; esempi in questo
                  stemi di navigazione, per la ricer-      cializzazione dei medesimi. La           senso sono costituiti dall’europea
IL VALORE DEI BIG DATA NELLA DATA-DRIVEN SOCIETY - FABRIZIO ANTONELLI, LUIGI ARTUSIO, CORRADO MOISO - TELECOM ITALIA
43

T-Systems [16], in partnership          Verizon Wireless [20], Telefonica        elaborazioni interattive, ad es.
con Cloudera, e dalla nipponica         Dynamic Insights [21], Orange             per permettere alle persone
NTT Data [17]. Sempre nel mon-          [22] e SFR [23] anonimizzano i            di eseguire "query" o estrarre
do business si registra un trend        dati di localizzazione provenienti        report da grandi moli di dati
di crescita per i ricavi provenienti    dai device mobili dei propri clien-       strutturati;

                                                                                                                         SPECIALE TRENDS
dalla vendita di servizi professio-     ti e li aggregano con altri dati eso-    elaborazioni su flussi di dati
nali specializzati nella valorizza-     geni, al fine di offrire ad organiz-      in real-time, ad es. per filtrare
zione degli asset informativi delle     zazioni pubbliche e private servizi       o inoltrare eventi secondo mo-
società acquirenti.                     ed analisi dei flussi della popola-       delli "pub-sub".
Un’altra area di applicazione del-      zione; tali informazioni possono        Elemento abilitante è costituito
le tecniche di analisi dei Big Data     essere utili, ad esempio, per de-       dai File System distribuiti, in gra-
che trova sempre maggiori con-          terminare i percorsi dei visitatori     do di memorizzare file dell’ordine
sensi fra gli Operatori è quella        in luoghi pubblici (es. stazioni,       dei gigabyte/terabyte in maniera
relativa all’aggregazione di dati       aeroporti, centri commerciali,          affidabile, tramite replicazioni,
endogeni, di difficile replicazione     centri congressi), per migliorare       all’interno di un cluster di nodi.
da parte di altri attori, ed esogeni    le congestioni del traffico, o per      Un esempio è fornito da HDFS
(es. mappe, eventi pubblici, dati       accrescere il turismo ed il com-        (Hadoop Distributed File System)
atmosferici), finalizzata alla ven-     mercio. Infine, Deutsche Telekom        [25]. Operando su hardware di
dita di dati e loro analisi ad orga-    [24], da sempre attenta agli aspet-     tipo "commodity", questi File Sy-
nizzazioni operanti in settori qua-     ti della privacy e della sicurez-       stem hanno un rapporto costo
li retail, advertising, healthcare,     za dei dati, sta supportando una        per byte estremamente basso ed
automotive, smart city e finance.       startup high-tech nella realizza-       offrono una velocità di accesso ot-
NTT Docomo, in collaborazione           zione di una soluzione per l’aggre-     timizzata (es. 2 gigabit per secon-
con Pioneer, sta oggi sviluppando       gazione e la condivisione dei dati      do per nodo) per le elaborazioni.
una soluzione per la raccolta dei       personali delle persone, secondo        Tali File System sono utilizzati
dati di localizzazione provenienti      un modello "user-centric"; la piat-     per la raccolta di dati "raw" prima
da oltre 61 milioni di dispositivi      taforma offre a ciascun individuo       di essere elaborati e/o trasforma-
dalla cui elaborazione è possibile      la possibilità di memorizzare e ge-     ti dagli algoritmi di analisi. Essi
controllare il traffico nel paese. La   stire le proprie informazioni per-      sono impiegati anche per gestire
piattaforma consentirà, tramite         sonali secondo i propri desideri        le risorse di memoria necessarie
API aperte, a sviluppatori esterni      e bisogni, di stabilire le regole di    per realizzare database in grado
di realizzare nuove applicazioni        condivisione e di trarre benefici       di strutturare grandi moli di dati
basate su tali dati, mentre la stes-    economici dalla loro commercia-         in tabelle, come quelle usate per
sa NTT offrirà sia servizi realtime     lizzazione.                             memorizzare i dati necessari per
a supporto dei guidatori, sia servi-                                            servizi on line: ad esempio, i repo-
zi ed applicazioni alle compagnie                                               sitory per la gestione di profili d’u-
assicurative ed alle flotte [18]. In-                                           tente o le tabelle di reverse-index
teressante il piano dichiarato nel
2013 dalla coreana SK Telecom,
                                        4   Le tecnologie abilitanti
                                                                                a supporto di search. Tali databa-
                                                                                se adottano modelli di memoriz-
che prevede il rilascio pubblico        Sui "Big Data" è possibile condur-      zazione di tipo non relazionale,
di dati anonimizzati raccolti da        re differenti classi di elaborazioni,   (es. "key-value", "column-family",
oltre 27 milioni di cellulari appar-    ognuna delle quali è abilitata da una   "document-oriented" [26]), adatti
tenenti ai propri clienti. Questo       diversa tecnologia. Esempi sono:        per organizzare in maniera flessi-
permetterà di realizzare applica-        elaborazioni "on-line", tramite       bile grosse quantità di dati anche
zioni sia a SK Telecom sia a svilup-      cui applicazioni possono repe-        multimediali. Essi offrono opera-
patori esterni, eliminando ogni           rire e/o modificare dati orga-        zioni per eseguire interrogazioni e
controversia sull’abuso di posizio-       nizzati in tabelle di grandi di-      modifiche dei dati, ma realizzano
ne dominante di SK Telecom rela-          mensioni;                             un supporto limitato alle transa-
tivamente all’utilizzo di dati per-      elaborazioni di tipo batch, ad        zioni di tipo "ACID" (cioè quelle
sonali derivati dalla fornitura dei       es. per l’estrazione di nuovi dati    richieste dalle applicazioni di tipo
servizi di telecomunicazione [19].        o di nuova conoscenza;                bancario). In genere, sulla base
IL VALORE DEI BIG DATA NELLA DATA-DRIVEN SOCIETY - FABRIZIO ANTONELLI, LUIGI ARTUSIO, CORRADO MOISO - TELECOM ITALIA
44

                  del "CAP Theorem" [27], questi                     che produce coppie intermedie          sviluppati modelli di tipo "data
                  sistemi privilegiano la scalabilità                nel formato (key, value). Nella fase   flow" come Tez [31]: l’elabora-
                  (per mezzo del partizionamento                     di Reduce, tutte le coppie con una     zione è definita da un insieme di
                  dei dati) e l’affidabilità a scapi-                stessa key sono aggregate secondo      task interconnessi tramite un gra-
                  to della "piena" consistenza, so-                  la logica definita da una procedu-     fo aciclico, che definisce i flussi
SPECIALE TRENDS

                  stituita da forme di consistenza                   ra Pr. Uno sviluppatore deve solo      di scambio di dati. Inoltre, sono
                  "debole" e da un design accurato                   programmare le procedure Pm e          stati proposti linguaggi di script
                  delle applicazioni e dei modelli                   Pr, in quanto tutte le altre funzio-   (es. Pig [32] e Hive [33]), spesso
                  dei dati. Esempi di database per le                ni sono fornite dal sistema.           ispirati ad SQL, con l’obiettivo di
                  elaborazioni on line sono Dyna-                    Il modello Map-Reduce presenta         allargare la base di programmato-
                  mo (Amazon), Cassandra (Face-                      numerosi vantaggi, tra cui fault-      ri, in grado di sviluppare elabora-
                  book), PNUTS (Yahoo!), HBASE e                     tolerance, anche su hardware a         zioni data-intensive. In genere le
                  MongoDB (open source) [28].                        basso costo, e scalabilità su archi-   tecniche compilative di tali script
                  Map-Reduce, sviluppato origina-                    tetture multi-processore, grazie       sui grafi di task hanno raggiunto
                  riamente da Google [29], è sicu-                   allo sfruttamento del parallelismo     tali efficienze che gli script pos-
                  ramente il modello più noto per                    nell’elaborazione dei dati. Soffre     sono essere utilizzati anche per
                  le elaborazioni di tipo batch ed è                 anche di svantaggi, tra cui spreco     condurre elaborazioni di tipo in-
                  usato in un’ampia gamma di sce-                    di energia e risorse dovuto al suo     terattivo.
                  nari, tra cui: ricerche su grafi, si-              approccio di tipo "forza bruta" ed     È opportuno citare che accanto a
                  mulazioni, elaborazioni di imma-                   un modello di programmazione           Map-Reduce sono stati sviluppati
                  gini, data mining (ad es. tramite                  molto rigido, che richiede elevate     modelli di elaborazioni alternativi.
                  la libreria Mahout [30]).                          competenze per trasformare ela-        Ad esempio, Google, la "patria" di
                  Il nome deriva dalle due fasi prin-                borazioni complesse in sequenze        Map-Reduce, utilizza anche Pre-
                  cipali, in cui si struttura un’ela-                di Map-Reduce.                         gel, un modello per l’analisi di grafi
                  borazione (Figura 1). Nella fase                   Per superare questi limiti sono        di nodi di grandi dimensioni [34].
                  di Map ogni partizione di un file                  state proposte numerose esten-         Un’altra classe di elaborazioni
                  è elaborato da una procedura Pm,                   sioni. Ad esempio, sono stati          di Big Data è quella denominata

                  Figura 1 - Flusso di una elaborazione Map-Reduce

                                                                              coordinatore

                                                       mapper
                                                                                                            reducer
                                                       mapper

                                                       mapper                                               reducer

                                                       mapper
                                                                                                            reducer
                                                       mapper

                    Partizionamento              Esecuzione della       Distribuzione delle coppie    Esecuzione della        Aggregazione
                    dei dati di input            procedura “Map”        intermedie (key, value) in   procedura “Reduce”        dei dati di
                                                                             base a hash(key)                                    output
45

L’ecosistema Hadoop nel mondo enterprise
Hadoop, la principale tecnologia Big                  Single Use System                                      Multi Use Data Platform

                                                                                                                                                                                SPECIALE TRENDS
Data emersa in ambito open source, uti-                      Batch Apps                               Bacth, Interactive, Online, Streaming
lizzata su larga scala da Yahoo! e Face-
book, si sta gradualmente diffondendo                        1st Gen of                                                        HADOOP 2
anche nel mondo enterprise.
                                                              Hadoop
                                                                                                    Standard Query            Online Data        Real Time Stream others
I colossi del web hanno impiegato Ha-                                                                 Processing
                                                                                                        Hive, Pig
                                                                                                                              Processing
                                                                                                                               HBase, Accumulo
                                                                                                                                                    Processing
                                                                                                                                                      Storm
                                                                                                                                                                    ...

doop principalmente in ambiti operazio-                     MapReduce
                                                       (cluster resource management                 Batch   Interactive
nali, a diretto contatto con i processi di                   & data processing)
                                                                                                MapReduce           Tez

business. Nel mondo enterprise Hadoop
trova più spesso collocazione nel conte-                         HDFS                                                   Efficient Cluster Resource
                                                                                                                      Management & Shares Services
                                                       (redundant, reliable storage)
sto dell'infrastruttura di data warehouse,                                                                                              (YARN)

a supporto di applicazioni strategiche di                                                                                 Redundant, Reliable Storage
reportistica e di business intelligence.                                                                                                (HDFS)

Qui Hadoop è stato inizialmente con-
                                                   Figura C - L’evoluzione dell’ecosistema Hadoop
finato a silos deputato all’integrazione
delle emergenti tipologie di dati non             data warehouse strutturato. Con Hadoop                      query ad-hoc. Un altro storico limite di
strutturati (Figura A), per poi assumere          i dati depositati sul file system conserva-                 Hadoop è il non totale supporto del lin-
il ruolo di piattaforma paritetica, anche         no il formato originale e il modello infor-                 guaggio SQL da parte di Hive (che con-
al contemporaneo aumentare della di-              mativo viene definito solo al momento                       verte delle query SQL-like in elaborazio-
sponibilità di connettori per le principali       dell'elaborazione in base ai criteri di                     ni batch Map-Reduce). Per risolvere tali
soluzioni commerciali di data warehou-            processing ("schema-on-read"). Il pa-                       problemi sono progressivamente com-
se (Figura B).                                    radigma tradizionale si fonda invece su                     parsi sul mercato degli engine alternativi
Il successo di Hadoop deriva anche dal            un modello dati definito a priori, sorta di                 a Map-Reduce, che ottengono significa-
fatto che il suo file system permette di ar-      mappa della conoscenza aziendale che                        tivi vantaggi prestazionali interagendo
chiviare a costi ragionevoli enormi volumi        solidifica le logiche di accesso alle infor-                direttamente con il file system HDFS e
di dati, senza necessità di procedere ad          mazioni e richiede un laborioso processo                    che sono pienamente compatibili con
aggregazioni o limitazioni dell’orizzonte         di integrazione al momento dell'ingresso                    l’ANSI SQL: Impala di Cloudera, Presto
temporale. Emerge qui il concetto di data         dei dati in archivio ("schema-on-write").                   di Facebook (entrambi open source) e
lake, un "mare" di dati grezzi di natura          Resta così sullo sfondo la possibilità che                  HAWQ di Pivotal.
eterogenea, che supera il paradigma di            Hadoop sia destinato ad ospitare tutte le                   La release 2.0 (Figura C) di Hadoop
                                                  tipologie di dati aziendali, facilitando lo                 ha introdotto YARN, sistema operativo
 Figura A, B - L’evoluzione del ruolo di Hadoop
 nell’enterprise                                  sviluppo di applicazioni data-driven tra-                   che disaccoppia il file system distribuito
                                                  sversali ai sistemi sorgenti, marginaliz-                   HDFS da Map-Reduce e permette la co-
                                                  zando l'infrastruttura di data warehouse                    esistenza su un cluster condiviso di più
             Data Warehouse
                                                  preesistente.                                               engine di elaborazione parallela come
                                                  Hadoop rimane un ecosistema in evolu-                       quelli appena citati (il ramo "Others" di
     Dati strutturali                             zione. Il modello computazionale Map-                       Figura C). La community - capitanata da
                             Hadoop               Reduce, come si è detto, nasce come                         Hortonworks - ha anche sviluppato un
                                                  sistema batch, e non è così efficiente da                   proprio framework interattivo, Tez (inne-
                                                  fornire risposte immediate. L’interattivi-                  scato da Hive, dunque non ancora del
                          Dati non strutturali
                                                  tà delle query sulla scala dei petabyte                     tutto SQL-compatibile), che si affianca
                                                  è di interesse prioritario, applicandosi                    all’ambiente di gestione dei dati in stre-
          DW                 Hadoop               sia agli scenari di real-time business                      aming (Storm) e ai database NoSQL di
                                                  intelligence, sia al mondo del data wa-                     tipo colonnare (HBase e Accumulo) 
                                                  rehouse, quando Hadoop viene utilizza-
     Dati strutturali     Dati non strutturali
                                                  to come archivio online su cui effettuare                    umberto.trinchero@telecomitalia.it
46

                  "Complex Event Processing", la                 prevede il coinvolgimento di 150                                di MIT che oggi è considerato uno
                  quale permette di analizzare in                giovani famiglie sul territorio tren-                           dei gruppi più rilevanti al mondo
                  real-time stream di (big) data. Un             tino che sono state dotate di uno                               sul tema dell’analisi del comporta-
                  esempio rinomato è Storm [35],                 smartphone, una SIM con credito                                 mento da Big Data grazie anche al
                  una piattaforma sviluppata e resa              prepagato e del software a bordo.                               suo direttore, Prof. Sandy Pentland,
SPECIALE TRENDS

                  open source da Twitter. Storm è in             La piattaforma software sviluppata                              uno dei sette scienziati più influen-
                  grado di elaborare stream di dati              permette di raccogliere e analizzare                            ti al mondo [37].
                  prodotti in tempo reale, con una               qualsiasi dato generato dalla senso-                            Il MTL trae spunto e indicazioni
                  ridotta latency, come ad esempio               ristica a bordo dello smartphone o                              dalle campagne di raccolta per lo
                  richiesto dalle elaborazioni sui               di device ad esso connessi (es. brac-                           sviluppo ed il test di servizi che
                  flussi di Twitter. Storm realizza              cialetti con parametri fisiologici).                            fanno un uso massivo di Personal
                  una scalabilità orizzontale, sfrut-            Seguendo un approccio scientifico,                              Big Data. Tra questi vi sono Fa-
                  tando la possibilità di paralleliz-            vengono organizzate campagne                                    milink e SecondNose. Familink è
                  zare le elaborazioni, e, grazie alle           di raccolta e analisi di dati, che va-                          un servizio che permette ad una
                  sue caratteristiche di fault-tole-             lutano, ad esempio, l’impatto del-                              comunità iper-locale di famiglie
                  rance, può essere dispiegato su                la mobilità e delle comunicazioni                               (come quella coinvolta nel pro-
                  cluster di nodi a basso costo.                 sullo stress quotidiano, la preve-                              getto) di condividere e scoprire le
                                                                 dibilità dei profili di spesa sulla                             opportunità sul territorio, attra-
                                                                 base del comportamento in mobi-                                 verso una condivisione avanzata
                                                                 lità, oppure la predisposizione alla                            dei propri dati personali ed una
                  5   Il Joint Open Lab SKIL di Telecom Italia
                                                                 condivisione dei dati personali. In
                                                                 questo percorso è di fondamentale
                                                                                                                                 esperienza di interazione ed inte-
                                                                                                                                 grazione fra persone che vivono il
                  I Big Data e le relative applica-              importanza il contributo che viene                              territorio (Figura 2).
                  zioni sono al centro delle attività            dai partner accademici, in partico-                             SecondNose è invece un servizio
                  che Telecom Italia porta avanti                lare dal gruppo Human Dynamics                                  che, attraverso la condivisione a
                  all’interno del laboratorio SKIL di
                  Trento1 che, nato nel 2011, lavora             Figura 2 - Il servizio Familink sviluppato all'interno di MTL

                  in stretta sinergia con le eccellen-
                  ze accademiche italiane e stranie-
                  re per lo sviluppo di soluzioni che
                  valorizzino il patrimonio di dati
                  che Telecom Italia e i suoi partner
                  possiedono.
                  Le due iniziative più rilevanti re-
                  alizzate oggi in SKIL sono il pro-
                  getto Mobile Territorial Lab ed il
                  progetto CitySensing.

                  5.1     Il progetto Mobile Territorial Lab

                  Il progetto Mobile Territorial Lab2
                  sviluppato insieme a MIT Media
                  Lab, Telefonica e Fondazione Bru-
                  no Kessler (Trento), ha l’obiettivo
                  di analizzare le dinamiche ed il
                  valore nella correlazione dei dati
                  personali di diversa natura, al fine
                  di realizzare servizi e applicazioni
                  personal data-oriented [36]. Esso

                  1 http://skil.telecomitalia.com
                  2 MTL - www.mobileterritoriallab.eu
47

                                                                                                                                                                SPECIALE TRENDS
  Figura 3 - Mappa della qualità dell'aria generata attraverso i dati raccolti e elaborati dai terminali dei cittadini

livello territoriale della propria                           che l’operatore telefonico ricopre                          sonale. Il Personal Data Store di
posizione e dei parametri di qua-                            all’interno dell’ecosistema. A tal                          MTL è stato citato nel 2013 come
lità dell’aria raccolti attraverso un                        proposito, affinché la valorizza-                           uno dei casi di riferimento dal
piccolo sensore portatile, permet-                           zione del dato personale diventi                            rapporto sui Personal Data del
te di creare una mappa partecipa-                            un’opportunità e non una minac-                             World Economic Forum [38].
ta della qualità dell’aria della città,                      cia per l’utente, sono in fase di                           Al Personal Data Store si asso-
trasformando i cittadini in sensori                          sviluppo tecnologie di gestione                             ciano altre soluzioni che hanno
del territorio e mettendo la comu-                           trasparente del dato personale:                             l’obiettivo di aumentare la sen-
nità al centro dello sviluppo delle                          lo strumento si chiama Personal                             sibilità sul tema della gestione
città intelligenti (Figura 3).                               Data Store, (Figura 4), una piat-                           dei dati personali da parte degli
Le tecnologie sviluppate all’in-                             taforma software, ospitata all’in-                          smartphone. Ne è un esempio
terno di MTL, per una gestione                               terno del cloud di Telecom Italia,                          l’applicazione TIM CheckApp
non frammentata dei dati per-                                attraverso cui ogni singolo uten-                           [39], sviluppata dall’esperienza di
sonali del cittadino, abilitano                              te, per mezzo di una semplice                               MTL, che permette agli utenti An-
una moltitudine di servizi che,                              applicazione web o mobile, può                              droid di conoscere e scoprire l’uti-
in prospettiva, potranno rappre-                             controllare la raccolta, l’accesso,                         lizzo che le applicazioni installate
sentare un cambio sostanziale                                la condivisione, la cancellazio-                            sul proprio dispositivo fanno dei
nell’offerta ai cittadini e nel ruolo                        ne di ogni suo singolo dato per-                            dati generati dal telefono stesso.
48
SPECIALE TRENDS

                  Figura 4 - Una vista del Personal Data Store

                        Big Data Challenge
                        C’è un mondo là fuori fatto di designer, svi-
                        luppatori e ricercatori, ricco di competenze
                        e di idee che può diventare una nuova ri-
                        sorsa per le grandi aziende, come Telecom
                        Italia, che competono in un mercato pro-
                        fondamente cambiato, con dinamiche nuo-
                        ve e tempi di vita dei servizi estremamente
                        ridotti. A quel mondo l’Azienda si è rivolta
                        attraverso il lancio di una sfida aperta ad
                        idee sul tema Big Data; e così è nata l’ini-
                        ziativa Telecom Italia Big Data Challenge.
                        Il modello delle challenge sta diventando
                        un riferimento per chi fa innovazione oggi
                        nel mondo, come dimostrano le molte ini-
                        ziative lanciate (vedi ad esempio la D4D        si ad un mondo, fatto di giovani risorse e       pacchetto, i partecipanti possono svilup-
                        challenge di Orange [40], o la InnovaChal-      startup, che sarà il suo interlocutore privi-    pare la propria idea per provare ad aggiu-
                        lenge di BBVA [41]), perché permettono          legiato nei prossimi anni.                       dicarsi i premi messi in palio. Ciascun par-
                        di richiamare, condividere e confrontarsi       Ma entriamo nel dettaglio della Telecom          tecipante può concorrere, singolarmente
                        con una platea ampia di esperti, su temi        Italia Big Data Challenge. Il concorso           o in team, in una delle tre track disponibili:
                        ancora molto innovativi, come quello dei        ha messo a disposizione degli iscritti un        sviluppo applicazioni, data analytics o
                        Big Data. Realtà che, a loro volta, spesso      pacchetto di dati anonimi eterogenei (te-        visualizzazione dati. Le iscrizioni si sono
                        sono alla ricerca di occasioni di confron-      lecomunicazioni, consumo energetico,             chiuse il 14 febbraio 2014 e hanno visto
                        to come queste e di legami con contesti         social, mobilità privata, ecc.) proveniente      una partecipazione di oltre 1000 persone
                        applicativi nuovi, abilitati dall’accesso a     dalla rete Telecom Italia o da suoi partner.     provenienti da tutto il mondo. Un comita-
                        grandi basi dati.                               I dati sono relativi all’ultimo bimestre 2013    to d’eccezione, di cui fanno parte tra gli
                        Per Telecom Italia la scelta di lanciare una    e geo-referenziati per i territori di Milano     altri Sandy Pentland (MIT), Gianni Riotta
                        challenge segna un passaggio importan-          e Trentino e sono accessibili mediante           (Princeton, RAI) e Riccardo Luna (Wired),
                        te, perché ha significato condividere una       API o download attraverso la piattaforma         ha valutato le proposte pervenute con la
                        parte del proprio patrimonio informativo,       Dandelion, messa a disposizione da Spa-          premiazione il 3 aprile a Trento in occa-
                        finora gelosamente conservato, per aprir-       zioDati [42]. A partire dai dati contenuti nel   sione degli ICT Days3 

                  3 http://www.telecomitalia.com/bigdatachallenge
49

  Big Data Cross Platform
  Per mettere in esercizio un sistema in-          processing (batch e real-time), alla pre-         il quale sarebbe possibile effettuare la

                                                                                                                                                                           SPECIALE TRENDS
  formatico atto ad elaborare grosse moli          sentation dei dati ed alla gestione.              compravendita di dataset abilitanti nuovi
  di dati, un’organizzazione dovrebbe do-          Mediante il prototipo di piattaforma              "actionable insights". Anche il patrimo-
  tarsi di un’infrastruttura tecnologica con       sono stati implementati diversi concept,          nio di dataset di Telecom Italia, con gli
  caratteristiche simili a quelle di un data       che dimostrano come i servizi possano             opportuni vincoli di privacy, potrebbe
  center, sebbene in scala ridotta nella           essere erogati sia a livello PaaS, in cui         trovare posto nel Data Marketplace e
  fase iniziale. Inoltre per raggiungere l’o-      gli utilizzatori interagiscono sfruttando         quindi essere monetizzato. La piatta-
  peratività, tale infrastruttura necessita        le funzionalità di base mediante un’in-           forma, in modo del tutto analogo, può
  di essere alimentata dai differenti data         terfaccia grafica dedicata, sia a livello         abilitare molteplici applicazioni verticali
  source di interesse, di essere monitora-         SaaS in cui gli utilizzatori fruiscono dei        rivolte a specifici mercati (utilities, finan-
  ta costantemente e di essere manute-             servizi evoluti come Business Intelligen-         ce, assicurazioni, ecc.) 
  nuta sia in via preventiva che correttiva.       ce as a Service (BIaaS).
  Al fine di supportare tutte queste attivi-       Sulla piattaforma è possibile innestare
  tà, l’azienda deve dotarsi di competenze         in fasi successive applicazioni come, ad            roberto.pagnin@telecomitalia.it
  specializzate investendo sul personale           esempio, il Data Marketplace, mediante              fabrizio.verroca@telecomitalia.it
  interno o su servizi professionali esterni.
  Questi aspetti possono rappresenta-               Figura - Architettura Logica
  re delle criticità, ma allo stesso tempo
  un’opportunità di business per Telecom                                                             Verticals
  Italia.
  In Azienda è stato realizzato il prototipo
                                                                                       Presentation Layer
  evoluto di una piattaforma distribuita per                                       R, SAS, BI Tools, Datameer,...
  il processing dei Big Data che, una volta

                                                                                                                              Monitoring & Management
                                                                                                                              Cloudera manager + support
  ingegnerizzato, potrà erogare strumenti
  e servizi alla clientela sia interna (diversi                                      Application Layer
  dipartimenti presenti in TI) che esterna                                     MapReduce, Oozie, R, SAS, BI Tools,...

                                                                                                                                                           Metadata
  in modalità "as-a-service", fornendo
  un’interfaccia visuale ed una serie di
                                                                                    Processing Layer
  strumenti atti ad astrarre la complessità
                                                          Data               MapReduce, Hive, Pig, Impala, Mahout
  tecnologica lasciando al cliente il focus
                                                       Ingestion                    DataFu, Crunch,...
  sul business.                                          Flume,
  La piattaforma è logicamente rappre-                   Sqoop,
  sentabile come in Figura, in cui si evi-                                                Storage Layer
                                                        REST API
                                                                                           HDFS, HBase
  denziano i principali layer architetturali
  deputati all’ingestion, allo storage, al

5.2   Il progetto CitySensing
                                                  dati anonimi geo-referenziati ed
                                                  eterogenei. In particolare, oggi
                                                                                                     della città, focalizzata sui gran-
                                                                                                     di eventi cittadini, che mostra la
Il progetto CitySensing, svilup-                  a Trento si stanno analizzan-                      presenza di persone, i contenuti
pato in collaborazione con il                     do i dati provenienti dalla rete                   più discussi, la provenienza e la
Politecnico di Milano, ha invece                  Telecom Italia (chiamate, sms,                     distribuzione socio-demografica
l’obiettivo di monitorare le dina-                connessioni dati) e dai social                     dei partecipanti, il sentiment
miche di un territorio attraver-                  network (es. Twitter). Il risul-                   (gradimento) espresso sui social
so l’analisi e la correlazione di                 tato è una mappatura dinamica                      network …
50
SPECIALE TRENDS

                  Figura 5a – CitySensing: la mappa della presenza e del sentiment della città di Milano durante il Salone del Mobile

                  Figura 5b – CitySensing: il network dei temi discussi nella città di Milano durante il Salone del Mobile
51

Tale mappatura rappresenta una          offre innumerevoli opportunità              [2]   General Electric, "Industrial Internet:
sorgente quanto mai precisa e chia-     alle organizzazioni pubbliche e                   Pushing the Boundaries of Minds and
ra per capire l’evoluzione dei ter-     private sia per ottimizzare i pro-                Machines", novembre 2012
ritori, delle città o l’impatto degli   cessi interni ed incrementare il            [3]   Gartner, "Information 2020: Beyond
eventi che su di essa hanno luogo.      business tradizionale, sia per svi-               Big Data", 2013

                                                                                                                                     SPECIALE TRENDS
In questo senso è possibile sfrutta-    luppare nuovi prodotti e servizi            [4]   Forrester, "Forrsights Strategy Spot-
re i Big Data per analizzare macro      per la "Data-driven Society".                     light: Business Intelligence and Big
e micro fenomeni prima invisibili o     Il processo di trasformazione del-                Data", 2013
non catturabili su larga scala.         le imprese e del relativo business          [5]   Tata Consulting Services, "The emer-
La piattaforma CitySensing, che è       richiede necessariamente tempo                    ging big returns on big data", 2013
in rapida evoluzione e ancora una       ed investimenti per il dispiega-            [6]   Politecnico di Milano, Osservatori.
volta ospitata nel cloud di Tele-       mento di infrastrutture tecniche                  Net ICT & Management, "Big Data:
com Italia, è stata istanziata in       innovative e per lo sviluppo del-                 come orientarsi nel labirinto?",
diverse città e per diversi eventi.     le competenze richieste ai "data                  dicembre 2013
La versione più completa, (Figure       scientist".                                 [7]   MIT Technology Review, "Big Data",
5a e 5b), è quella implementata         L’approccio ai Big Data, di sua                   edizione italiana, 4/2013
su Milano, dove ad oggi sono sta-       natura trasversale, richiede una            [8]   McKinsey Global Institute, "Big
ti "monitorati" gli eventi del Sa-      rivisitazione delle politiche di                  data: The next frontier for innova-
lone del Mobile e Fashion Week          gestione dei dati all’interno delle               tion, competition, and productivity",
e dove verrà mappato l’impatto di       organizzazioni, per valorizzare i                 giugno 2011
EXPO 2015 sulla città attraverso        medesimi come un asset azien-               [9]   Zurich University of Applied
lo tsunami di dati che esso porte-      dale condiviso. Inoltre è funzio-                 Sciences, Big Data World Congress,
rà con sé.                              nale che i progetti di utilizzo dei               Monaco, dicembre 2013
La piattaforma di raccolta e analisi    Big Data prevedano nativamente              [10] Telecom Italia, "Big Data - State of the
dei flussi sviluppata nel progetto      sempre il coinvolgimento delle                    art and opportunities", dicembre 2013
CitySensing apre a innumerevoli         funzioni aziendali responsabili             [11] http://www.bigdata-startups.com/
opportunità di servizi di monito-       degli aspetti legali e di privacy, per            BigData-startup/walmart-making-
raggio e analisi delle dinamiche        assicurare che gli stessi progetti                big-data-part-dna/
cittadine, anche al di là di quel-      siano valutati e correttamente in-          [12] Gartner, "Big Data and Analytics Art
le strettamente legate a singoli        dirizzati.                                        of the Possible", 2012
eventi: dall’analisi dei flussi turi-   In questo scenario gli operatori            [13] https://www.hailocab.com/
stici a quella della pianificazione     di telecomunicazione oltre a trar-          [14] http://www.streetline.com/
urbana, alla previsione del rischio     re beneficio diretto dallo sfrutta-         [15] http://arthurm.com/selling-data/
o della sicurezza urbana,...            mento delle grandi moli di dati di          [16] http://www.t-systems.com/news-
Nei prossimi anni, dunque, i Big        cui dispongono, possono anche                     media/t-systems-and-cloudera-offer-
Data rappresenteranno così una          giocare il ruolo di abilitatori del-              joint-cloud-based-solutions-for-big-
parte dell’infrastruttura delle         la "Data-driven Society", offrendo                data-analysis/1067634
città, al pari della rete di illumi-    prodotti, servizi e competenze a            [17] http://www.nttdata.com/global/en/
nazione pubblica o della metro-         quelle organizzazioni che inten-                  services/bds/index.html
politana, sulla base della quale i      dono intraprendere tale percorso            [18] https://www.nttdocomo.co.jp/
cittadini, le imprese e l’ammini-       di trasformazione                                english/info/media_center/
strazione potranno fare affida-                                                           pr/2013/0513_00.html
mento per lo sviluppo dei servizi                                                   [19] http://english.khan.co.kr/khan_art_
di Smart City.                                                                            view.html?artid=201305091950107

                                              Bibliografia                               &code=710100
                                                                                    [20] http://business.verizonwireless.com/

Conclusioni                             [1]   Big Data Public Private Forum, "Big
                                                                                          content/b2b/en/precision/precision-
                                                                                          market-insights.html
                                              Data roadmaps for the industry",      [21] http://dynamicinsights.telefonica.com/
In conclusione, appare evidente               Big Data World Congress, Monaco,      [22] http://www.orange.com/en/press/
che lo sfruttamento dei Big Data              dicembre 2013                               press-releases/press-releases-2013/
52

                        Flux-Vision-Orange-Business-Servi-       [29] J. Dean, G. Sanjay, "MapReduce: a fle-         user Transparency, Control and
                        ces-launches-its-first-Big-Data-offer-        xible data processing tool", Commu-            Awareness: a Living-Lab experience",
                        for-businesses-public-authorities             nications of the ACM (2010), 72-77.            In Proceedings of. European Data
                  [23] http://www.telecoms.com/50865/            [30] G. Ingersoll, Introducing Apache               Forum (2014).
                        customer-data-creating-revenue-               Mahout. (2009).                           [37] http://www.forbes.com/pictures/
SPECIALE TRENDS

                        opportunities-in-unlikely-places/        [31] Apache Software Foundation, Tez                lmm45emkh/6-alex-sandy-pentland-
                  [24] http://www.laboratories.telekom.               Project Incubator, http://incubator.           professor-mit/
                        com/public/english/netzwerk/pages/            apache.org/projects/tez.html              [38] http://www3.weforum.org/docs/
                        siliconplatz.aspx                        [32] C. Olston, B. Reed, et al., "Pig latin:        WEF_IT_UnlockingValuePersonalDa-
                  [25] K. Shvachko, H. Kuang, et al., "The            a not-so-foreign language for data             ta_CollectionUsage_Report_2013.pdf
                        hadoop distributed file system". In           processing". In Proceedings of the        [39] https://play.google.com/store/
                        Proceedings 26th Symposium on                 2008 ACM SIGMOD international                  apps/details?id=it.telecomitalia.
                        Mass Storage Systems and Technolo-            conference on Management of data               timcheckapp
                        gies (2010), 1-10.                            (2008),1099-1110.                         [40] http://www.d4d.orange.com/home
                  [26] R. Padhy, R. Manas, et al., "RDBMS        [33] A. Thusoo, J. Sarma, et al.,. "Hive: a    [41] https://www.centrodeinnovacion
                        to NoSQL: Reviewing Some Next-Ge-             warehousing solution over a map-               bbva.com/en/innovachallenge
                        neration Non-Relational Databases".           reduce framework". In Proceedings         [42] http://www.spaziodati.eu
                        International Journal of Advanced             of the VLDB Endowment (2009),
                        Engineering Science and Technolo-             1626-1629.
                        gies (2011), 15-30.                      [34] G. Malewicz, M. Austern, et al.,
                  [27] S. Gilbert, Seth, N. Lynch, "Brewer's          "Pregel: a system for large-scale
                        conjecture and the feasibility of con-        graph processing". In Proceedings of
                        sistent, available, partition-tolerant        the 2010 ACM SIGMOD Internatio-
                        web services". In ACM SIGACT News             nal Conference on Management of
                        (2002), 51-59.                                data (2010), 135-146.
                  [28] J. Han, E. Haihong, et al., "Survey on    [35] Storm, Distributed and fault-tole-
                        NoSQL database". In Proceedings of            rant realtime computation,
                        6th international conference on Per-          http://storm-project.net/
                        vasive computing and applications        [36] M. Vescovi, C. Moiso, et al. "Toward
                        (2011), 363-366.                              Personal Big Data passing through

                                                                                                                fabrizio.antonelli@telecomitalia.it
                                                                                                                     luigi.artusio@telecomitalia.it
                                                                                                                   corrado.moiso@telecomitalia.it
53

                                                                                                            SPECIALE TRENDS
Fabrizio                            Luigi                               Corrado
Antonelli                           Artusio                             Moiso
informatico, con uno                informatico, dal 1989 è in          laurato in Scienze
scolarship presso l’Arizona         Azienda. Nei primi anni             dell’Informazione, è in Azienda
State University. Inizialmente      ha approfondito gli aspetti         dal 1984. Inizialmente ha
in Azienda si è occupato di         di gestione delle reti e dei        studiato linguaggi logici e
tecnologie di recommendation        servizi di telecomunicazione,       funzionali, l’elaborazione
basate su testi, sistemi di         operando sia negli enti             distribuita ad oggetti ed il loro
classificazione automatica          standardizzazione, sia nei          uso in TMN. Dal 1994, con
e knowledge discovery.              progetti di ingegnerizzazione       diversi ruoli di responsabilità,
Attualmente è direttore del         dei sistemi di gestione,            ha investigato l’introduzione
Semantics and Knowledge             assumendo diversi ruoli di          di IT nell’Intelligenza di
Innovation Lab (SKIL) di            responsabilità.                     Rete, contribuendo alla
Telecom Italia a Trento, con        Ha poi sviluppato esperienze        sperimentazione di TINA,
l’obiettivo di progettare e         di program e vendor                 allo standard Parlay ed
investigare servizi innovativi      management, contribuendo            all’introduzione di SOA e
data-driven.                        alla messa in esercizio di          di soluzioni autonomiche
I progetti che coordina sono        soluzioni innovative sia di rete,   nelle piattaforme di servizio.
sulla correlazione di big data      come quella di Voice over IP        Attualmente investiga come
eterogenei e sull’analisi delle     “Alice voce”, che di gestione.      soluzioni IT innovative
dinamiche e dei profili delle       Attualmente sviluppa ricerche       possono abilitare nuovi scenari
persone a partire dai dati          sui trend evolutivi del             applicativi per gli operatori
personali. Quest’ultima attività,   mercato ICT, per proporre           di Telecomunicazione. Ha
prevedendo lo sviluppo di           nuove possibili opportunità         collaborato a progetti finanziati
tecnologie per la protezione dei    economiche per il Gruppo            da EC ed Eurescom; è autore
dati personali, nel 2013 è stata                                        diverse pubblicazioni, nonché
citata come caso di riferimento                                         di brevetti su sistemi e metodi
presso il World Economic                                                per servizi.
Forum.
Puoi anche leggere