Integrazione e governance dei Big Data - I big data possono costituire un ostacolo all'integrazione? No, se si seguono le best practice illustrate ...

Pagina creata da Tommaso Colucci
 
CONTINUA A LEGGERE
Integrazione e governance dei Big Data - I big data possono costituire un ostacolo all'integrazione? No, se si seguono le best practice illustrate ...
IBM Software

Integrazione e governance dei Big Data
I big data possono costituire un ostacolo all’integrazione?
No, se si seguono le best practice illustrate di seguito
Integrazione e governance dei Big Data - I big data possono costituire un ostacolo all'integrazione? No, se si seguono le best practice illustrate ...
Integrazione e governance dei Big Data

           1
      Introduzione
                                         2
                                 Requisiti di
                                                       3
                                                  Best practice:
                                                                         4
                                                                   IBM InfoSphere
                                                                                               5
                                                                                          Perché InfoSphere?
                                 integrazione     Integrazione     offre il livello di
                                 e governance     e governance     affidabilità
                                 per i Big Data   efficace dei     necessario per
                                                  Big Data         sfruttare i Big Data
Integrazione e governance dei Big Data - I big data possono costituire un ostacolo all'integrazione? No, se si seguono le best practice illustrate ...
Integrazione e governance dei Big Data

Introduzione
I business leader ambiscono a sfruttare la                   Per ottenere il massimo vantaggio dai Big Data,            Automatizzando l’integrazione e la governance
potenza dei Big Data. Tuttavia, assicurare                   il punto di partenza deve essere l’affidabilità            delle informazioni e implementandole nella
l’affidabilità e la protezione delle fonti delle             dei dati. Tuttavia, il volume e la complessità dei         fase di creazione dei dati, le aziende possono
informazioni è diventato esponenzialmente                    Big Data sono talmente elevati che i metodi                aumentare notevolmente l’affidabilità dei Big
più complesso. Se il problema legato                         manuali tradizionali di discovery, governance              Data.
all’attendibilità dei dati non viene risolto                 e correzione delle informazioni non sono più
direttamente, gli utenti finali possono perdere              fattibili. L’integrazione e la governance delle            Un programma di integrazione e governance
fiducia negli insight generati dai dati, con                 informazioni devono essere implementate                    solido deve includere la discovery, la
conseguente impossibilità di cogliere le                     all’interno delle applicazioni Big Data, fornendo,         profilazione e la comprensione di set di
opportunità e prevenire le minacce.                          sin dall’inizio, una governance adeguata e                 dati differenti per fornire un contesto e
                                                             un’integrazione rapida.                                    consentire ai dipendenti di prendere decisioni
                                                                                                                        informate. Questo programma deve essere
                                                                                                                        agile per accogliere una vasta gamma di
I Big Data sono un fenomeno, non una tecnologia                                                                         dati e deve integrarsi perfettamente con le
Con tutto il clamore che ruota intorno ai Big Data, è facile essere indotti a pensare che i Big Data                    diverse tecnologie, dai data mart ai sistemi
rappresentino la panacea di tutti i mali. I Big Data, tuttavia, non sono una tecnologia, ma un fenomeno.                Apache Hadoop. Inoltre, deve eseguire
Per sfruttarli in modo efficace, bisogna essere in grado di integrare e governare i dati chiave nell’intero             automaticamente la discovery, la protezione
ambito aziendale.                                                                                                       e il monitoraggio delle informazioni sensibili,
                                                                                                                        come parte delle funzioni delle applicazioni
                                                                                                                        per i Big Data.
                                                                                                                                                                          3

     1 Introduzione                   2 Requisiti di integrazione       3 Best practice: Integrazione    4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                        e governance per                  e governance efficace dei        di affidabilità necessario per
                                        i Big Data                        Big Data                         sfruttare i Big Data
Integrazione e governance dei Big Data - I big data possono costituire un ostacolo all'integrazione? No, se si seguono le best practice illustrate ...
Integrazione e governance dei Big Data

Requisiti di integrazione e governance per i Big Data
Quando si parla di Big Data, le discussioni                  garantire i migliori risultati, i dati provenienti        che facilita il l’attività di analytics, producendo
vertono spesso sull’analytics e Hadoop.                      dalle fonti di Big Data devono essere integrati,          informazioni aziendali preziose e fruibili.
È interessante notare che la Big Data Analytics              governati e affidabili.
si è recentemente spostata verso i dati                                                                                Le soluzioni appropriate per l’integrazione
strutturati, allontanandosi dalle sue origini che            In realtà, molte delle sfide più comuni                   e la governance dei Big Data devono:
risiedevano nei dati non strutturati. Ma se,                 associate ai Big Data non sono legate a
da un lato, analytics e Hadoop sono importanti               problemi di analytics. In molti casi, si tratta           1. Essere agili
per i dati sia strutturati che non, dall’altro               di problemi di integrazione dati fondamentali,            2. Essere costruite su un’architettura
rappresentano solo un tassello del puzzle che                persino “tradizionali”, e possono essere                     a prestazioni elevate e scalabile
compone i Big Data.                                          evitati o affrontati con una soluzione per                3. Sostenere un’efficienza maggiore
                                                             l’integrazione e la governance dei dati                   4. Contribuire a creare attendibilità
I professionisti lungimiranti dell’Information               agile e di classe enterprise.                                sull’autenticità dei dati
Technology (IT) ora si rendono conto che il                                                                            5. Soddisfare le esigenze di flessibilità
fenomeno dei Big Data sta avendo un impatto                  Inoltre, le nuove fonti di Big Data sono inutili             e agilità di delivery dei dati.
su tutti i sistemi, creando una nuova serie di               se risiedono in silos e devono essere integrate
requisiti che incidono sui risultati delle iniziative        nell’architettura aziendale. Le soluzioni migliori
di data warehousing, Big Data e analytics. Per               costituiscono una base solida e integrata

                                                                                                                                                                             4

     1 Introduzione                   2 Requisiti di integrazione       3 Best practice: Integrazione   4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                        e governance per                  e governance efficace dei       di affidabilità necessario per
                                        i Big Data                        Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data - I big data possono costituire un ostacolo all'integrazione? No, se si seguono le best practice illustrate ...
Integrazione e governance dei Big Data

Best practice: Integrazione e governance efficace dei Big Data
Alcune best practice per l’integrazione e                •   Dinamica per soddisfare i requisiti di
governance possono consentirvi di trarre il                  performance attuali e futuri                              Scalabilità dei dati nelle architetture hardware
massimo valore dai Big Data aziendali.                   •   Estendibile e partizionata per una                        x
                                                                                                                           y
                                                                                                                                MPP/Grid
                                                             scalabilità facile e veloce                                        (Centinaia di TB)                           64 vie
Introdurre l’agilità nell’IT per migliorare              •   Integrata con Hadoop. Hadoop di per sé
performance e scalabilità                                    non è una piattaforma di integrazione, ma
                                                                                                                                                                          16 vie
I Big Data affluiscono ad alta velocità, per                 può essere sfruttato come componente di                            SMP/MPP
                                                                                                                                (Centinaia di GB)
questo la performance è fondamentale. I dati                 un’architettura di destinazione dei dati per
cambiano velocemente e devono afferire a                     determinarne il valore in un’ottica di                                                        8 vie
diverse applicazioni del sistema in tempi rapidi,            ottimizzazione equilibrata.
in modo che i business leader possano                                                                                           SMP
                                                                                                                                (GBs)
reagire alle mutevoli condizioni di mercato              La scalabilità è uno dei requisiti più complessi
                                                         di integrazione dei Big Data visto che i                                           2 vie
il più presto possibile.
                                                         requisiti di business possono evolvere molto                  1x
                                                                                                                               Un processore                           Centinaia di processori
Per gestire i Big Data con successo, le aziende          rapidamente. Di conseguenza, nell’affrontare
hanno bisogno di una soluzione di integrazione           l’integrazione dei Big Data, è importante                             • Stessa funzionalità
                                                                                                                               • Tutte le architetture
dei dati di classe enterprise che sia:                   disporre di un prodotto in grado di garantire la                      • Accelerazione lineare
                                                         scalabilità dei dati su tutte le architetture con la                  • Decisione (in fase di esecuzione) di scalare di “N vie”
                                                         stessa funzione e con un aumento lineare delle
                                                         velocità, scalando senza problemi.
                                                                                                                                                                                                 5

     1 Introduzione               2 Requisiti di integrazione         3 Best practice: Integrazione   4 IBM InfoSphere offre il livello             5 Perché InfoSphere?
                                    e governance per                    e governance efficace dei       di affidabilità necessario per
                                    i Big Data                          Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data

Lavorare meglio e meno, riducendo                         Per migliorare la produttività, è importante                                                altro metodo di implementazione. Questo
i costi                                                   creare una logica progettuale dedicata alle                                                 approccio elimina la necessità di imparare i
Il tempo dei dipendenti è una risorsa preziosa e          iniziative di integrazione dei dati orientate ad                                            nuovi linguaggi di codificazione mano a mano
costosa. Una soluzione di integrazione per i Big          Hadoop, utilizzando la stessa interfaccia,                                                  che evolvono e di eseguire attività manuali
Data che supporti la produttività e l’efficienza          concetti e costrutti logici comuni a qualsiasi                                              di codifica e duplicazione.
dei dipendenti consente di migliorare i profitti
dell’impresa, eliminando i colli di bottiglia e
                                                          Lavorare di più                                                                        Lavorare in modo più produttivo
aumentando l’agilità.
                                                                                           Le velocità di analisi lente richiedono tempi di                        Interfaccia unica per le attività di integrazione
Per le divisioni IT, gli SLA (Service Level                                                elaborazione più lunghi e tempi di inattività prolungati
                                                                                                                                                                   Supporto per più fonti di dati
Agreement) risentono spesso delle inefficienze.                       Lavorare con più                                                                             e dati in streaming
                                                                                interfacce
Mano a mano che i volumi, la varietà, la                                                             Operare con codici                                            Insieme di concetti e costrutti logici
                                                                                                     di linguaggio diversi                                         prestabiliti e confermati
velocità e la veridicità dei dati aumentano,                                                                                                                       I processi e gli elementi automatizzati limitano
il tempo necessario per l’elaborazione dei                                                                                                                         la codifica e la duplicazione manuale

processi di integrazione dei dati supera spesso            Inizio:
                                                           Fonti                                                                    Fine:
                                                                                                                                                 Start:
                                                                                                                                                 Data
                                                                                                                                                                   Dati raccolti e trasmessi direttamente ai           Fine:
                                                                                                                                                                                                                       Dati
                                                                                                                                    Dati                           processi di analytics in tempo reale
la finestra consentita dagli SLA, il che significa         di dati   Più consegne
                                                                                                                                    integrati
                                                                                                                                                 sources                                                               integrati
                                                                     di dati tra sistemi
che non è più conforme alle esigenze dei                                                      Colli di bottiglia nell’operatività
                                                                                              del personale a causa dei
clienti interni.                                                                              processi manuali

                                                                                                                                                                                                                                   6

     1 Introduzione                2 Requisiti di integrazione          3 Best practice: Integrazione                                4 IBM InfoSphere offre il livello       5 Perché InfoSphere?
                                     e governance per                     e governance efficace dei                                    di affidabilità necessario per
                                     i Big Data                           Big Data                                                     sfruttare i Big Data
Integrazione e governance dei Big Data

Per i progetti di Big Data focalizzati sull’
elaborazione analitica in tempo reale, è anche
fondamentale favorire l’integrazione, in modo
semplice e rapido, con i sistemi che
supportano i dati di streaming (anche noti
come “dati in movimento”). Le soluzioni di
integrazione dei Big Data devono essere
sufficientemente ‘intelligenti’ da consentire alle
convenzioni di integrazione dei dati standard
di acquisire e traferire i dati direttamente ai            degli insight di analytics equivale alla                 le decisioni non possono essere prese
processi di analytics in tempo reale.                      validità dei dati sottostanti. Se le aziende             con la velocità e la precisione necessarie. Ad
                                                           non alimentano i propri sistemi di analytics             esempio, cosa succede quando il Marketing
Creare affidabilità con dati puntuali                      con dati di qualità, gli insight che                     richiede i dati del “cliente” ai fini dell’analisi,
e accurati                                                 ottengono non sono validi.                               ma riceve solo un sottoinsieme dei dati
Le aziende di solito gestiscono i Big Data al fine                                                                  effettivamente necessari per prendere una
di aumentare e migliorare le proprie capacità              Senza la capacità di concordare e sfruttare              decisione, perché il team IT ha definito “cliente”
di analytics, sia attraverso l’analisi di nuove            definizioni comuni per i termini di business,            un nucleo familiare invece che un individuo?
fonti di dati che affrontando volumi più elevati           le aziende semplicemente non possono essere
di dati, obiettivi entrambi non raggiungibili con          reattive e adattabili. Se i reparti dispongono
le tecnologie tradizionali. Tuttavia, la qualità           di definizioni incoerenti per i termini chiave,
                                                                                                                                                                     7

     1 Introduzione                 2 Requisiti di integrazione      3 Best practice: Integrazione   4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                      e governance per                 e governance efficace dei       di affidabilità necessario per
                                      i Big Data                       Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data

Purtroppo, non basta semplicemente stabilire             una semplice verifica dei null per garantire che
                                                                                                                     L’applicazione del data cleansing nel flusso
le definizioni e le politiche relative alle              tutti i campi e le tabelle che stanno analizzando              di lavoro di integrazione e governance
informazioni e poi sperare che le persone                contengano effettivamente dei dati. In un altro
seguano le regole. Per essere certi che i propri         scenario, potrebbero eseguire i dati a fronte di
                                                                                                                                            Comprendere
dati siano affidabili, le aziende devono essere          sofisticati algoritmi per determinarne la validità.                                 e governare
in grado di tracciarne il percorso attraverso i          Queste informazioni raggiungono la massima
propri sistemi, in modo da poter vedere da               utilità se visualizzate in una dashboard che
dove provengono e in che modo sono stati                 consente ai business analyst di identificare                                       Integrazione Creare e
                                                                                                                                 Delivery       delle    mantenere
manipolati. È importante disporre di una                 rapidamente eventuali problemi e di scendere              Fonti
                                                                                                                                            informazioni la qualità
                                                                                                                                                                             Iniziative
                                                                                                                   di dati                                                   di business
soluzione di integrazione di Big Data in grado           facilmente nel dettaglio.                                                                          Cleansing
di supportare questo livello di trasparenza.
                                                         E’ importante applicare il data cleansing a                                          Transform
Per garantire dati di alta qualità, è anche              qualsiasi tipo di Big Data si desideri conservare,
fondamentale disporre di funzionalità di analisi         in modo da poterne stabilire l’attendibilità.
delle informazioni che consentano ai data                La fiducia nella qualità dei dati consente                Il data cleansing, nell’ambito del ciclo di integrazione delle
steward di verificare la qualità dei dati. Ad            l’attendibilità dei risultati.                            informazioni contribuisce a garantire la qualità dei dati
esempio, i data steward possono effettuare                                                                         durante il processo.

                                                                                                                                                                                      8

     1 Introduzione               2 Requisiti di integrazione       3 Best practice: Integrazione   4 IBM InfoSphere offre il livello       5 Perché InfoSphere?
                                    e governance per                  e governance efficace dei       di affidabilità necessario per
                                    i Big Data                        Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data

Fornire i dati in modo appropriato                                                  Delivery di dati bulk ad                                     L’integrazione in tempo
Nell’affrontare i progetti di integrazione dei Big                                  alta velocità, inclusi ETL                                   reale fornisce la flessibilità
Data, si punta a raggiungere prestazioni e                                          (Extract-Transform-Load),                                    necessaria per l’integrità
scalabilità elevate per l’elaborazione dei dati in                                  ELT (Extract-Load-                                   ETL     delle transazioni e in più
tempo reale e per il trasferimento di dati bulk                                     Transform) e integrazione                                    la duplicazione di volumi
                                                                                                                              Log
o in batch. In molti casi, le organizzazioni                                        dinamica che sfruttano                                       elevati a bassa latenza
devono anche sfruttare la duplicazione o                                            Hadoop per supportare lo                                     per la disponibilità continua
                                                          IBM InfoSphere                                                IBM InfoSphere Data
virtualizzazione dei dati come parte della                Information Server for    scambio di informazioni             Replication
                                                                                                                                                 del business.
soluzione più ampia di integrazione dei dati.             Data Integration          con le fonti di Big Data.
Questo vale sia per l’integrazione dei dati                                                                                                      L’integrazione self-
tradizionali che dei Big Data. Di seguito sono                                      L’accesso virtualizzato                                      service dei dati permette
riportate alcune soluzioni valide per la                                            da e per la delivery di                                      agli utenti delle line-of-
delivery dei dati che possono essere                                                informazioni diverse e                                       business e ad altri utenti
implementate su piattaforme per Big Data:                                           distribuite permette il                                      non tecnici di ottenere
                                                                                    consolidamento virtuale                                      informazioni in caso di
                                                                                    sia di Big Data che di                                       necessità per alimentare
                                                          IBM InfoSphere                                                IBM InfoSphere
                                                          Federation Server         dati tradizionali.                  Data Click               l’analytics.

                                                                                                                                                                              9

     1 Introduzione                2 Requisiti di integrazione           3 Best practice: Integrazione   4 IBM InfoSphere offre il livello     5 Perché InfoSphere?
                                     e governance per                      e governance efficace dei       di affidabilità necessario per
                                     i Big Data                            Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data

Sfruttare la duplicazione dei dati                          I fattori che influenzano le prestazioni e la             3. Persistenza temporanea dei dati. Anche
Mano a mano che la quantità e la varietà dei                scalabilità delle trasformazioni dei dati in tempo           la persistenza temporanea dei dati esercita
dati presenti nell’ambiente cresce, mantenere               reale sono tre:                                              un impatto sulle prestazioni del CDC.
pool fisici di dati diventa meno pratico. Per                                                                            Idealmente, l’organizzazione sarebbe in
rimanere flessibili e agili nel mondo dei Big               1. L’approccio utilizzato per acquisire una                  grado di trasmettere le modifiche senza che
Data, le aziende devono sfruttare diverse                      modifica alla fonte.                                      persistano per aumentare la performance
tecnologie, tra cui la delivery incrementale                   L’opzione più flessibile ed efficiente per                (in quanto i dati non devono essere scritti
di dati, per assicurarsi di disporre dei dati di               acquisire le modifiche alla fonte consiste nel            sul disco al quale poi accede un motore di
cui hanno bisogno. La trasformazione dei dati                  disporre di un meccanismo CDC che                         trasformazione).
e i requisiti di delivery si sono estesi, dal                  “spinga” le modifiche mano a mano che i
movimento di dati bulk o in batch, fino ad                     dati scorrono. Non appena i dati sorgente              Per ulteriori informazioni su come ottenere
includere anche il trasferimento dei dati in                   vengono modificati, il meccanismo viene a              insight in tempo reale dai Big Data utilizzando
tempo reale sulla base di funzionalità di                      conoscenza della modifica e inoltra i dati             la duplicazione dei dati, scarica il
duplicazione dei dati, in particolare attraverso                                                                      White Paper IBM.
il Change Data Capture (CDC). Mentre lo                     2. Il meccanismo utilizzato. Per il CDC
spostamento dei dati bulk e in batch avviene                   possono essere utilizzati molti meccanismi.
relativamente di rado, la trasmissione dei dati                Se correttamente implementato, un
in tempo reale si verifica ogni volta che i dati               approccio di acquisizione basato sui log ha
cambiano alla fonte. I dati modificati vengono                 spesso un impatto inferiore sul database di
acquisiti, trasferiti, trasformati e quindi caricati           origine, migliorando, di conseguenza, la
nella sede di destinazione.                                    performance complessiva                                                                              10

     1 Introduzione                  2 Requisiti di integrazione       3 Best practice: Integrazione   4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                       e governance per                  e governance efficace dei       di affidabilità necessario per
                                       i Big Data                        Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data

Virtualizzare i dati                                      In questo modo, la virtualizzazione dei dati
Dato il forte aumento del volume, della varietà,          riduce il tempo necessario per usufruire di dati
della velocità e della veridicità dei dati, la            disparati, rendendo più semplice per utenti
domanda di accesso ai dati ha assunto                     e processi ottenere le informazioni richieste,
un’importanza senza precedenti. Le tecnologie             in modo tempestivo.
di virtualizzazione dei dati possono contribuire
a creare il pool di dati necessario per sostenere         Esistono due strategie principali per la
il vostro business.                                       virtualizzazione dei dati: la federazione dei
                                                          dati e i data services. In entrambi i casi,
La virtualizzazione dei dati è incentrata sulla           i dati vengono esposti per essere resi più
semplificazione dell’accesso ai dati, isolando            consumabili, accessibili e riutilizzabili da utenti,
i dettagli di storage e recupero e rendendo il            clienti o processi di business dell’azienda.
processo trasparente per gli utenti.

                                                                                                                                                                 11

     1 Introduzione                2 Requisiti di integrazione        3 Best practice: Integrazione   4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                     e governance per                   e governance efficace dei       di affidabilità necessario per
                                     i Big Data                         Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data

IBM InfoSphere offre il livello di affidabilità necessario
per sfruttare i Big Data

Mentre il termine ‘Big Data’ è entrato in voga               dati, oltre che per contribuire a colmare il              Essere veloci e agili
da poco, IBM progetta soluzioni in grado di                  divario tra business e IT. InfoSphere Information         Le organizzazioni che lavorano con i Big Data
gestire enormi volumi di dati da decenni.                    Server consente di essere sicuri che le                   hanno bisogno di una scalabilità dei dati
L’azienda ha da tempo spianato la strada con                 informazioni che guidano il vostro business               illimitata garantita dal proprio software di
soluzioni di integrazione, gestione, sicurezza e             e le vostre iniziative strategiche, dai big data,         integrazione. Il Software InfoSphere è stato
analytics note per la loro affidabilità, flessibilità        alla point-of-impact analytics al master data             progettato da zero per ottimizzare l’utilizzo
e scalabilità.                                               management e al data warehousing, siano                   delle risorse hardware, consentendo la
                                                             attendibili, coerenti e governate in tempo reale.         massima quantità dei dati da elaborare per
Le funzionalità di integrazione dati end-to-end              Infatti, InfoSphere Information Server è di               nodo. Dispone di funzionalità potenti di
di IBM InfoSphere Information Server sono                    10-15 volte più veloce di Hadoop per                      trasformazione e delivery dei dati, consentendo
progettate per consentire di comprendere,                    l’integrazione dei dati.1                                 ai clienti di elaborare su sistemi massively
pulire, controllare, trasformare e distribuire i                                                                       parallel, eliminando i colli di bottiglia e
                                                                                                                       migliorando notevolmente il time-to-value.

Maggiori informazioni su InfoSphere Information Server
Desideri ottenere ulteriori informazioni sulle funzionalità di InfoSphere Information Server che consentono di sostenere l’integrazione agile,
la governance orientata al business e la qualità sostenibile? Per il materiale informativo di riferimento consulta:
ibm.com/software/data/integration/info_server/demo.html

                                                                                                                                                                   12

     1 Introduzione                   2 Requisiti di integrazione       3 Best practice: Integrazione   4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                        e governance per                  e governance efficace dei       di affidabilità necessario per
                                        i Big Data                        Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data

La University of Arizona accelera l’accesso
ai dati con InfoSphere Information Server
Con oltre 38.000 studenti e docenti,                          data warehouse aziendale. La soluzione include
l’infrastruttura della University of Arizona                  strumenti che consentono al personale di BI di:
supporta un carico di dati molto elevato. Per
rimanere competitiva, aveva bisogno di sostituire             •   Scoprire, modellare, visualizzare, relazionare
i vecchi sistemi informatici amministrativi che                   e standardizzare data set diversi e distribuiti
non erano in grado di gestire la domanda                      •   Acquisire e definire i requisiti di business in
di informazioni di Business Intelligence (BI).                    un formato familiare comune per sostenere                   tuttavia, il fattore ancora più importante è la quantità
Secondo Manav Mehra, Senior Manager of                            lo sviluppo delle operazioni di estrazione,                 di tempo che consente di risparmiare per trovare e
Information Integration addetta all’integrazione                  trasformazione e caricamento (ETL)                          risolvere i problemi legati ai dati”.
delle informazioni aziendali e all’analytics presso           •   Ottenere insight sull’analisi di fonti di dati, processi
la University of Arizona, l’organizzazione puntava                ETL, regole di data quality, terminologia di                Mehra ha affermato che il team può eseguire più di
ad ottenere un’unica fonte di dati che consentisse                business, data model e report BI.                           22.000 job ETL notturni in 2,5 ore rispetto alle 9 ore
agli utenti di eseguire facilmente le query in base                                                                           necessarie prima dell’introduzione di InfoSphere
alle proprie esigenze e di ottenere risultati in              “Secondo Mehra: In media, il software InfoSphere                Information Server. Inoltre, nei sei mesi successivi
modo tempestivo.                                              Information Server ci consente di risparmiare circa             all’implementazione, l’uso dell’enterprise data
                                                              sei ore a sviluppatore in termini di modellazione dei           warehouse è notevolmente aumentato, segno che
Il BI Team dell’Università ha utilizzato InfoSphere           dati e creazione di operazioni ETL. Due studenti                gli utenti stanno trovando le informazioni di cui
Information Server per realizzare questa singola              laureati del nostro dipartimento MIS ci hanno                   hanno bisogno.
fonte di dati attendibile; il team ha impiegato il            aiutato a creare job ETL e sono stati in grado di
software per comprendere, ripulire, trasformare e             realizzare qualcosa come 9.000 operazioni                       Per maggiori informazioni sull’esperienza
distribuire i dati dai sistemi di origine nel proprio         ETL da un template in tre mesi. A mio avviso,                   dell’Università fai clic qui.

                                                                                                                                                                                         13

     1 Introduzione                     2 Requisiti di integrazione           3 Best practice: Integrazione         4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                          e governance per                      e governance efficace dei             di affidabilità necessario per
                                          i Big Data                            Big Data                              sfruttare i Big Data
Integrazione e governance dei Big Data

                                                           Essere efficienti                                         livello di metadati. Ciò consente di tenere
                                                           InfoSphere Information Server include                     traccia dell’avanzamento dei job e di
                                                           funzionalità che consentono di ottimizzare il             diagnosticare rapidamente i problemi.
                                                           tempo di lavoro dei dipendenti. Ad esempio, la            E’ prevista anche una dashboard che fornisce
                                                           Versione 9.1 include InfoSphere Data Click che            una visione unificata dell’ambiente.
                                                           semplifica notevolmente l’integrazione e il
                                                           provisioning self-service dei dati. Di conseguenza,       Mano a mano che gli archivi dei Big Data
                                                           il personale delle line-of-business può eseguire          continuano a crescere, queste funzionalità a
                                                           queste operazioni autonomamente, mentre gli               prestazioni elevate che consentono di
                                                           ingegneri IT specializzati si concentrano sulle           risparmiare tempo diventano ancora più
                                                           iniziative a maggior valore.                              importanti. Per le divisioni IT, possono fare la
   InfoSphere Information Server for                                                                                 differenza nella conformità o meno con gli SLA,
   Data Integration                                        InfoSphere Information Server consente inoltre            nell’avere tempo per lavorare su nuovi progetti
   fondamentale quando si tratta di aumentare la           di risparmiare tempo per gli sviluppatori,                innovativi o dedicarsi solo ad iniziative di scarso
   precisione e l’efficienza. Guarda questo video          fornendo un’unica palette di design in un                 valore legate alla gestione dei sistemi esistenti.
   e scopri come InfoSphere Information Server             ambiente applicativo condiviso. Gli sviluppatori          Per il business, questo può significare un
   consente di riunire le fonti di dati. Scarica il        non devono passare tra diverse interfacce, dal            processo decisionale più rapido e informato
   video ibm.co/13jL5mr                                    momento che tutto ciò che serve è facilmente              che porta a profitti più solidi, un servizio
                                                           accessibile. Inoltre, ogni componente di                  migliore per i clienti e un vantaggio competitivo.
                                                           InfoSphere Information Server utilizza lo stesso
                                                                                                                                                                     14

    1 Introduzione                  2 Requisiti di integrazione       3 Best practice: Integrazione   4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                      e governance per                  e governance efficace dei       di affidabilità necessario per
                                      i Big Data                        Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data

Essere fiduciosi                                         strumenti consentono alle organizzazioni di                 InfoSphere Information Server offre inoltre
Molte imprese hanno migliorato la qualità                stabilire la “verità”, almeno per quanto riguarda           funzionalità di data quality per supportare il
dei dati attraverso l’implementazione della              i dati aziendali.                                           data cleansing e per monitorare la qualità su
governance dei dati. Idealmente, un’iniziativa                                                                       base costante. Le funzionalità di cleansing
di governance dei dati comprende tre funzioni:           Per essere veramente sicuri che i dati siano                includono strumenti sofisticati per funzioni
definizione dei termini, cleansing dei dati              affidabili, tuttavia, le organizzazioni devono              quali investigation, standardizzazione,
esistenti e monitoraggio della qualità dei dati.         anche essere in grado di tracciare il percorso              matching e survivorship, consentendo
                                                         dei dati attraverso i propri sistemi. Per                   ai data steward di risolvere gli eventuali
Per aiutare il personale di tutta l’organizzazione       sostenere questo livello di trasparenza,                    problemi che emergono in corso di analisi. Ad
a raggiungere una comprensione condivisa dei             InfoSphere Information Server fornisce                      esempio, i nomi dovrebbero essere abbinati
termini chiave, InfoSphere Information Server            metadati e funzionalità di lineage che                      automaticamente, in modo che ‘William
fornisce un glossario dei dati che consente a            consentono agli utenti di tenere traccia dei dati           Smith’ e ‘Bill Smith’ siano elencati come
business e IT di creare e concordare definizioni,        sin dalla fonte originaria e di visualizzare i calcoli      un unico cliente.
regole e politiche. Inoltre sono incluse le              eseguiti su di essi lungo tutto il percorso.
funzionalità di data modelling, grazie alle quali
i data architect possono stabilire la fonte e
                                                           InfoSphere Information Server per la qualità dei dati in azione
la destinazione di ogni singolo dato. Questi               Ottieni maggiori informazioni sulle quattro fasi di cleansing e standardizzazione dei dati
                                                           e scopri come InfoSphere Information Server for Data Quality le riunisce tutte. Scarica il video:
                                                           ibm.co/17yl8nC

                                                                                                                                                                 15

     1 Introduzione                2 Requisiti di integrazione       3 Best practice: Integrazione    4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                     e governance per                  e governance efficace dei        di affidabilità necessario per
                                     i Big Data                        Big Data                         sfruttare i Big Data
Integrazione e governance dei Big Data

Essere flessibili                                         mano che i dati fluiscono per fornire flessibilità
In molti casi, la ‘velocità’ non è sufficiente.           ed efficienza. Impiega anche l’acquisizione
Per fornire l’integrazione in tempo reale è               basata sui log per ridurre l’impatto sul
necessaria la flessibilità e non solo la velocità.        database di origine ed esegue lo streaming
Un modo per ottenere i dati è quello di eseguire          dei dati modificati senza la persistenza dei dati
query sui database o sulle applicazioni nei               per migliorare la performance.
quali risiedono. Questo approccio, tuttavia,
può rallentare i sistemi transazionali a livelli          A seconda dei requisiti di integrazione dei
poco accettabili.                                         Big Data, anche la data federation può
                                                          rispondere alle vostre esigenze associate ai
Un approccio migliore: utilizzare una soluzione,          Big Data. IBM InfoSphere Federation Server                   Le quattro V dei Big Data
come ad esempio InfoSphere Data Replication,              crea rapidamente una visione consolidata dei                 In che modo è possibile gestire il volume, la
che acquisisce rapidamente i dati in continuo             dati per supportare i processi e le decisioni                velocità, la varietà e la veridicità dei Big Data?
cambiamento e li invia alle rispettive                    di business. È possibile accedere e integrare le             InfoSphere Data Replication offre le
                                                                                                                       funzionalità di near-real-time necessarie per
destinazioni, fornendo ai business manager                fonti di dati e di contenuti differenti, come se
                                                                                                                       supportare le offerte di prodotti, fornire dati
una visione aggiornata al secondo delle                   fossero un’unica risorsa, indipendentemente
                                                                                                                       affidabili e molto altro ancora. Scarica il video
informazioni cruciali, senza rallentare i processi        da dove risiedono realmente le informazioni.                 e scopri maggiori dettagli sulla potenza della
business-critical. InfoSphere Data Replication                                                                         flessibilità: ibm.co/11cy27N
utilizza un meccanismo CDC di ‘spinta’ mano a

                                                                                                                                                                            16

     1 Introduzione                2 Requisiti di integrazione       3 Best practice: Integrazione   4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                     e governance per                  e governance efficace dei       di affidabilità necessario per
                                     i Big Data                        Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data

Perché InfoSphere?
Come elemento critico di IBM Watson                      Le funzionalità InfoSphere includono:                       •   Master data management (MDM):
Foundations, la piattaforma per i Big Data                                                                               Utilizzare una visione attendibile dei vostri
e l’analytics di IBM, InfoSphere Information             •   Metadati, glossario di business e                           clienti, prodotti, fornitori, sedi e account con
Integration and Governance (IIG) fornisce                    gestione delle policy: Definizione di                       InfoSphere MDM
funzionalità leader di mercato per affrontare                metadati, terminologia di business e politiche          •   Gestione del ciclo di vita dei dati:
le sfide associate ai Big Data. InfoSphere IIG               di governance con IBM InfoSphere                            Gestire il ciclo di vita dei dati, dalla creazione
fornisce scalabilità e prestazioni ottimali per              Information Governance Catalog                              al data retirement e all’archiviazione con
enormi volumi di dati, un’integrazione agile e           •   Integrazione dei dati: Gestione di tutti i                  IBM InfoSphere Optim
proporzionata, la governance per l’aumento                   requisiti di integrazione, incluse funzionalità         •   Sicurezza dei dati e privacy: Monitorare
della velocità dei dati e supporto e protezione              di trasformazione e trasferimento dei dati                  costantemente l’accesso ai dati, proteggere
per un’ampia gamma di tipi di dati e sistemi                 in batch (InfoSphere Information Server),                   i repository dalle violazioni e supportare la
di Big Data. InfoSphere IIG contribuisce al                  duplicazione in tempo reale (InfoSphere                     conformità con IBM InfoSphere Guardium.
successo dei progetti di Big Data e analytics                Data Replication) e data federation                         Assicurarsi che i dati sensibili siano
fornendo ai business user il livello di                      (InfoSphere Federation Server)                              mascherati e protetti con InfoSphere Optim.
confidenza necessario per sfruttare gli insight.         •   Qualità dei dati: Funzionalità di parsing,
                                                             standardizzare, validazione e matching
                                                             dei dati aziendali con IBM InfoSphere
                                                             Information Server for Data Quality

                                                                                                                                                                        17

    1 Introduzione                2 Requisiti di integrazione         3 Best practice: Integrazione   4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                    e governance per                    e governance efficace dei       di affidabilità necessario per
                                    i Big Data                          Big Data                        sfruttare i Big Data
Integrazione e governance dei Big Data

                                                       Risorse aggiuntive
                                                       Per maggiori informazioni sul metodo IBM per l’integrazione delle informazioni e la governance
                                                       dei Big Data, contattare il proprio rappresentante o Business Partner IBM o consultare le
                                                       seguenti risorse:

                                                       •   ibm.com/software/data/information-integration-governance
                                                       •   ibm.com/software/data/infosphere/information-integration-big-data
                                                       •   ibm.com/software/data/integration/info_server
                                                       •   InfoSphere Information Server: A Forrester Total Economic Impact Study
                                                       •   Delivering Trusted Information for Big Data and Data Warehousing:
                                                           A Ventana Research Report
                                                       •   Gartner: Hadoop Is Not a Data Integration Solution
                                                       •   ITG: Business Case for Enterprise Data Integration Strategy: Comparing IBM InfoSphere
                                                           Information Server and Open Source Tools

                                                                                                                                                              18

    1 Introduzione               2 Requisiti di integrazione       3 Best practice: Integrazione   4 IBM InfoSphere offre il livello   5 Perché InfoSphere?
                                   e governance per                  e governance efficace dei       di affidabilità necessario per
                                   i Big Data                        Big Data                        sfruttare i Big Data
IBM Italia S.p.A.
Circonvallazione Idroscalo
20090 Segrate (MI)
Italia

IBM, il logo IBM, ibm.com, Guardium, IBM Watson, InfoSphere
e Optim sono marchi della International Business Machines Corp.,
registrata in varie giurisdizioni in tutto il mondo. I nomi di altri
prodotti e servizi possono essere marchi di IBM o di altre aziende.
L’elenco aggiornato dei marchi IBM è disponibile all’indirizzo web
ibm.com/legal/copytrade.shtml

Il presente documento è aggiornato alla data di pubblicazione iniziale e
può essere modificato da IBM in qualsiasi momento. Non tutti i prodotti
e servizi sono disponibili in tutti i paesi in cui IBM opera.

Gli esempi di clienti citati sono forniti ai soli fini illustrativi. I risultati
di performance effettivi possono variare in base a configurazioni e
situazioni operative specifiche. E’ responsabilità dell’utente valutare e
verificare il funzionamento di qualsiasi altro prodotto o programma con
prodotti e programmi IBM. LE INFORMAZIONI CONTENUTE
IN QUESTO DOCUMENTO SONO FORNITE “COSI’ COME
SONO”, SENZA GARANZIA DI ALCUN TIPO, ESPLICITA O
IMPLICITA, IVI INCLUSA LA GARANZIA DI
COMMERCIABILITA’ O DI IDONEITA’ AD UNO SCOPO
PARTICOLARE O DI NON VIOLAZIONE. I prodotti IBM sono
garantiti conformemente ai termini e alle condizioni dei contratti in virtù
dei quali vengono forniti

È responsabilità del cliente osservare le disposizioni di legge e i
regolamenti applicabili. IBM non fornisce consulenza in materia legale,
né dichiara o garantisce che i propri prodotti e servizi assicurino che il
cliente sia in conformità a qualunque disposizione di legge.
1
    Test interni IBM.

© Copyright IBM Corporation 2015

            Si prega di riciclare

                                                        IMM14125-ITIT-03
Puoi anche leggere