IBM INFOSPHERE INFORMATION SERVER - LA PIATTAFORMA ABILITANTE PER LA DATA GOVERNANCE - UNIMIB
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
IBM INFOSPHERE INFORMATION SERVER LA PIATTAFORMA ABILITANTE PER LA DATA GOVERNANCE Cinzia Fasce SWG Client Technical Professional - InfoSphere Gennaio 2018
Viviamo in un mondo interconnesso
Viviamo in un mondo interconnesso
Developer Data Data Owner Data Business Engineers CDO Scientists Analyst Self-Service Data & Analytics Public Cloud On-Premises Private Cloud Systems of Insights Systems of Engagement APIs/Services APIs/Services Systems of Automation Advanced Analytics Systems of Record Real-Time Analytics Metadata Catalog Social & Internet Communities Digital Statistical Big Data Transformation Modeling Information Governance & Security
I dati crescono, questo si sa, ma sapere che a oggi il 90% di tsunami dei dati essi, come hanno riscontrato alcune ricerche, è stato creato nei soli ultimi due anni probabilmente è meno noto. D a g l i a n n i ’ 9 0 i n po i sensori che acquisiscono dati metereologici, l’esplosione dei contenuti che condividiamo sui social media, enorme quantità di registrazioni di molte delle informazioni, per dati relativi agli acquisti o dati bancari che ogni giorno si accumulano, esempio riguardanti la relazione archivi di immagini e video, dati telefonici, i segnali Gps che ci col cliente, sono nativamente scambiamo, questi sono solo pochissimi esempi, ma danno disponibili in formati digitali. certamente l’idea della dimensione del fenomeno. La Computer Science, molto più vicina al reale svolgimento dei fatti, ha pragmaticamente cercato statistica saper analizzare ed interpretare dati è un vecchio mestiere. di reagire, proponendo metodi e algoritmi adatti a primi anni ‘90, gli analisti di dati indagare dati in quantità assolutamente inusuale quali dati raccogliere e quindi registrare; quali interviste precedentemente, da qui la nascita di nuove commissionare, come codificarle e renderle disponibili per un software che le analizzasse. Ognuna di queste operazioni aveva un discipline come il Data Mining, Statistical costo. Lo scopo era quello di trarre conoscenza/previsioni Machine Learning e altre. utilizzando il minor numero di dati possibili. Il data scientist, con le sue capacità di analizzare e interpretare dati, diviene così sempre più una figura professionale centrale e quindi richiesta nel mondo aziendale. Su una cosa tutti gli analisti concordano: uno dei problemi dei prossimi decenni sarà il gap tra la scarsa offerta e l’abbondante domanda di data scientist.
I dati crescono, questo si sa, ma sapere che a oggi il 90% di tsunami dei dati essi, come hanno riscontrato alcune ricerche, è stato creato nei soli ultimi due anni probabilmente è meno noto. D a g l i a n n i ’ 9 0 i n po i sensori che acquisiscono dati metereologici, l’esplosione dei contenuti che condividiamo sui social media, enorme quantità di registrazioni di molte delle informazioni, per dati relativi agli acquisti o dati bancari che ogni giorno si accumulano, esempio riguardanti la relazione archivi di immagini e video, dati telefonici, i segnali Gps che ci col cliente, sono nativamente scambiamo, questi sono solo pochissimi esempi, ma danno disponibili in formati digitali. certamente l’idea della dimensione del fenomeno. La Computer Science, molto più vicina al reale svolgimento dei fatti, ha pragmaticamente cercato statistica saper analizzare ed interpretare dati è un vecchio mestiere. di reagire, proponendo metodi e algoritmi adatti a primi anni ‘90, gli analisti di dati indagare dati in quantità assolutamente inusuale quali dati raccogliere e quindi registrare; quali interviste precedentemente, da qui la nascita di nuove commissionare, come codificarle e renderle disponibili per un software che le analizzasse. Ognuna di queste operazioni aveva un discipline come il Data Mining, Statistical costo. Lo scopo era quello di trarre conoscenza/previsioni Machine Learning e altre. utilizzando il minor numero di dati possibili. Il data scientist, con le sue capacità di analizzare e interpretare dati, diviene così sempre più una figura professionale centrale e quindi richiesta nel mondo aziendale. Su una cosa tutti gli analisti concordano: uno dei problemi dei prossimi decenni sarà il gap tra la scarsa offerta e l’abbondante domanda di data scientist.
Big Data è un fenomeno il cui risultato …………………………………….è l’incremento della complessità Volume Dati a riposo Terabytes e exabytes di dati esistenti da processare 8
Big Data è un fenomeno il cui risultato …………………………………….è l’incremento della complessità Volume Velocità Dati a riposo Dati in movimento Terabytes e exabytes di Streaming data dati esistenti da rispondere in processare millisecondi-secondi 9
Big Data è un fenomeno il cui risultato …………………………………….è l’incremento della complessità Volume Velocità Varietà Dati a riposo Dati in movimento Dati in molte forme Terabytes e exabytes di Streaming data Strutturati dati esistenti da rispondere in processare Non-strutturati millisecondi-secondi Testo Multimediali 10
Big Data è un fenomeno il cui risultato …………………………………….è l’incremento della complessità Volume Velocità Varietà Veracity* Dati a riposo Dati in movimento Dati in molte Dati in dubbio forme Incertezza dovuta a inconsistenza dei dati e Terabytes e exabytes di Streaming data Strutturati incompletezza, ambiguità, dati esistenti da latenza, inganno, rispondere in Non-strutturati approssimazioni del processare millisecondi-secondi Testo modello Multimediali * Veridicità, accuratezza o precisione, correttezza 11
Ma attenzione al paradosso dei Big Data: Più Dati ma Meno Affidabili Prende decisioni basate 1 su 3 su informazioni non attendibili Non possiede le 1 su 2 informazioni necessarie Possiede più 60% 60% informazioni di quelle che riesce ad utilizzare Tempo speso in ogni 40% progetto big data per comprendere le informazioni
L’anarchia nelle Informazioni causa la perdita del loro Valore Rework – tornare alla fonte per verificare i dati Business Executives ? Prendere decisioni senza informazioni precise! Governance Council ? Governance manuale Applicazioni Interne Sorgenti Dati
Rework – tornare alla fonte Business Executives per verificare i dati Chi sono i miei clienti migliori? Questi dati sono corretti e precisi? Duplicati Prendere decisioni Qual’è il nostro senza informazioni Inconsistenti rischio di precise! esposizione? Esposti Governance Council Qual’è la corretta immagine dei nostri dati? Mancanti Governance Chi altri utilizza manuale questi dati? Applicazioni Interne Sorgenti Dati
…i Dati sono la nostra prossima “risorsa naturale” Cloud Computing Social Media Mobile Internet of Things Alimentati da fattori tecnologici dirompenti…
La vera intuizione richiede una base di sicurezza delle informazioni Approfondimenti Identificare nuove sulle informazioni a Scoprire nuovi vantaggi competitivi opportunità di supporto del mercato e di prodotto processo decisionale Comprendere e Fiducia/Affidabilità Proteggere integrare • Visualizzare la completa • Monitorare l'attività inerente • Comprensione dei dati discendenza dei dati (data i dati sensibili • Connessione a qualsiasi lineage) • Mascherare i dati sensibili sorgente e destinazione dati • Essere confidenti dell’affidabilità delle fonti dati
Integrare le Informazioni Non è Facile ed i requisiti diventano sempre più sofisticati. sofisticati. Approccio Tradizionale Nuovo Approccio Strutturato, analitico, logico Creativo, olistico, intuitivo Data Hadoop Hadoop Warehous Warehouse Streams Streams Dati Transazionali Web Logs e Dati Interni alle Social Data Applicazioni Strutturati Big Data, Non Strutturati Informazioni Ripetibili Integrazioni & Esplorativi Testi & Immagini Data Mainframe Lineari Governance Iterativi Dati di sistemi OLTP Dati da Sensori (Online Transaction Processing) RFID (Radio Sorgenti New Nuove Frequency Tradizionali Sources Sorgenti Identification) Dati ERP
InfoSphere Information Integration and Governance ...........................................per Use Case sia in ambito Analitico che Operazionale Enhanced 360 View Application of the Customer Big Data Development & Exploration Testing Security/Intelligence Application Extension Efficiency Operations Security & Analysis Compliance Data Warehouse Application Consolidation & Augmentation Retirement
InfoSphere Information Integration e Governance Platform Information Integration and Governance Information Data Master Data Data Lifecycle Privacy & Integration Quality Management Management Security • Estrarre • Standardizzare • Gestione Multi-dominio • Archiviazione • Monitoraggio delle • Trasformare • Convalidare • Implementazione in stile database attività Registry o Transaction • Caricare • Verificare Hub • Gestione dei dati • Mascheramento • Replicare • Arricchire • Manutenzione del dato in di test • Crittografia • Federare • Riscontrare/Match modalità collaborativa • Redaction • Governo dei Master Data Metadata, Business Glossary e Policy Management, Entity Analytics • Data Discovery automatico - Rilevamento automatico dei dati • Repository di metadati aziendali • Terminologia aziendale definita nel Business Glossary • Definire, condividere ed attuare politiche di governance delle informazioni • Blueprint di progetto sulla governance delle informazioni • Contesto di acquisizione delle informazioni incrementale
Integrazione e governance delle informazioni ....... ..................nell’ambito dei Big Data InfoSphere Information Server Comprendere, integrare e governare i dati tramite BIG DATA PLATFORM una piattaforma MPP (Multi Parallel Processor) che supporta Hadoop / noSQL Systems Management Application Development Discovery InfoSphere Data Replication e InfoSphere Federation Server Accesso ai dati in real-time e near-real time Accelerators senza impatti sui sistemi operazionali Hadoop System Stream Computing Data Warehouse InfoSphere Optim Gestire il ciclo di vita delle informazioni migliorando le prestazioni/performance nel Information Integration & Governance rispetto delle regole di conservazione/retention InfoSphere Guardium Monitorare, proteggere e controllare i dati sensibili Data Media Content Machine Social InfoSphere Master Data Management Agire su «visualizzazioni» attendibili dei dati anagrafici per migliorare i processi aziendali critici 21
Un nuovo modo di mettere i dati al lavoro Semplificare Arricchire Accelerare Accesso Dati Affidabili Approccio Decisioni Ovunque Collaborativo Veloci Risiedano Facile Reperebilita’ Analitica Approviggionamento Omnipresente Dati Affidabili Ottenere un maggior valore dai propri dati
InfoSphere Data Architect Modellazione Analisi e Descrivere profilazione l’architettura dei dati Valutare la qualità e Information Analyzer Glossario di scoprire i contenuti business Regole della Policy Definire e condividere gli Qualità obiettivi Convalidare Information Governance Catalog Data Lineage Tracciare Monitoraggio della Monitoraggio / origine e qualità tracking destinazione Information Governance Dashboard DataStage & QualityStage Data Quality Exception Console Intregrazione e Bonificare ed Standardizzazione arricchire
Metadati condivisi nel Processo di Data Governance Metadati di Business B Business rules, Stewardship, Business Definitions, Glossaries, Algorithms che usino il linguaggio di business. Audience: Utenti di Business. Metadati Tecnici T Definiscono i sistemi Source and Target, la struttura delle tabelle e gli attributi delle colonne. Audience: Utenti di specifici tool Users – BI, ETL, Profiling, Modeling. Metadati Operazionali O Informazioni relative all’esecuzione di applicazioni: record count, indicatori di errore e altre statistiche Audience: Utenti di Operations, Management e di Business. Letteralmente, “data about data” che descrivono le informazioni dell’azienda sia dal punto di vista del business che da quello tecnico
InfoSphere Data Architect Modellazione Analisi e Descrivere profilazione l’architettura dei dati Valutare la qualità e Information Analyzer Glossario di scoprire i contenuti business Regole della Policy Definire e condividere gli Qualità obiettivi Convalidare Information Governance Catalog Data Lineage Tracciare Monitoraggio della Monitoraggio / origine e qualità tracking destinazione Information Governance Dashboard DataStage & QualityStage Data Quality Exception Console Intregrazione e Bonificare ed Standardizzazione arricchire
InfoSphere Information Analyzer: Investigazione e Le due funzioni chiave Analisi dei database Monitoraggio della conformità basata sui contenuti alle regole di business • Data profiling • Sviluppo guidato delle regole di controllo • Analisi di dominio, frequenza e formato • Definizione soglie di controllo • Classificazione • Gestione dei trend • Identificazione delle chiavi • Controllo output da riga di comando • Identificazione delle relazioni • Documentazione automatica • Generazione metadati condivisi • Documentazione automatica 26 Controllo completo della qualità
InfoSphere Information Analyzer: Investigazione Data Profiling - Data Classification - Data Quality Column Analysis Analisi delle frequenze di distribuzione Analisi di Classe, Proprietà, Formato, Dominio e Completezza Table Analysis Analisi delle “Primary Key” Cross-Domain Analysis Analisi delle “Foreign Key” e delle analogie tra colonne Valutare la qualità e scoprire i contenuti
InfoSphere Information Analyzer: Investigazione Data Profiling - Data Classification - Data Quality 28
InfoSphere Information Analyzer: Investigazione Data Profiling - Data Classification - Data Quality 29
InfoSphere Information Analyzer: Investigazione Data Profiling - Data Classification - Data Quality 30
InfoSphere Information Analyzer: Investigazione Data Profiling - Data Classification - Data Quality 31
InfoSphere Information Analyzer: Investigazione Data Profiling - Data Classification - Data Quality 32
InfoSphere Information Analyzer: Investigazione Data Profiling - Data Classification - Data Quality 33
InfoSphere Information Analyzer: Investigazione Data Profiling - Data Classification - Data Quality 34
InfoSphere Information Analyzer: Investigazione Data Profiling - Data Classification - Data Quality 35
Data Profiling - Data Classification - Data Quality - Publish
Data Profiling - Data Classification - Data Quality - Publish
Data Profiling - Data Classification - Data Quality - Publish
Data Profiling - Data Classification - Data Quality – Publish - Query
Lavorare insieme con lo stesso Metadata Repository Information Governace Catalog Information Analyzer Vocabolario Profilazione e Classificazione Common Enterprise dei Source Data Share Share Metadata Repository
InfoSphere Information Analyzer: Data Rule Definition Data Rule Logica della regola Binding Logica e Dati Output attributo esiste e non è uguale a ‘ ’ attributo = EPDSP_COD_FSC esiste e Record conformi EPDSP_COD_FSC non è uguale a ‘ ’ Record non conformi Definizione Concettuale Concetto: Convalidare il codice fiscale Definizione Logica Rule Definition: verifica esistenza Rule Definition: controllo di formato attributo AAAAAA99A99A999A Definizione Fisica Rule: Oracle.COD_FSC exists Rule: DB2.COD_FISCALE exists Data Rule Definition: descrive la logica del controllo Data Rule: istanza eseguibile della rule definition associata a specifici dati
InfoSphere Information Analyzer: Viste per Rule e per distribuzione delle Eccezioni
InfoSphere Information Analyzer: Viste per Rule e per distribuzione delle Eccezioni
InfoSphere Information Analyzer: Viste per Rule e per distribuzione delle Eccezioni
Esempiopowered by Cognos
InfoSphere Data Architect Modellazione Analisi e Descrivere profilazione l’architettura dei dati Valutare la qualità e Information Analyzer Glossario di scoprire i contenuti business Regole della Policy Definire e condividere gli Qualità obiettivi Convalidare Information Governance Catalog Data Lineage Tracciare Monitoraggio della Monitoraggio / origine e qualità tracking destinazione Information Governance Dashboard DataStage & QualityStage Data Quality Exception Console Intregrazione e Bonificare ed Standardizzazione arricchire
Category • Vocabolario comune tra business ed IT • Creazione di un Vocabolario con Term descrizioni e regole di business • Stabilisce responsabilità e competenze sul dato tramite le funzioni di “data stewardship” • Fornisce informazioni sul contesto di Policy business agli asset informativi Rule Database = DB2 Codice Fiscale Italiano Schema = CRMAAC Table = DLYTRANS Il codice fiscale, istituito dal Ministero delle Finanze del Governo italiano serve per Column = CODFIS Technical Business identificare le persone fisiche e giuridiche a fini fiscali. Questo valore è nella forma data type = char(16) AAAAAA99A99A999A
Categorie Descrizioni in linguaggio Business organizzate in gerarchie. Categorie possono contenere altre categorie e termini Termini Le proprieta’ dei termini ne danno significato e li differenziano dagli altri Category Term Term
Category Term
Term
Term
Term
Politiche Descrizioni in linguaggio Business organizzate in gerarchie Documentano gli obiettivi di information governance dell’azienda Stabiliscono le linee guida relative ad esempio a • Uso dei dati all’interno dell’intera azienda • Ottenimento e mantenimento della data quality • Politiche di storicizzazione dei dati Regole Descrizioni in linguaggio Business di concetti specifici come calcoli, misure di data quality, valori di range, controlli di validità.
Policy
Policy
Rule
Rule
Data Rule
Da dove proviene l’informazione Asset Management Obiettivi • Governance • Visibilità e reporting • Responsibilità • Produttività • Valutare l'impatto del cambiamento (Impact Analysis) • Massimizzare il riutilizzo • Affidabilità/Fiducia • Comprendere le relazioni • Fornire Tracciabilità e Data Lineage ?
Data Lineage: da dove proviene un’informazione? Permette di capire velocemente l’origine view end-to-end lineage delle informazioni Aiuta l’“utente di business” a prendere decisioni critiche utilizzando informazioni affidabili e corrette zoom in Navigazione visuale del data lineage per stabilire la filiera informativa di un asset (es. Report BI) Impact Analysis: cosa accade se modifico un asset? Mostra graficamente l’impatto della variazione di un asset Supporto alla governance della manutenzione correttiva ed evolutiva
63 Anche dai report di Business Intelligence
InfoSphere Data Architect Modellazione Analisi e Descrivere profilazione l’architettura dei dati Valutare la qualità e Information Analyzer Glossario di scoprire i contenuti business Regole della Policy Definire e condividere gli Qualità obiettivi Convalidare Information Governance Catalog Data Lineage Tracciare Monitoraggio della Monitoraggio / origine e qualità tracking destinazione Information Governance Dashboard DataStage & QualityStage Data Quality Exception Console Intregrazione e Bonificare ed Standardizzazione arricchire
Creare il disegno migliore prima di implementarlo InfoSphere Data Architect è un ambiente di modellazione dati integrato che consente di creare e manutenere modelli logici, fisici e dimensionali, oltre che generare ed eseguire DDL. Modello logico • Indipendente dal Target • Modello entità-relazione Modello fisico • Dipendente dal database • Tabelle, viste, relazioni, stored procedures, constraints e altri elemento specifici del database Modello dei Domini • Logical data types con definizione di vincoli Glossario • Definizione di una nomenclatura standard
Logical data model • Target independent • New • Entity-relationship model • Import • Trasform Physical data model • New • Import • Forward engineer • Target specific •Reverse engineer • Database objects (views, indexes, etc.)
InfoSphere Data Architect Modellazione Analisi e Descrivere profilazione l’architettura dei dati Valutare la qualità e Information Analyzer Glossario di scoprire i contenuti business Regole della Policy Definire e condividere gli Qualità obiettivi Convalidare Information Governance Catalog Data Lineage Tracciare Monitoraggio della Monitoraggio / origine e qualità tracking destinazione Information Governance Dashboard DataStage & QualityStage Data Quality Exception Console Intregrazione e Bonificare ed Standardizzazione arricchire
InfoSphere Information Analyzer & DataStage Monitoraggio della qualità: Published data rules possono essere utilizzate in Job DataStage tramite il Data Rule Stage DataStage integration
Puoi anche leggere