NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"

Pagina creata da Francesco Cirillo
 
CONTINUA A LEGGERE
NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
NODC – Centro Nazionale di Dati Oceanografici

“Better science through better data management”

        E. Partescano, A. Brosich, M. Lipizer

            Caffè Scientifico – 25 febbraio 2014
NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
Dati storici
• Accesso a dati e metadati

   Dati Real-Time

      Servizi
      • OLAP
      • Geoserver
      • Standard OGC

           Quality Control

       Data Policy

DOI
NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
Finalità
NODC si occupa:
 della raccolta, archiviazione,
  catalogazione di dati e metadati
  oceanografici e della loro
  standardizzazione;
 dello sviluppo ed
  implementazione di procedure di
  QA/QC;
 della gestione della banca dati
  oceanografici nazionale;
 dello sviluppo e del
  mantenimento del portale per
  l’accesso e la visualizzazione di
  dati, metadati e prodotti;
NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
Complessità delle informazioni
Molteplicità di dati oceanografici

                              Dati trattati sono
                               di diverse discipline,
                               su diverse matrici,
                               acquisiti con strumenti e metodologie
                                diverse,
                               a diversa risoluzione spaziale e temporale.

                              Procedure specifiche sono sviluppate per
                              gestire e distribuire i dati in delayed-mode e
                              in real-time.
NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
Meta-dati e dati archiviati su database relazionali o file
  Dati storici (Oracle)
  210 milioni di misure (in un'unica tabella)
  150 tabelle (principalmente meta-dati)
  Dal 1889 al 2012
  Principalmente Mediterraneo e Mar Nero
  Principalmente dati fisico-chimici
  Dati Real-Time (PostgreSQL)
  Boa MAMBO Miramare
  Rete protezione civile FVG
  Dati Biologici (MySQL)
   Dati storici (ex-LBM/BIO)
   1986-2007
  Batimetrie
   Archiviate in file
   1965-1972
NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
Il contenuto della banca dati storica
368.720 profili di T, S, parametri bio-chimici (1889-2012)
NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
Il contenuto della banca dati storica
    Volume dati archiviati presso OGS-NODC:
NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
Flusso

          CSR

         EDMED
NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
Standardization / Interoperability

                           http://seadatanet.maris2.nl/v_bodc_vocab_v2
NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
Accesso ai metadati

  http://nodc.ogs.trieste.it
Accesso ai metadati

              Metadata access: Cruise

      http://nodc.ogs.trieste.it/cocoon/data/csr-search
Accesso ai dati
storici

 http://nodc.ogs.trieste.it/nodc/homepage
Accesso ai dati storici
Accesso ai dati storici
Accesso ai dati storici
Accesso ai dati storici
Contesto nazionale e internazionale

Il sistema informativo OGS/NODC è                NODC è di supporto a progetti di
integrato nella rete di database distribuiti a   oceanografia operativa (es. PALME,
livello pan-Europeo (SeaDataNet,                 MyOcean), reti osservative (es. EuroSites,
EMODnet,…).                                      Jerico, FixO3),…
Contesto nazionale e internazionale

Il sistema informativo OGS/NODC è
integrato nella rete di database distribuiti a
livello pan-Europeo (SeaDataNet,
EMODnet,…).

 http://seadatanet.maris2.nl/v_cdi_v3/search.asp
I dati Near Real Time
Near Real Time
 Base di dati nata in collaborazione con il gruppo
  TECDEV in risposta alle esigenze della Protezione civile
  del FVG per la gestione della sua rete di rilevamento
  mareografico composta da:
    3 ondametri
    3 boe meteo-oceanografiche (MAMBO)
    2 correntometri fluviali
 Dal 2013 vengono inseriti i dati della MAMBO1
  (Miramare)
 Nel 2014 si aggiungeranno la piattaforma E2M3A, altre
  2 boe meteo della Protezione Civile e le centraline
  meteo CAE delle boe MAMBO
Base di dati
 Circa 60 tabelle
Accesso ai dati in real-time
 Attualmente è consentito
    Alla protezione civile
    Ai gruppi TECDEV ed NODC
 Tramite
    Web service RESTful
    Maschera di ricerca

Periodicamente i dati vengono
trasferiti nella banca dati storici
e sono accessibili a tutti gli
utenti secondo la policy
concordata
JERICO
 I dati Real Time vengono inviati quotidianamente al
  repository del progetto JERICO
 I file sono nel formato netCDF OceanSites e vengono
  generati mediante un web service RESTful
    http://nodc.ogs.trieste.it/rtws/search/site/MAMBO1/dataty
     pe/TS/period/DAY?startDate=20130101&endDate=20130
     102
 Si è reso necessario aggiungere circa 30 tabelle alla
  base dati per i vocabolari OceanSites (diversi da quelli
  SeaDataNet) e le relative mappature
Servizi di analisi e mappatura
Analizzare le basi di dati
 A fronte di un elevato costo di realizzazione e gestione,
  strutturare le informazioni in un database relazionale
  consente di interrogare e riaggregare i dati secondo
  molteplici punti di vista
 Query SQL
 OLAP
OLAP
On-Line Analytical Processing
 Software per l'analisi interattiva e veloce di grandi quantità di dati
  (interposto tra utente e database relazionale)
 Consentono di “navigare” tra i dati seguendo delle direzioni
  (“dimensioni”) predefinite
     http://nodc.ogs.trieste.it/mondrian/testpage.jsp
Standard OGC
 Moltissimi servizi si basano sugli standard OGC
  (http://www.opengeospatial.org/) per la gestione e
  condivisione dei dati geospaziali
 Consentono ad esempio di reperire facilmente via http
  “oggetti” geografici (eventualmente dinamici)
    WMS (maps)
    WFS (features)
    WCS (coverages)
 Oppure metadati e dati di sensori
    Sensor Web Enablement (SWE)
        SOS (Sensor Observations Service)
        SensorML
        O&M (Observations and Measurements)
        ...
Sensor Web Enablement (SWE)
 The OGC's Sensor Web
  Enablement (SWE)
  standards enable
  developers to make all
  types of sensors,
  transducers and
  sensor data
  repositories
  discoverable,
  accessible and useable
  via the Web
Ridondanza e backup
 Il gruppo NODC è dotato di 3 server (database, web, file
  server) dotati di hardware ridondato (dischi,
  alimentazione)

 Viene eseguito regolare backup su supporti esterni
  (nastri)
Sviluppi futuri

 Integrazione e standardizzazione dei dati biologici
 Unificazione del discovery dei dati
 Replicazione (live) presso il CINECA
 Ampliamento dei tipi di dati gestibili (ad esempio glider)
 Libreria di backup per una capacità totale in linea di 40
  TByte
1. Quality control

2. Data policy

3. DOI
1. Quality control

                                    Dati trattati sono
     Enorme eterogeneità di dati!
                                     di diverse discipline,
                                     su diverse matrici,
                                     acquisiti con
                                      strumenti e
                                      metodologie diverse,
                                     a diversa risoluzione
                                      spaziale e temporale.
Delayed mode

Near-real time
1      Dati in ingresso sono (dovrebbero essere!) validati dai singoli data originators

    Es. “SCIENTIFIC/VISUAL” QUALITY CONTROL CHECKS:
    Data visualization
    Property-property plot (e.g. TS, N:P, nutrients-salinity, Oxygen-temperature...)
    Compare with local climatology (if available!)
    Comparison with min-max ranges for the regions (if known!)
    Tools used: ODV visual inspection (broad range check)

                                  Based on expert knowledge!
2      NODC esegue controlli di qualità secondo standards europei definiti in
        ambito SeaDataNet

    AUTOMATIC QUALITY CONTROL CHECKS:
    On Metadata:
    Date and time (valid format)
    Latitude and longitude (valid format)
    Position must not be on land!
    On Data:
    Global range (expected extremes encountered in the oceans)
    Pressure increasing (Pressures from the profile monotonically increasing)
    Regional range (expected extremes encountered in particular regions)
    Spike (…large differences between adjacent values)
RANGE/SPIKE:                                CLIMATOLOGIES:

TEMP    SEA TEMPERATURE                     TEMP    SEA TEMPERATURE
PSAL   PRACTICAL SALINITY                   PSAL   PRACTICAL SALINITY
FLUO    FLUORESCENCE                        SLCA   SILICATE (SIO4-SI) CONTENT
SLCA   SILICATE (SIO4-SI) CONTENT           PHOS    PHOSPHATE (PO4-P) CONTENT
TPHS   TOTAL PHOSPHORUS (P) CONTENT         NTRA    NITRATE (NO3-N) CONTENT
NTRZ    TOTAL NITR. (NO2+NO3) CONTENT       DOX1    DISSOLVED OXYGEN
ATMS    ATMOSPHERIC PRESSURE AT SEA LEVEL
TUR2    TURBIDITY-attenuation coeff
NTOT    TOTAL NITROGEN (N) CONTENT
PHOS    PHOSPHATE (PO4-P) CONTENT
AIRT   AIR TEMPERATURE
CPHL   CHLOROPHYLL-A CONTENT
…….
……….
3   Quality flag assignement:

    Code   Entry term      Term definition
     0     no QC           No quality control procedures have been applied to the
                           data value. This is the initial status for all data values
                           entering the working archive
     1     good value      Good quality data value that has been verified as consistent with
                           real phenomena during the quality control process.

     2     probably good   Data value is probably consistent with real phenomena but it
                           deviates from climatology.                                            Exceeds regional range
           value
     3     probably bad    Data value recognised as unusual during quality control, forms part
                           of a feature that is probably inconsistent with real phenomena
           value                                                                                  spike

     4     bad value       An obviously erroneous data value.                                    Exceeds broad range
Biological data
I dati biologici presentano un elevato livello di complessità che richiede una
     dettagliata descrizione, ovvero di una ricca disponibilità di metadati (come sono
     stati acquisiti i campioni, come sono stati analizzati, secondo quale protocollo,…).

            Vi è la necessità di definire un set minimo di QC tests
     Il processo di QC include, ad es., il riconoscimento di:
       Identificazione inaccurata o “misidentifications (errori tassonomici)” e
       “misspellings (errore di nomenclatura)

       Errori spaziali

       Outliers (geografici, statistici, temporali ed ambientali)
        Il QC minimo richiesto riguarda: Tassonomia e Nomenclatura attraverso il WorMS data base

Riferimenti utili:
O’Brien, T.D. 2005. COPEPOD: A Global Plankton Database. U.S. Dep. Commerce, NOAA Tech. Memo. NMFS-F/SPO-73, 136 p.
Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.
Chapman, A. D. 2005. Principles and Methods of Data Cleaning – Primary Species and Species- Occurrence Data, version 1.0. Report for the
Global Biodiversity Information Facility, Copenhagen.
Delayed mode

Near-real time
E2M3A
MAMBO
2. Data policy
Data originators                                            Users:
                                                            Scientific
                                                            community,
                                                            public
                                                            organizations,
                                                            environmental
                                                            agencies

A Data policy aims to strike a balance between the rights of originators and
the need for widespread access through the free and unrestricted sharing
and exchange of data, meta-data and data products.
OGS-NODC follows SeaDataNet Data policy which is consistent with, and in the
spirit of, national and international policies and laws related to UN conventions
and EU Directives (INSPIRE, IOC, ICES,…).

   The data provider defines the data policy, when not already explicit in the
    project description.
   The policy is part of the metadata and «follows» the data

        From SeaDataNet Data Policy:
    •   meta-data are freely accessible without any condition.
    •   Access to data and products requires:
        a. registration
        b. acceptance of additional conditions that may be requested by
            the different nodes of the distributed database. The access
            rights are granted according to the “role” of the user.
        c. acceptance of an user licence
3. Digital Object Identification (DOI)
     The EU now requires more and more open access to all
     publications and data deriving from research funded by the EU,
     including that funded by national funding bodies.

                            BUT…
         ...all users of research data should acknowledge the
        sources of their data
                              SO…
                       Data Citation
The goal is to track data provenance and clearly attribute credit to
data creators/providers so that researchers will make their data
accessible. The assignment of persistent identifiers, specifically
Digital Object Identifiers (DOIs), enables accurate data citation.
Why cite data?
•   Recognises and rewards data producers
•   Impact and reach of data can be tracked
•   Increases academic and institution profile
•   Connects all research outputs
•   Easy reuse
    – New analyses to the big questions of our time
    – Stimulates new data products
    – Cross discipline collaborations
Conclusions:
  Importance of accurate “description” of data
  Importance of data management (from collection to final use!)

   Importance of QC procedures (possibly standardized)

                 Data of known quality are more
                useful than data of unknown quality
   Importance of proper acknowledgment of data originators
    together with enhanced data access and re-use

   Usefulness of data publication & citation (DOI)

Better science and environmental status assessment
& management through better data management!
Come possiamo
  migliorare la gestione
    secondo gli utenti
(data providers & users)?
Puoi anche leggere