NODC - Centro Nazionale di Dati Oceanografici - "Better science through better data management"
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
NODC – Centro Nazionale di Dati Oceanografici
“Better science through better data management”
E. Partescano, A. Brosich, M. Lipizer
Caffè Scientifico – 25 febbraio 2014Dati storici
• Accesso a dati e metadati
Dati Real-Time
Servizi
• OLAP
• Geoserver
• Standard OGC
Quality Control
Data Policy
DOIFinalità NODC si occupa: della raccolta, archiviazione, catalogazione di dati e metadati oceanografici e della loro standardizzazione; dello sviluppo ed implementazione di procedure di QA/QC; della gestione della banca dati oceanografici nazionale; dello sviluppo e del mantenimento del portale per l’accesso e la visualizzazione di dati, metadati e prodotti;
Complessità delle informazioni
Molteplicità di dati oceanografici
Dati trattati sono
di diverse discipline,
su diverse matrici,
acquisiti con strumenti e metodologie
diverse,
a diversa risoluzione spaziale e temporale.
Procedure specifiche sono sviluppate per
gestire e distribuire i dati in delayed-mode e
in real-time.Meta-dati e dati archiviati su database relazionali o file Dati storici (Oracle) 210 milioni di misure (in un'unica tabella) 150 tabelle (principalmente meta-dati) Dal 1889 al 2012 Principalmente Mediterraneo e Mar Nero Principalmente dati fisico-chimici Dati Real-Time (PostgreSQL) Boa MAMBO Miramare Rete protezione civile FVG Dati Biologici (MySQL) Dati storici (ex-LBM/BIO) 1986-2007 Batimetrie Archiviate in file 1965-1972
Accesso ai metadati http://nodc.ogs.trieste.it
Accesso ai metadati
Metadata access: Cruise
http://nodc.ogs.trieste.it/cocoon/data/csr-searchAccesso ai dati storici http://nodc.ogs.trieste.it/nodc/homepage
Accesso ai dati storici
Accesso ai dati storici
Accesso ai dati storici
Accesso ai dati storici
Contesto nazionale e internazionale Il sistema informativo OGS/NODC è NODC è di supporto a progetti di integrato nella rete di database distribuiti a oceanografia operativa (es. PALME, livello pan-Europeo (SeaDataNet, MyOcean), reti osservative (es. EuroSites, EMODnet,…). Jerico, FixO3),…
Contesto nazionale e internazionale Il sistema informativo OGS/NODC è integrato nella rete di database distribuiti a livello pan-Europeo (SeaDataNet, EMODnet,…). http://seadatanet.maris2.nl/v_cdi_v3/search.asp
I dati Near Real Time
Near Real Time Base di dati nata in collaborazione con il gruppo TECDEV in risposta alle esigenze della Protezione civile del FVG per la gestione della sua rete di rilevamento mareografico composta da: 3 ondametri 3 boe meteo-oceanografiche (MAMBO) 2 correntometri fluviali Dal 2013 vengono inseriti i dati della MAMBO1 (Miramare) Nel 2014 si aggiungeranno la piattaforma E2M3A, altre 2 boe meteo della Protezione Civile e le centraline meteo CAE delle boe MAMBO
Base di dati Circa 60 tabelle
Accesso ai dati in real-time Attualmente è consentito Alla protezione civile Ai gruppi TECDEV ed NODC Tramite Web service RESTful Maschera di ricerca Periodicamente i dati vengono trasferiti nella banca dati storici e sono accessibili a tutti gli utenti secondo la policy concordata
JERICO
I dati Real Time vengono inviati quotidianamente al
repository del progetto JERICO
I file sono nel formato netCDF OceanSites e vengono
generati mediante un web service RESTful
http://nodc.ogs.trieste.it/rtws/search/site/MAMBO1/dataty
pe/TS/period/DAY?startDate=20130101&endDate=20130
102
Si è reso necessario aggiungere circa 30 tabelle alla
base dati per i vocabolari OceanSites (diversi da quelli
SeaDataNet) e le relative mappatureServizi di analisi e mappatura
Analizzare le basi di dati A fronte di un elevato costo di realizzazione e gestione, strutturare le informazioni in un database relazionale consente di interrogare e riaggregare i dati secondo molteplici punti di vista Query SQL OLAP
OLAP
On-Line Analytical Processing
Software per l'analisi interattiva e veloce di grandi quantità di dati
(interposto tra utente e database relazionale)
Consentono di “navigare” tra i dati seguendo delle direzioni
(“dimensioni”) predefinite
http://nodc.ogs.trieste.it/mondrian/testpage.jspStandard OGC
Moltissimi servizi si basano sugli standard OGC
(http://www.opengeospatial.org/) per la gestione e
condivisione dei dati geospaziali
Consentono ad esempio di reperire facilmente via http
“oggetti” geografici (eventualmente dinamici)
WMS (maps)
WFS (features)
WCS (coverages)
Oppure metadati e dati di sensori
Sensor Web Enablement (SWE)
SOS (Sensor Observations Service)
SensorML
O&M (Observations and Measurements)
...Sensor Web Enablement (SWE) The OGC's Sensor Web Enablement (SWE) standards enable developers to make all types of sensors, transducers and sensor data repositories discoverable, accessible and useable via the Web
Ridondanza e backup Il gruppo NODC è dotato di 3 server (database, web, file server) dotati di hardware ridondato (dischi, alimentazione) Viene eseguito regolare backup su supporti esterni (nastri)
Sviluppi futuri Integrazione e standardizzazione dei dati biologici Unificazione del discovery dei dati Replicazione (live) presso il CINECA Ampliamento dei tipi di dati gestibili (ad esempio glider) Libreria di backup per una capacità totale in linea di 40 TByte
1. Quality control 2. Data policy 3. DOI
1. Quality control
Dati trattati sono
Enorme eterogeneità di dati!
di diverse discipline,
su diverse matrici,
acquisiti con
strumenti e
metodologie diverse,
a diversa risoluzione
spaziale e temporale.Delayed mode Near-real time
1 Dati in ingresso sono (dovrebbero essere!) validati dai singoli data originators
Es. “SCIENTIFIC/VISUAL” QUALITY CONTROL CHECKS:
Data visualization
Property-property plot (e.g. TS, N:P, nutrients-salinity, Oxygen-temperature...)
Compare with local climatology (if available!)
Comparison with min-max ranges for the regions (if known!)
Tools used: ODV visual inspection (broad range check)
Based on expert knowledge!2 NODC esegue controlli di qualità secondo standards europei definiti in
ambito SeaDataNet
AUTOMATIC QUALITY CONTROL CHECKS:
On Metadata:
Date and time (valid format)
Latitude and longitude (valid format)
Position must not be on land!
On Data:
Global range (expected extremes encountered in the oceans)
Pressure increasing (Pressures from the profile monotonically increasing)
Regional range (expected extremes encountered in particular regions)
Spike (…large differences between adjacent values)RANGE/SPIKE: CLIMATOLOGIES: TEMP SEA TEMPERATURE TEMP SEA TEMPERATURE PSAL PRACTICAL SALINITY PSAL PRACTICAL SALINITY FLUO FLUORESCENCE SLCA SILICATE (SIO4-SI) CONTENT SLCA SILICATE (SIO4-SI) CONTENT PHOS PHOSPHATE (PO4-P) CONTENT TPHS TOTAL PHOSPHORUS (P) CONTENT NTRA NITRATE (NO3-N) CONTENT NTRZ TOTAL NITR. (NO2+NO3) CONTENT DOX1 DISSOLVED OXYGEN ATMS ATMOSPHERIC PRESSURE AT SEA LEVEL TUR2 TURBIDITY-attenuation coeff NTOT TOTAL NITROGEN (N) CONTENT PHOS PHOSPHATE (PO4-P) CONTENT AIRT AIR TEMPERATURE CPHL CHLOROPHYLL-A CONTENT ……. ……….
3 Quality flag assignement:
Code Entry term Term definition
0 no QC No quality control procedures have been applied to the
data value. This is the initial status for all data values
entering the working archive
1 good value Good quality data value that has been verified as consistent with
real phenomena during the quality control process.
2 probably good Data value is probably consistent with real phenomena but it
deviates from climatology. Exceeds regional range
value
3 probably bad Data value recognised as unusual during quality control, forms part
of a feature that is probably inconsistent with real phenomena
value spike
4 bad value An obviously erroneous data value. Exceeds broad rangeBiological data
I dati biologici presentano un elevato livello di complessità che richiede una
dettagliata descrizione, ovvero di una ricca disponibilità di metadati (come sono
stati acquisiti i campioni, come sono stati analizzati, secondo quale protocollo,…).
Vi è la necessità di definire un set minimo di QC tests
Il processo di QC include, ad es., il riconoscimento di:
Identificazione inaccurata o “misidentifications (errori tassonomici)” e
“misspellings (errore di nomenclatura)
Errori spaziali
Outliers (geografici, statistici, temporali ed ambientali)
Il QC minimo richiesto riguarda: Tassonomia e Nomenclatura attraverso il WorMS data base
Riferimenti utili:
O’Brien, T.D. 2005. COPEPOD: A Global Plankton Database. U.S. Dep. Commerce, NOAA Tech. Memo. NMFS-F/SPO-73, 136 p.
Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.
Chapman, A. D. 2005. Principles and Methods of Data Cleaning – Primary Species and Species- Occurrence Data, version 1.0. Report for the
Global Biodiversity Information Facility, Copenhagen.Delayed mode Near-real time
E2M3A MAMBO
2. Data policy
Data originators Users:
Scientific
community,
public
organizations,
environmental
agencies
A Data policy aims to strike a balance between the rights of originators and
the need for widespread access through the free and unrestricted sharing
and exchange of data, meta-data and data products.OGS-NODC follows SeaDataNet Data policy which is consistent with, and in the
spirit of, national and international policies and laws related to UN conventions
and EU Directives (INSPIRE, IOC, ICES,…).
The data provider defines the data policy, when not already explicit in the
project description.
The policy is part of the metadata and «follows» the data
From SeaDataNet Data Policy:
• meta-data are freely accessible without any condition.
• Access to data and products requires:
a. registration
b. acceptance of additional conditions that may be requested by
the different nodes of the distributed database. The access
rights are granted according to the “role” of the user.
c. acceptance of an user licence3. Digital Object Identification (DOI)
The EU now requires more and more open access to all
publications and data deriving from research funded by the EU,
including that funded by national funding bodies.
BUT…
...all users of research data should acknowledge the
sources of their data
SO…
Data Citation
The goal is to track data provenance and clearly attribute credit to
data creators/providers so that researchers will make their data
accessible. The assignment of persistent identifiers, specifically
Digital Object Identifiers (DOIs), enables accurate data citation.Why cite data?
• Recognises and rewards data producers
• Impact and reach of data can be tracked
• Increases academic and institution profile
• Connects all research outputs
• Easy reuse
– New analyses to the big questions of our time
– Stimulates new data products
– Cross discipline collaborationsConclusions:
Importance of accurate “description” of data
Importance of data management (from collection to final use!)
Importance of QC procedures (possibly standardized)
Data of known quality are more
useful than data of unknown quality
Importance of proper acknowledgment of data originators
together with enhanced data access and re-use
Usefulness of data publication & citation (DOI)
Better science and environmental status assessment
& management through better data management!Come possiamo
migliorare la gestione
secondo gli utenti
(data providers & users)?Puoi anche leggere