GENERIC AND ADAPTIVE METADATA MANAGEMENT FRAMEWORK FOR SCIENTIFIC DATA REPOSITORIES

Prabhune, Ajinkya

Preview

PDF, English
Download (11MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00024044
URN: urn:nbn:de:bsz:16-heidok-240444
URL: http://www.ub.uni-heidelberg.de/archiv/24044

Abstract

Der rapide technologische Fortschritt hat in verschiedenen Forschungsdisziplinen zu vielfältigen Weiterentwicklungen in Datenakquise und -verarbeitung geführt. Hi- eraus wiederum resultiert ein immenses Wachstum an Daten und Metadaten, gener- iert durch wissenschaftliche Experimente. Unabhängig vom konkreten Forschungs- gebiet ist die wissenschaftliche Praxis immer stärker durch Daten und Metadaten gekennzeichnet. In der Folge intensivieren Universitäten, Forschungsgemeinschaften und Förderagenturen ihre Bemühungen, wissenschaftliche Daten effizient zu sichten, zu speichern und auszuwerten. Die wesentlichen Ziele wissenschaftlicher Daten- Repositorien sind die Etablierung von Langzeitspeicher, der Zugriff auf Daten, die Bereitstellung von Daten für die Wiederverwendung und deren Referenzierung, die Erfassung der Datenquelle zur Reproduzierbarkeit sowie die Bereitstellung von Meta- daten, Anmerkungen oder Verweisen zur Vermittlung domänenspezifischen Wis- sens, das zur Interpretation der Daten notwendig ist. Wissenschaftliche Datenspe- icher sind hochkomplexe Systeme, bestehend aus Elementen aus unterschiedlichen Forschungsfeldern, wie z. B. Algorithmen für Datenkompression und Langzeit- datenarchivierung, Frameworks für das Metadaten- und Annotations-management, Workflow-Provenance und Provenance-Interoperabilität zwischen heterogenen Work- flowsystemen, Autorisierungs und Authentifizierungsinfrastrukturen sowie Visual- isierungswerkzeuge für die Dateninterpretation. Die vorliegende Arbeit beschreibt eine modulare Architektur für ein wis- senschaftliches Datenarchiv, die Forschungsgemeinschaften darin unterstützt, ihre Daten und Metadaten gezielt über den jeweiligen Lebenszyklus hinweg zu orchestri- eren. Diese Architektur besteht aus Komponenten, die vier Forschungsfelder repräsen- tieren. Die erste Komponente ist ein Client zur Datenübertragung (“data transfer client”). Er bietet eine generische Schnittstelle für die Erfassung von Daten und den Zugriff auf Daten aus wissenschaftlichen Datenakquisesystemen. Die zweite Komponente ist das MetaStore-Framework, ein adaptives Metadaten- Management-Framework, das die Handhabung sowohl statischer als auch dynamis- cher Metadatenmodelle ermöglicht. Um beliebige Metadatenschemata behandeln zu können, basiert die Entwicklung des MetaStore-Frameworks auf dem komponen- tenbasierten dynamischen Kompositions-Entwurfsmuster (component-based dynamic composition design pattern). Der MetaStore ist außerdem mit einem Annotations- framework für die Handhabung von dynamischen Metadaten ausgestattet. Die dritte Komponente ist eine Erweiterung des MetaStore-Frameworks zur au- tomatisierten Behandlung von Provenance-Metadaten für BPEL-basierte Workflow- Management-Systeme. Der von uns entworfene und implementierte Prov2ONE Al- gorithmus übersetzt dafür die Struktur und Ausführungstraces von BPEL-Workflow- Definitionen automatisch in das Provenance-Modell ProvONE. Hierbei ermöglicht die Verfügbarkeit der vollständigen BPEL-Provenance-Daten in ProvONE nicht nur eine aggregierte Analyse der Workflow-Definition mit ihrem Ausführungstrace, sondern gewährleistet auch die Kompatibilität von Provenance-Daten aus unterschiedlichen Spezifikationssprachen. Die vierte Komponente unseres wissenschaftlichen Datenarchives ist das Provenance-Interoperabilitätsframework ProvONE - Provenance Interoperability Framework (P-PIF). Dieses gewährleistet die Interoperabilität von Provenance-Daten heterogener Provenance-Modelle aus unterschiedlichen Workflowmanagementsyste- men. P-PIF besteht aus zwei Komponenten: dem Prov2ONE-Algorithmus für SCUFL und MoML Workflow-Spezifikationen und Workflow-Management-System- spezifischen Adaptern zur Extraktion, Übersetzung und Modellierung retrospektiver Provenance-Daten in das ProvONE-Provenance-Modell. P-PIF kann sowohl Kon- trollfluss als auch Datenfluss nach ProvONE übersetzen. Die Verfügbarkeit hetero- gener Provenance-Traces in ProvONE ermöglicht das Vergleichen, Analysieren und Anfragen von Provenance-Daten aus unterschiedlichen Workflowsystemen. Wir haben die Komponenten des in dieser Arbeit vorgestellten wissenschaftlichen Datenarchives wie folgt evaluiert: für den Client zum Datentrasfer haben wir die Daten-übertragungsleistung mit dem Standard-Protokoll für Nanoskopie-Datensätze untersucht. Das MetaStore-Framework haben wir hinsichtlich der folgenden bei- den Aspekte evaluiert. Zum einen haben wir die Metadatenaufnahme und Voll- textsuchleistung unter verschiedenen Datenbankkonfigurationen getestet. Zum an- deren zeigen wir die umfassende Abdeckung der Funktionalitäten von MetaStore durch einen funktionsbasierten Vergleich von MetaStore mit bestehenden Metadaten- Management-Systemen. Für die Evaluation von P-PIF haben wir zunächst die Korrek- theit und Vollständigkeit unseres Prov2ONE-Algorithmus bewiesen und darüber hin- aus die vom Prov2ONE BPEL-Algorithmus generierten Prognose-Graphpattern aus ProvONE gegen bestehende BPEL-Kontrollflussmuster ausgewertet. Um zu zeigen, dass P-PIF ein nachhaltiges Framework ist, das sich an Standards hält, vergle- ichen wir außerdem die Funktionen von P-PIF mit denen bestehender Provenance- Interoperabilitätsframeworks. Diese Auswertungen zeigen die Überlegenheit und die Vorteile der einzelnen in dieser Arbeit entwickelten Komponenten gegenüber ex- istierenden Systemen.

Translation of abstract (English)

Rapid progress in technology has led to multifold advancements in data acquisition and processing in various research disciplines. These advancements have led to a tremendous growth in data and metadata that are being generated by scientific experiments. Regardless of any specific research domain, research practices are widely becoming data and metadata driven. As a consequence, research communities, funding agencies, and universities are intensifying their efforts in building data repositories for handling scientific data. Broadly speaking, the goals of a scientific data repository are to provide long-term data archiving, make data searchable for reuse and referencing, capture provenance for enabling data reproducibility, and provide metadata and annotation support for imparting domain-specific knowledge necessary for data interpretation. However, scientific data repositories are highly complex frameworks that comprise components such as algorithms for data compression and long-term data archiving, metadata and annotation management frameworks, workflow provenance and interoperability between heterogeneous workflow systems, authorization and authentication infrastructures, and visualization tools for data interpretation. In this thesis, we present a modular scientific data repository architecture to support arbitrary research communities in handling their data and metadata lifecycle. This architecture consists of components representing four areas of research. The first component is a data transfer client that provides a generic interface for allowing ingest and access to data from scientific data acquisition systems. The second component is the MetaStore framework, which is an adaptive metadata management framework that provides handling of both static and dynamic metadata models. For handling arbitrary metadata schemas, the MetaStore framework is designed on the component-based dynamic composition design pattern. The MetaStore is further enriched with an annotation framework for handling dynamic metadata. The third component is an extension of the MetaStore framework. It provides the automated handling of provenance metadata for Business Process Execution Language (BPEL) based workflow management systems. To automate the translation of BPEL workflows into the ProvONE model, we have designed and implemented the Prov2ONE algorithm. The availability of complete BPEL provenance in ProvONE not only allows aggregate analysis of workflow definitions with their execution traces but also enables provenance interoperability. The fourth component of the scientific data repository is the ProvONE-Provenance Interoperability Framework (P-PIF). This component enables the interoperability of provenance from heterogeneous workflow management systems. The P-PIF consists of two parts. First, we extend the Prov2ONE algorithm for Simple Conceptual Unified Flow Language (SCUFL) and Modeling Markup Language (MoML) workflow specifications. Second, we provide workflow management system specific adapters that provide extraction, translation, and modeling of retrospective provenance in the ProvONE model. The availability of heterogeneous provenance traces in the ProvONE model allows us to compare, analyze, and query provenance from different workflow management systems. Each component of the scientific data repository presented in this thesis is assessed. The performance of the data transfer client using a standard protocol for nanoscopy datasets is evaluated. The MetaStore framework is evaluated for following two conditions. First, the metadata ingest and full-text search performance under different databases configurations are tested. Second, to show the comprehensive coverage of functionalities provided by MetaStore, we present a feature-based evaluation of MetaStore against existing metadata management systems. For the assessment of the P-PIF, first, we proved the correctness and completeness of our Prov2ONE algorithms. Additionally, we evaluated the ProvONE prospective graph patterns produced by the Prov2ONE BPEL algorithm against the established BPEL control-flow patterns. Second, to show that P-PIF is a sustainable framework that adheres to standards, we present a feature-based evaluation of P-PIF against existing provenance interoperability frameworks. These assessments reveal the superiority and advantages of the various components presented in this thesis over existing systems.

Document type:	Dissertation
Supervisor:	Hesser, Prof. Dr. Jürgen
Date of thesis defense:	19 January 2018
Date Deposited:	02 Feb 2018 10:50
Date:	2018
Faculties / Institutes:	The Faculty of Mathematics and Computer Science > Dean's Office of The Faculty of Mathematics and Computer Science
DDC-classification:	004 Data processing Computer science