Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

GENERIC AND ADAPTIVE METADATA MANAGEMENT FRAMEWORK FOR SCIENTIFIC DATA REPOSITORIES

Prabhune, Ajinkya

[thumbnail of DoktorArbeit-AP.pdf]
Preview
PDF, English
Download (11MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

Der rapide technologische Fortschritt hat in verschiedenen Forschungsdisziplinen zu vielfältigen Weiterentwicklungen in Datenakquise und -verarbeitung geführt. Hi- eraus wiederum resultiert ein immenses Wachstum an Daten und Metadaten, gener- iert durch wissenschaftliche Experimente. Unabhängig vom konkreten Forschungs- gebiet ist die wissenschaftliche Praxis immer stärker durch Daten und Metadaten gekennzeichnet. In der Folge intensivieren Universitäten, Forschungsgemeinschaften und Förderagenturen ihre Bemühungen, wissenschaftliche Daten effizient zu sichten, zu speichern und auszuwerten. Die wesentlichen Ziele wissenschaftlicher Daten- Repositorien sind die Etablierung von Langzeitspeicher, der Zugriff auf Daten, die Bereitstellung von Daten für die Wiederverwendung und deren Referenzierung, die Erfassung der Datenquelle zur Reproduzierbarkeit sowie die Bereitstellung von Meta- daten, Anmerkungen oder Verweisen zur Vermittlung domänenspezifischen Wis- sens, das zur Interpretation der Daten notwendig ist. Wissenschaftliche Datenspe- icher sind hochkomplexe Systeme, bestehend aus Elementen aus unterschiedlichen Forschungsfeldern, wie z. B. Algorithmen für Datenkompression und Langzeit- datenarchivierung, Frameworks für das Metadaten- und Annotations-management, Workflow-Provenance und Provenance-Interoperabilität zwischen heterogenen Work- flowsystemen, Autorisierungs und Authentifizierungsinfrastrukturen sowie Visual- isierungswerkzeuge für die Dateninterpretation. Die vorliegende Arbeit beschreibt eine modulare Architektur für ein wis- senschaftliches Datenarchiv, die Forschungsgemeinschaften darin unterstützt, ihre Daten und Metadaten gezielt über den jeweiligen Lebenszyklus hinweg zu orchestri- eren. Diese Architektur besteht aus Komponenten, die vier Forschungsfelder repräsen- tieren. Die erste Komponente ist ein Client zur Datenübertragung (“data transfer client”). Er bietet eine generische Schnittstelle für die Erfassung von Daten und den Zugriff auf Daten aus wissenschaftlichen Datenakquisesystemen. Die zweite Komponente ist das MetaStore-Framework, ein adaptives Metadaten- Management-Framework, das die Handhabung sowohl statischer als auch dynamis- cher Metadatenmodelle ermöglicht. Um beliebige Metadatenschemata behandeln zu können, basiert die Entwicklung des MetaStore-Frameworks auf dem komponen- tenbasierten dynamischen Kompositions-Entwurfsmuster (component-based dynamic composition design pattern). Der MetaStore ist außerdem mit einem Annotations- framework für die Handhabung von dynamischen Metadaten ausgestattet. Die dritte Komponente ist eine Erweiterung des MetaStore-Frameworks zur au- tomatisierten Behandlung von Provenance-Metadaten für BPEL-basierte Workflow- Management-Systeme. Der von uns entworfene und implementierte Prov2ONE Al- gorithmus übersetzt dafür die Struktur und Ausführungstraces von BPEL-Workflow- Definitionen automatisch in das Provenance-Modell ProvONE. Hierbei ermöglicht die Verfügbarkeit der vollständigen BPEL-Provenance-Daten in ProvONE nicht nur eine aggregierte Analyse der Workflow-Definition mit ihrem Ausführungstrace, sondern gewährleistet auch die Kompatibilität von Provenance-Daten aus unterschiedlichen Spezifikationssprachen. Die vierte Komponente unseres wissenschaftlichen Datenarchives ist das Provenance-Interoperabilitätsframework ProvONE - Provenance Interoperability Framework (P-PIF). Dieses gewährleistet die Interoperabilität von Provenance-Daten heterogener Provenance-Modelle aus unterschiedlichen Workflowmanagementsyste- men. P-PIF besteht aus zwei Komponenten: dem Prov2ONE-Algorithmus für SCUFL und MoML Workflow-Spezifikationen und Workflow-Management-System- spezifischen Adaptern zur Extraktion, Übersetzung und Modellierung retrospektiver Provenance-Daten in das ProvONE-Provenance-Modell. P-PIF kann sowohl Kon- trollfluss als auch Datenfluss nach ProvONE übersetzen. Die Verfügbarkeit hetero- gener Provenance-Traces in ProvONE ermöglicht das Vergleichen, Analysieren und Anfragen von Provenance-Daten aus unterschiedlichen Workflowsystemen. Wir haben die Komponenten des in dieser Arbeit vorgestellten wissenschaftlichen Datenarchives wie folgt evaluiert: für den Client zum Datentrasfer haben wir die Daten-übertragungsleistung mit dem Standard-Protokoll für Nanoskopie-Datensätze untersucht. Das MetaStore-Framework haben wir hinsichtlich der folgenden bei- den Aspekte evaluiert. Zum einen haben wir die Metadatenaufnahme und Voll- textsuchleistung unter verschiedenen Datenbankkonfigurationen getestet. Zum an- deren zeigen wir die umfassende Abdeckung der Funktionalitäten von MetaStore durch einen funktionsbasierten Vergleich von MetaStore mit bestehenden Metadaten- Management-Systemen. Für die Evaluation von P-PIF haben wir zunächst die Korrek- theit und Vollständigkeit unseres Prov2ONE-Algorithmus bewiesen und darüber hin- aus die vom Prov2ONE BPEL-Algorithmus generierten Prognose-Graphpattern aus ProvONE gegen bestehende BPEL-Kontrollflussmuster ausgewertet. Um zu zeigen, dass P-PIF ein nachhaltiges Framework ist, das sich an Standards hält, vergle- ichen wir außerdem die Funktionen von P-PIF mit denen bestehender Provenance- Interoperabilitätsframeworks. Diese Auswertungen zeigen die Überlegenheit und die Vorteile der einzelnen in dieser Arbeit entwickelten Komponenten gegenüber ex- istierenden Systemen.

Translation of abstract (English)

Rapid progress in technology has led to multifold advancements in data acquisition and processing in various research disciplines. These advancements have led to a tremendous growth in data and metadata that are being generated by scientific experiments. Regardless of any specific research domain, research practices are widely becoming data and metadata driven. As a consequence, research communities, funding agencies, and universities are intensifying their efforts in building data repositories for handling scientific data. Broadly speaking, the goals of a scientific data repository are to provide long-term data archiving, make data searchable for reuse and referencing, capture provenance for enabling data reproducibility, and provide metadata and annotation support for imparting domain-specific knowledge necessary for data interpretation. However, scientific data repositories are highly complex frameworks that comprise components such as algorithms for data compression and long-term data archiving, metadata and annotation management frameworks, workflow provenance and interoperability between heterogeneous workflow systems, authorization and authentication infrastructures, and visualization tools for data interpretation. In this thesis, we present a modular scientific data repository architecture to support arbitrary research communities in handling their data and metadata lifecycle. This architecture consists of components representing four areas of research. The first component is a data transfer client that provides a generic interface for allowing ingest and access to data from scientific data acquisition systems. The second component is the MetaStore framework, which is an adaptive metadata management framework that provides handling of both static and dynamic metadata models. For handling arbitrary metadata schemas, the MetaStore framework is designed on the component-based dynamic composition design pattern. The MetaStore is further enriched with an annotation framework for handling dynamic metadata. The third component is an extension of the MetaStore framework. It provides the automated handling of provenance metadata for Business Process Execution Language (BPEL) based workflow management systems. To automate the translation of BPEL workflows into the ProvONE model, we have designed and implemented the Prov2ONE algorithm. The availability of complete BPEL provenance in ProvONE not only allows aggregate analysis of workflow definitions with their execution traces but also enables provenance interoperability. The fourth component of the scientific data repository is the ProvONE-Provenance Interoperability Framework (P-PIF). This component enables the interoperability of provenance from heterogeneous workflow management systems. The P-PIF consists of two parts. First, we extend the Prov2ONE algorithm for Simple Conceptual Unified Flow Language (SCUFL) and Modeling Markup Language (MoML) workflow specifications. Second, we provide workflow management system specific adapters that provide extraction, translation, and modeling of retrospective provenance in the ProvONE model. The availability of heterogeneous provenance traces in the ProvONE model allows us to compare, analyze, and query provenance from different workflow management systems. Each component of the scientific data repository presented in this thesis is assessed. The performance of the data transfer client using a standard protocol for nanoscopy datasets is evaluated. The MetaStore framework is evaluated for following two conditions. First, the metadata ingest and full-text search performance under different databases configurations are tested. Second, to show the comprehensive coverage of functionalities provided by MetaStore, we present a feature-based evaluation of MetaStore against existing metadata management systems. For the assessment of the P-PIF, first, we proved the correctness and completeness of our Prov2ONE algorithms. Additionally, we evaluated the ProvONE prospective graph patterns produced by the Prov2ONE BPEL algorithm against the established BPEL control-flow patterns. Second, to show that P-PIF is a sustainable framework that adheres to standards, we present a feature-based evaluation of P-PIF against existing provenance interoperability frameworks. These assessments reveal the superiority and advantages of the various components presented in this thesis over existing systems.

Document type: Dissertation
Supervisor: Hesser, Prof. Dr. Jürgen
Date of thesis defense: 19 January 2018
Date Deposited: 02 Feb 2018 10:50
Date: 2018
Faculties / Institutes: The Faculty of Mathematics and Computer Science > Dean's Office of The Faculty of Mathematics and Computer Science
DDC-classification: 004 Data processing Computer science
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative