Design and Implementation of a Research Data Management System: The CRC/TR32 Project Database (TR32DB)

Curdt, Constanze (2014). Design and Implementation of a Research Data Management System: The CRC/TR32 Project Database (TR32DB). PhD thesis, Universität zu Köln. Open Access

[thumbnail of Curdt_Dissertation_2014.pdf]

Preview

PDF
Curdt_Dissertation_2014.pdf
Bereitstellung unter der CC-Lizenz: Creative Commons Attribution Non-commercial.
Download (41MB)

Abstract

Research data management (RDM) includes all processes and measures which ensure that research data are well-organised, documented, preserved, stored, backed up, accessible, available, and re-usable. Corresponding RDM systems or repositories form the technical framework to support the collection, accurate documentation, storage, back-up, sharing, and provision of research data, which are created in a specific environment, like a research group or institution. The required measures for the implementation of a RDM system vary according to the discipline or purpose of data (re-)use. In the context of RDM, the documentation of research data is an essential duty. This has to be conducted by accurate, standardized, and interoperable metadata to ensure the interpretability, understandability, shareability, and long-lasting usability of the data. RDM is achieving an increasing importance, as digital information increases. New technologies enable to create more digital data, also automatically. Consequently, the volume of digital data, including big data and small data, will approximately double every two years in size. With regard to e-science, this increase of data was entitled and predicted as the data deluge. Furthermore, the paradigm change in science has led to data intensive science. Particularly scientific data that were financed by public funding are significantly demanded to be archived, documented, provided or even open accessible by different policy makers, funding agencies, journals and other institutions. RDM can prevent the loss of data, otherwise around 80-90 % of the generated research data disappear and are not available for re-use or further studies. This will lead to empty archives or RDM systems. The reasons for this course are well known and are of a technical, socio-cultural, and ethical nature, like missing user participation and data sharing knowledge, as well as lack of time or resources. In addition, the fear of exploitation and missing or limited reward for publishing and sharing data has an important role. This thesis presents an approach in handling research data of the collaborative, multidisciplinary, long-term DFG-funded research project Collaborative Research Centre/Transregio 32 (CRC/TR32) “Patterns in Soil-Vegetation-Atmosphere Systems: Monitoring, Modelling, and Data Assimilation”. In this context, a RDM system, the so-called CRC/TR32 project database (TR32DB), was designed and implemented. The TR32DB considers the demands of the project participants (e.g. heterogeneous data from different disciplines with various file sizes) and the requirements of the DFG, as well as general challenges in RDM. For this purpose, a RDM system was established that comprises a well-described self-designed metadata schema, a file-based data storage, a well-elaborated database of metadata, and a corresponding user-friendly web interface. The whole system is developed in close cooperation with the local Regional Computing Centre of the University of Cologne (RRZK), where it is also hosted. The documentation of the research data with accurate metadata is of key importance. For this purpose, an own specific TR32DB Metadata Schema was designed, consisting of multi-level metadata properties. This is distinguished in general and data type specific (e.g. data, publication, report) properties and is developed according to the project background, demands of the various data types, as well as recent associated metadata standards and principles. Consequently, it is interoperable to recent metadata standards, such as the Dublin Core, the DataCite Metadata Schema, as well as core elements of the ISO19115:2003 Metadata Standard and INSPIRE Directive. Furthermore, the schema supports optional, mandatory, and automatically generated metadata properties, as well as it provides predefined, obligatory and self-established controlled vocabulary lists. The integrated mapping to the DataCite Metadata Schema facilitates the simple application of a Digital Object Identifier (DOI) for a dataset. The file-based data storage is organized in a folder system, corresponding to the structure of the CRC/TR32 and additionally distinguishes between several data types (e.g. data, publication, report). It is embedded in the Andrew File System hosted by the RRZK. The file system is capable to store and backup all data, is highly scalable, supports location independence, and enables easy administration by Access Control Lists. In addition, the relational database management system MySQL stores the metadata according to the previous mentioned TR32DB Metadata Schema as well as further necessary administrative data. A user-friendly web-based graphical user interface enables the access to the TR32DB system. The web-interface provides metadata input, search, and download of data, as well as the visualization of important geodata is handled by an internal WebGIS. This web-interface, as well as the entire RDM system, is self-developed and adjusted to the specific demands. Overall, the TR32DB system is developed according to the needs and requirements of the CRC/TR32 scientists, fits the demands of the DFG, and considers general problems and challenges of RDM as well. With regard to changing demands of the CRC/TR32 and technologic advances, the system is and will be consequently further developed. The established TR32DB approach was already successfully applied to another interdisciplinary research project. Thus, this approach is transferable and generally capable to archive all data, generated by the CRC/TR32, with accurately, interoperable metadata to ensure the re-use of the data, beyond the end of the project.

Item Type:	Thesis (PhD thesis)
Translated abstract:	Abstract Language Forschungsdatenmanagement beinhaltet alle notwendigen Abläufe und Maßnahmen, die sicherstellen, daß Forschungsdaten gut organisiert, dokumentiert, erhalten, gesichert, erreichbar, verfügbar und wiedernutzbar sind. Entsprechende Systeme und Repositorien für das Forschungsdatenmanagement bilden diesbezüglich den technischen Rahmen, um Daten von ForscherInnen und Institutionen entsprechend zu sammeln, zu dokumentieren, zu speichern, zu sichern und zu verteilen. Die notwendigen Implementierungsmaßnahmen variieren zwischen den einzelnen Disziplinen und dem jeweiligen Zweck. Eine wesentliche Aufgabe im Forschungsdatenmanagement ist die Dokumentation von Forschungsdaten. Dies wird über genaue, standardisierte und interoperable Metadaten erreicht, die eine Interpretation, Verteilung, ein Verständnis und eine lange Nachnutzung der Daten ermöglichen. Die Wichtigkeit von Forschungsdatenmanagement steigt mit der zunehmenden Masse von digitalen Informationen. Neue Technologien erfassen immer mehr Daten, zunehmend auch automatisch. Entsprechend verdoppelt sich das Volumen von small data und big data ungefähr alle zwei Jahre. Im Hinblick auf e-science wird dieses Wachstum als data deluge („Datensintflut“) bezeichnet und ist vorhergesagt worden. Darüber hinaus findet ein Paradigmenwechsel zur datenintensiven Wissenschaft statt. Vor allem Forschungsdaten, die durch öffentliche Mittel finanziert worden sind, sollen ausgehend von Entscheidungsträgern, Geldgebern, Zeitschriften und anderen Institutionen archiviert, dokumentiert und zugänglich gemacht werden. Forschungsdatenmanagement verhindert außerdem den Verlust von Forschungsdaten, die andernfalls zu 80-90% verloren gingen oder nicht mehr für eine Nachnutzung zur Verfügung stünden. Dieses Problem kann zu leeren Datenarchiven und Systemen führen. Die Gründe dafür sind das Resultat bekannter technischer, sozio-kultureller und ethischer Probleme, wie beispielsweise fehlende Mitwirkung und fehlendes Wissen über Datenweiternutzung sowie mangelnde Zeit und Ressourcen. Zusätzlich besteht Angst vor Ausnutzung und mangelnder Honorierung für das Publizieren und Teilen von Forschungsdaten. Diese Arbeit stellt einen Ansatz zum Umgang mit Forschungsdaten im Rahmen eines kollaborativen, multi-disziplinären, langfristigen Forschungsprojektes vor, das im Rahmen des von der DFG geförderten Sonderforschungsbereiches/Transregio 32 (SFB/TR32) „Patterns in Soil-Vegetation-Atmosphere Systems: Monitoring, Modelling, and Data Assimilation“ anzusiedeln ist. Ein Forschungsdatenmanagementsystem, die sogenannte SFB/TR32 Projektdatenbank (TR32DB), wurde geplant und implementiert. Die TR32DB berücksichtigt die Anforderungen der ProjektteilnehmerInnen (z.B. heterogene Datenbestände mit unterschiedlichen Dateigrößen) und der DFG, sowie alle generellen Herausforderungen des Forschungsdatenmanagements. Für diesen Zweck wurde ein System entwickelt, das aus einem voll dokumentierten, selbst entwickelten Metadaten Schema, einem dateibasierten Datenspeicher, einer gut ausgearbeiteten Datenbank und einer nutzerfreundlichen Weboberfläche besteht. Das gesamte System ist in enger Zusammenarbeit mit dem Regionalen Rechenzentrum der Universität zu Köln (RRZK) entwickelt worden und wird hier auch bereitgestellt. Die Dokumentation von Forschungsdaten mit genauen Metadaten ist von zentraler Bedeutung. Für diesen Zweck wurde ein spezifisches TR32DB Metadaten Schema entwickelt, das aus mehrstufigen Bestandteilen von Metadaten besteht. Es wird zwischen generellen und datentypspezifischen Eigenschaften (z.B. Daten, Publikationen und Berichte) unterschieden. Das Schema ist entsprechend dem Projekthintergrund, den Anforderungen der verschiedenen Datentypen sowie den aktuellsten Metadatenstandards und -prinzipien entwickelt worden. Entsprechend ist dieses Schema interoperabel zu dem Dublin Core Metadaten Standard, dem DataCite Metadaten Schema und den Kernelementen des ISO Metadatenstandards 19115:2003 sowie der INSPIRE-Richtlinie. Weiterhin unterstützt das Schema optionale, verpflichtende und automatische Metadatenelemente und stellt vordefinierte, obligatorische und selbsterstellte kontrollierte Begriffslisten bereit. Die integrierte Zuordnung zum DataCite Metadaten Schema unterstützt die einfache Beantragung eines Digital Object Identifier (DOI) für einen Datensatz. Der dateibasierte Datenspeicher ist in einer Ordnerstruktur entsprechend der Struktur des SFB/TR32 angelegt, und es wird zwischen den einzelnen Datentypen (z.B. Daten, Publikationen, Präsentationen und Berichte) unterschieden. Diese Struktur ist in das vom RRZK bereitgestellte Andrew Dateisystem eingebettet. Das Dateisystem ermöglicht es, alle Daten zu speichern und zu sichern, ist gut skalierbar, unterstützt Ortsunabhängigkeit und erlaubt eine Administration über Zugriffslisten. Die Metadaten des TR32DB Metadaten Schemas sowie weitere administrative Daten werden in einem relationalen Datenbankverwaltungssystem MySQL gespeichert. Eine nutzerfreundliche, web-basierte Benutzeroberfläche ermöglicht den Zugang zum TR32DB System. Die Weboberfläche erlaubt die Eingabe von Metadaten, eine Suche und das Herunterladen von gespeicherten Forschungsdaten des Projektes sowie die Visualisierung wesentlicher Geodaten durch ein internes WebGIS. Die Weboberfläche ist, wie das gesamte System, selbst entwickelt und an die spezifischen Anforderungen angepasst. Insgesamt ist das SFB/TR32 Forschungsdatenmanagementsystem entsprechend den Ansprüchen und Bedürfnissen der WissenschaftlerInnen des SFB/TR32 entwickelt worden und entspricht den Anforderungen der DFG sowie den generellen Erfordernissen und Herausforderungen derartiger Systeme. Unter Beachtung der sich ändernden Ansprüche des SFB/TR32 und technologischen Verbesserungen wird das System konsequent weiterentwickelt. Der etablierte Ansatz der TR32DB ist erfolgreich auf ein anderes interdisziplinäres Forschungsprojekt angewendet worden. Somit ist dieser Ansatz übertragbar und generell in der Lage, alle Daten, die vom SFB/TR32 erzeugt werden, mit passenden, interoperablen Metadaten zu archivieren, um eine Wiederverwendung dieser Daten über das Ende des Projektes hinaus zu ermöglichen. German
Creators:	Creators Email ORCID ORCID Put Code Curdt, Constanze c.curdt@uni-koeln.de UNSPECIFIED UNSPECIFIED
URN:	urn:nbn:de:hbz:38-58820
Date:	2014
Language:	English
Faculty:	Faculty of Mathematics and Natural Sciences
Divisions:	Faculty of Mathematics and Natural Sciences > Department of Geosciences > Geographisches Institut
Subjects:	Library and information sciences Natural sciences and mathematics Earth sciences Technology (Applied sciences)
Uncontrolled Keywords:	Keywords Language research data management, metadata, metadata schema, system architecture, database, interdisciplinary project English Forschungsdatenmanagement, Metadaten, Metadaten Schema, Systemarchitektur, Datenbank, interdisziplinäres Projekt German
Date of oral exam:	7 July 2014
Referee:	Name Academic Title Bareth, Georg Prof. Dr. Lang, Ulrich Prof. Dr.-Ing
Funders:	Deutsche Forschungsgemeinschaft (DFG)
Projects:	SFB/Transregio 32 "Patterns in Soil-Vegetation-Atmosphere Systems - Monitoring, Modelling and Data Assimilation"
Refereed:	Yes
URI:	http://kups.ub.uni-koeln.de/id/eprint/5882

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item