Abstract:
Es ist eine schwierige Aufgabe, innerhalb und zwischen den wissenschaftlichen Domänen eine gemeinsame Sprache zu finden. Eine Lösung ist die Verwendung von Abstraktionen. Allgemeine Systemwissenschaft als wissenschaftliche Abstraktionsschicht ist die Wissenschaft der Modellierung beliebiger Phänomene, Systeme, deren Verhalten analysiert werden kann, um ein tieferes Verständnis über diese Phänomene zu erlangen. Angewandte Systemwissenschaftler modellieren, analysieren und simulieren Phänomene der Wirklichkeit, die mehrere wissenschaftliche Domänen umfassen können.
Das Hauptziel der Computational Science ist es, jede wissenschaftliche Arbeit durch die Bereitstellung anwendbarer Computertechnologie in Verbindung mit Datenmanagement- und Verarbeitungskonzepten zu unterstützen. ... mehrExpertenwerkzeuge neigen dazu, sich aus wirtschaftlichen, technischen oder anderen Gründen auf bestimmte wissenschaftliche Bereiche zu konzentrieren, auf Kosten der Zusammenarbeit und bereichsübergreifender Abstraktion. Daraus resultiert eine schwierige Zusammenarbeit mit und zwischen Experten unterschiedlicher Wissenschaftsbereiche, die den wissenschaftlichen Arbeitsablauf behindert. Das Data Mining für groß angelegte Simulationen und die Modellgenerierung ist ein komplexer Prozess, bei dem Wissenschaftler unterschiedlicher Fachrichtungen in einem kooperativen Prozess eng zusammenarbeiten müssen. Die meisten Daten basieren auf Schätzungen und Interpretationen geowissenschaftlicher Daten aus verschiedenen Quellen, darunter Photogrammetrie, Fernerkundung, Geodäsie, freiwillig bereitgestellte geografische Informationen, Internetquellen (z. B. Twitter) und viele mehr.
Es zeigt sich, dass es einige Defizite gibt, welche die Entwicklung von verteiltem Data Mining behindern, welches räumliche oder raum-zeitliche Geoinformationen beinhaltet. Aufgrund der Bandbreitenbeschränkung ist eine massive Datenübertragung nicht möglich. Des Weiteren konzentrieren sich viele Teildisziplinen der Geographie aus Vereinfachungsgründen auf die Erstellung und Analyse von 2D-Karten. Die Geometriekerne und Koordinatensysteme gängiger Geoinformationssysteme basieren häufig auf diesen 2D-Karten und ihren Bezugssystemen. Der Schritt zur Entwicklung von auf Computerarithmetik zugeschnittenen Koordinatensystemen mit geeigneter Genauigkeit in großen Maßstäben ist noch nicht vollständig getan. Dazu gehören Schritte hin zu effizienten 3D (räumlich) oder sogar 4D (raum-zeitlich) Datenmodellen im globalen Maßstab und die Übergänge zwischen diesen Räumen. Außerdem fehlt es an Integration von Geoinformationskonzepten wie der Verwaltung von 2D/3D (räumlich) und 3D/4D (raum-zeitlich) Datenzugriffen durch geeignete räumliche und raum-zeitliche Zugriffsverfahren in moderne parallele und verteilte Datenhaltungstechnologien.
Den Hintergrund für diese Arbeit lieferten die DFG-Projekte “3D-Daten- und Modellmanagement für die Geowissenschaften unter besonderer Berücksichtigung von Topologie und Zeit” (Projektnummer: 94512227) und “Topologisch konsistente Modellierung im raum-zeitlichen Kontext mit bewegten Objekten im Stadtmodell” (Projektnummer: 326802322). Die Ziele der Projekte sind die Etablierung eines Datenmanagementmodells, das in der Lage ist, Topologien im Kontext der Geowissenschaften und Stadtmodellen zu verwalten, die auch 4D (raum-zeitliche) Daten beinhalten können. Das vorgeschlagene Datenmanagementkonzept basiert auf abstrakten mathematischen Modellen in Bezug auf Geometrie, Arithmetik und Topologie. Diese Dissertation erweitert die Forschung auf verteilte und parallel Datenmanagementkonzepte zur Unterstützung von Simulationsimplementierungen, um die Kooperationslücke zwischen angewandten Systemwissenschaftlern und spezialisierten Wissenschaftlern zu schließen.
Es wird ein Kollaborationskonzept entwickelt und diskutiert. Daraus ergibt sich ein vorgeschlagenes Datenmanagementkonzept. Die geometrisch induzierte Topologie und der Begriff der topologischen Konsistenz spielen für einige Arten von Simulationsimplementierungen eine große Rolle. Es gibt jedoch auch andere topologische Beziehungen, die durch das vorgeschlagene Datenverwaltungskonzept verwaltet werden müssen. Die Menge der Relationstypen bildet zusammen mit den räumlichen und raum-zeitlichen Modellen ein abstraktes Datenmanagementmodell, das auf dem Property Graph Model und dem Feature Model der ISO 19109 basiert. Die Entwicklung von räumlichen, raum-zeitlichen und topologischen Zugriffsmethoden, die in der Lage sind, einen Property Graph in parallelen und verteilten Umgebungen zu verwalten, vervollständigen das vorgeschlagene Datenmanagementkonzept.
Das vorgeschlagene Datenmanagementkonzept ist implementiert und mit DB4GeO fusioniert. DB4GeO ist eine servicebasierte, objektorientierte Forschungsdatenbankarchitektur für räumliche und raum-zeitliche Geodaten der Arbeitsgruppe von Martin Breunig. Der Objektkern von DB4GeO ist komplett neu gestaltet. Neue Knotenoperationen können den Property Graph mit der Menge der speziellen Beziehungen und den Eigenschaften der zugrunde liegenden Geometrien erstellen. Die Knotenoperationen beinhalten einen speziellen Algorithmus, der in der Lage ist, eine Menge von $d$-dimensionalen simplizialen Komplexen in eine Menge von disjunkten $(d+1)$-dimensionalen simplizialen Komplexen zu triangulieren. Der Geometriekern von DB4GeO basiert auf “double” Genauigkeit. Dieser Kern ist überarbeitet und um neue Algorithmen für Triangulations-, Differenz- und Gleichheitsberechnungen erweitert, um die Knotenoperationen implementieren zu können. Darüber hinaus sind zwei neue Zugriffsverfahren implementiert, ein skalierbarer $p$-adischer Index basierend auf raumfüllenden Kurven und ein topologisches Zugriffsverfahren. Alle neuen Implementierungen werden ausführlich erklärt, durch Experimente auf Basis unterschiedlicher Felddaten evaluiert und abschließend diskutiert. Die praktische Umsetzung des vorgeschlagenen Kollaborationskonzepts in Kombination mit dem beschriebenen Datenmanagementkonzept vermag die Zusammenarbeit zwischen Experten verschiedener wissenschaftlicher Domänen zu verbessern, welche nicht nur auf räumlich (oder raum-zeitlich) topologisch konsistente Geodaten angewiesen sind.
Abstract (englisch):
Collaboration between scientists is science in action. It is a difficult task to find a common language within and between scientific domains. One solution is to use abstractions. General system science, as a scientific abstraction layer, is the science of modelling any phenomena, systems whose behaviours are analysed in order to get a deeper understanding of the phenomena of interest. Applied system scientists model, analyse and simulate real world phenomena which may intersect multiple scientific domains.
The goal of computational science is to support any scientific work by providing applicable computational technology together with data management and processing concepts. ... mehrExpert tools tend to focus on specific scientific domains for economical, technical or some other reasons, on the cost of collaboration and abstraction cross-domain. This results in a challenging collaboration with and between experts of different scientific domains, which hinders the scientific workflow. The data mining for large scale simulations and the model generation is a complex process where scientists of different expertises need to work closely together in a cooperative process. Most of the data are based on estimations and interpretations of geo-scientific data from different kinds of sources including photogrammetry, remote sensing, geodesy, volunteered geographic information, internet sources (e.g. twitter) and many more.
It turns out that there are a few deficits which hinder the development of spatial and spatio-temporal distributed data mining. The first deficit is produced by the technical developments of parallel and distributed data management itself. Due to bandwidth restriction, massive data transfer is not possible. The second deficit is due to the traditions of mapping within geography. Many sub-disciplines of geography focus on the creation and analysis of 2D maps for simplification reasons. The geometry cores and coordinate systems of common geo-information systems are often based on those 2D maps and their reference systems. The step towards the development of coordinate systems tailored to computer arithmetic with suitable precision at large scales has not been fully taken, yet. This includes the steps towards efficient 3D (spatial) or even 4D (spatio-temporal) data models at global scale and the transitions between those spaces. The third deficit is the missing integration of geo-information concepts such as the management of 2D/3D (spatial) and 3D/4D (spatio-temporal) data access through suitable spatial and spatio-temporal access methods into modern parallel and distributed data management technologies.
The background for this work was provided by the DFG Projects “3D Data and model management for the geo-sciences with special consideration of topology and time” (project number: 94512227) and “Topologically consistent modelling in a spatio-temporal context with moving objects in the city model” (project number: 326802322). The goals of the projects are to establish a data management model which is able to manage topology in the context of geo-sciences and city models, which includes 4D (spatio-temporal) data. The proposed data management concept relies on abstract mathematical models in terms of geometry, arithmetic and topology. This dissertation extends the research to distributed data management concepts to support simulation implementations in order to address the collaboration gab between applied system scientists and specialized scientists who depend on distributed geo-information. Due to the technical developments of parallel and distributed data management, it is possible to advance this collaboration.
A collaboration concept is developed and discussed, which is based on interconnected data extraction and transformation pipelines. This results in a proposed data management concept. The proposed data management concept is introduced bit by bit. The spatial model is based on simplicial complexes, and the spatio-temporal model is based on the Polthier and Rumpf model for moving and morphing simplicial complexes. Geometrically induced topology and the term of topological consistency plays a major role for some types of simulation implementations. But there are other topological relations which need to be managed by the proposed data management concept also. The set of relation types together with the spatial and spatio-temporal model shape an abstract data management model which is based on the Property Graph Model and the Feature Model of ISO 19109. The development of spatial, spatio-temporal and topological access methods which are able to manage a Property Graph in parallel and distributed environments completes the proposed data management concept.
The proposed data management concept is implemented and fused with DB4GeO. DB4GeO is a service-based geo-spatio-temporal object-oriented research database architecture of the working group of Martin Breunig. The object core of DB4GeO is completely redesigned. New node operations are developed in order to build the Property Graph with the set of special relations and the properties of the underlying geometries. The node operations include a special algorithm which is able to triangulate a set of $d$-dimensional simplicial complexes into a set of disjoint $(d+1)$-dimensional simplicial complexes. The geometry core of DB4GeO is based on double precision. The core is revised and extent by new algorithms for triangulation, difference and equality calculations in order to be able to implement the node operations. Furthermore, two new access methods are implemented, one scalable $p$-adic space-filling curve index and one topological access method. All the new implementations are explained in detail, evaluated by experiments based on different field data and finally discussed. This proposed data management concept in combination with the described collaboration concept may enhance the collaboration between experts of different scientific domains who rely not only on spatial or spatio-temporal topologically consistent data when put into practise.