Abstract:
Interessant, aber herausfordernd: Erdsysteme sind oft komplex und ihre Probleme unterbestimmt. Lückenhaftes Verständnis relevanter Teilsysteme (Komplexitätsfrage) und die Unmöglichkeit, alles, überall und zu jeder Zeit beobachten zu können (Unterbestimmtheitsfrage), führen zu einer erheblichen inferentiellen und prädiktiven Unsicherheit. Tatsächlich ist diese Unsicherheit eines der Probleme der Erdsystemforschung, und ihre Quantifizierung ist folglich ein wesentlicher Aspekt der geowissenschaftlichen Analyse und Prognose. Zusätzlich erhöht das Nichtberücksichtigen von Unsicherheit durch deterministische Modelle oder starke parametrische Annahmen die Starrheit des Modells (als Gegenpol zur Allgemeinheit). ... mehrInfolgedessen können starre Modelle zu sowohl übermäßig eingeschränkten als auch übermäßig zuversichtlichen Lösungen und damit einer suboptimalen Nutzung der verfügbaren Daten führen. Um vor diesem Hintergrund mit der Unsicherheit, die sich aus dem Mangel an Wissen oder Daten ergibt, umzugehen, spielen probabilistische Inferenz und Unsicherheitsquantifizierung eine zentrale Rolle in der Modellierung oder Analyse solcher komplexen und unterbestimmten Systeme. Unsicherheit und Information können durch Maße aus der Informationstheorie objektiv quantifiziert werden, die in Verbindung mit nichtparametrischer probabilistischer Modellierung einen geeigneten Rahmen für die Bewertung des Informationsgehalts von Daten und Modellen bietet. Außerdem hilft es, das Problem der Verwendung starrer Modelle zu überwinden, die zu einem gewissen Grad Unsicherheiten ignorieren, nicht in den Daten vorhandene Informationen hinzufügen, oder verfügbare Informationen verlieren.
Diese Doktorarbeit befasst sich mit der oben skizzierten Fragestellung: Einen nichtparametrischen und probabilistischen Rahmen für geowissenschaftliche Probleme vorzuschlagen und zu validieren, der auf den Konzepten der Informationstheorie aufbaut. Prädiktive Beziehungen werden durch multivariate und empirische Wahrscheinlichkeitsverteilungen ausgedrückt, die direkt aus Daten abgeleitet werden. Die Informationstheorie wird verwendet, um den Informationsgehalt aus verschiedenen Quellen in einer universellen Einheit explizit zu berechnen und zu vergleichen. Drei typische geowissenschaftliche Probleme werden durch die Sichtweise der Informationstheorie neu betrachtet. Die Testumgebungen umfassen deskriptive und inferentielle Problemstellungen und befassen sich mit unterschiedlichen Datentypen (kontinuierlich oder kategorial), Domänen (räumliche oder zeitliche Daten), Stichprobengrößen und räumlichen Abhängigkeitseigenschaften. Zunächst wird ein nichtparametrischer Ansatz zur Identifikation von Niederschlags-Abfluss-Ereignissen entwickelt, an einem realen Datensatz getestet und mit einem physikalisch basierten Modell verglichen (Kapitel 2). Die Ergebnisse dieser Studie (Kapitel 3) bilden die Grundlage für die Entwicklung eines verteilungsfreien Ansatzes für geostatistische Fragestellungen, dessen Eigenschaften an einem synthetischen Datensatz getestet und mit Ordinary Kriging verglichen werden. Schließlich wird in Kapitel 4 die vorgeschlagene Methode für den Umgang mit kategorischen Daten und für die Simulation von Feldeigenschaften angepasst. Sie wird an einem realen Datensatz zur Klassifizierung des Bodenkontaminationsrisikos durch Blei getestet und ihre Eigenschaften mit Indicator Kriging verglichen.
Jede Testanwendung befasst sich mit bestimmten Themen, die seit langem von geowissenschaftlichem Interesse sind, und beinhaltet gleichzeitig die übergreifenden Probleme der Unbestimmtheit und Komplexität. Aus den drei in dieser Arbeit vorgestellten Anwendungen ergeben sich mehrere Erkenntnisse. Der vorgeschlagene nichtparametrische Rahmen aus Basis der Informationstheorie (i) vermeidet die Einführung unerwünschter Nebeninformationen oder den Verlust vorhandener Informationen; (ii) ermöglicht die direkte Quantifizierung der Unsicherheit und des Informationsgehalts von Datensätzen sowie die Analyse von Mustern und Datenbeziehungen; (iii) beschreibt die Einflussfaktoren eines Systems; (iv) ermöglicht die Auswahl des informativsten Modells je nach Verfügbarkeit des Datensatzes; (v) reduziert die Notwendigkeit für Annahmen und minimiert Unsicherheiten; (vi) ermöglicht den Umgang mit kategorischen oder kontinuierlichen Daten; und (vii) ist anwendbar auf jede Art von Datenbeziehungen.
Aufgrund der Fortschritte in der Rechenleistung und der hochentwickelten Instrumentierung, die heutzutage zur Verfügung stehen, nimmt die Verknüpfung der Geowissenschaften mit verwandten Disziplinen deutlich zu. Die Integration von Wahrscheinlichkeits- und Informationstheorie in einem nichtparametrischen Kontext garantiert einerseits die nötige Allgemeinheit und Flexibilität, um jede Art von Datenbeziehungen und Begrenzungen des Datenumfangs zu handhaben, und bietet andererseits ein Werkzeug für die Interpretation in Bezug auf den Informationsgehalt oder auf sein Gegenstück, die Unsicherheit. Diese inhärente Interdisziplinarität ermöglicht auch eine größere Flexibilität bei der Modellierung in Bezug auf die Zielgröße und die Freiheitsgrade. Beim Vorhandensein genügender Daten liegt das Potential datengetriebener Modellierungsansätze darin, dass sie ohne große Einschränkungen durch funktionale oder parametrische Annahmen und Entscheidungen auskommen. Die in dieser Arbeit vorgestellten Anwendungsbeispiele für den vorgeschlagenen Rahmen sind nur einige von vielen möglichen Anwendungen. Insgesamt trägt diese Doktorarbeit mit dem darin vorgeschlagenen Rahmen dazu bei, Konzeptualisierung und Komprimierung von Datenbeziehungen bei der Modellbildung zu vermeiden, wodurch der Informationsgehalt der Daten erhalten wird. Gleichzeitig ermöglicht er eine realistischere Berücksichtigung der damit verbundenen Unsicherheiten. In einem erweiterten Kontext bietet er einen Perspektivenwechsel bei der Darstellung und Nutzung von geowissenschaftlichem Wissen aus Sicht der Informationstheorie.
Abstract (englisch):
Interestingly but challenging, Earth systems are often complex and their problems underdetermined. The lack of a complete understanding of relevant subsystems (complexity issue) and the impossibility of observing everything, everywhere, all the time (underdeterminism issue) lead to a considerable inferential and predictive uncertainty. In fact, uncertainty is part of Earth system science problems, and its quantification is, consequently, an essential aspect of geoscientific analysis and prediction. Additionally, ignoring uncertainty by deterministic models or strong parametric assumptions increases rigidity in the model (as a counterpoint to generality). ... mehrAs a consequence, rigid models can result in overly constrained and overconfident solutions, and therefore, in a suboptimal use of available data. In this fashion, to deal with uncertainty arising from the lack of knowledge or data, probabilistic inference and uncertainty quantification play a central role when modeling or analyzing such complex and underdetermined systems. Uncertainty and information can be objectively quantified by information theory, which, when combined with nonparametric probabilistic modeling, provides a proper framework for evaluating the information content of data and models. In addition, it helps to overcome the issue of using rigid models that, to a certain degree, ignore uncertainty and add information not present in data (or lose available information).
This thesis is motivated and framed by exactly this quest: to propose and validate a nonparametric, probabilistic framework for Earth science problems firmly rooted in concepts from information theory. For that, predictive relations are expressed by multivariate, empirical probability distributions directly derived from data, and information theory is used to explicitly calculate and compare the information content from various sources in a universal unit. Three typical Earth science problems are revisited through the lens of information theory. The testbed problems comprise descriptive and inferential levels, and deal with different data types (continuous or categorical), domains (spatial or temporal observations), sample sizes, and spatial dependence properties. First of all, a nonparametric approach for rainfall-runoff event identification is proposed, tested on a real-world dataset, and compared to a physically-based model (chapter 2). The findings of this study have contributed to propose a distribution-free framework for geostatistics in chapter 3, whose properties are tested on a synthetic dataset and compared to ordinary kriging. Finally, in chapter 4, the proposed nonparametric geostatistical method is adapted to handle categorical data and to simulate field properties. It is tested on a real-world dataset for classifying the risk of soil contamination by lead, and its characteristics are compared to indicator kriging.
Each testbed application addresses particular topics of long-standing geoscientific interest while sharing the overarching problems of underdeterminism and complexity. Several findings emerge from the three studies displayed in this thesis. The proposed nonparametric framework rooted in information theory (i) avoids the introduction of undesirable side information or erasing existing information; (ii) enables to directly quantify uncertainty and information content of datasets, and to analyze patterns and data-relations; (iii) describes the drivers of a system; (iv) allows the selection of the most informative model according to the dataset availability; (v) relaxes assumptions and minimizes uncertainties; (vi) enables to deal with categorical or continuous data; and (vii) addresses any kind of data-relations.
Due to the advances in computational power and sophisticated instrumentation available these days, the combination of Earth science with allied areas is rapidly increasing. As a special case, the integration of probability and information theory, framed in a nonparametric context, on the one hand, entails the generality and flexibility needed to handle any kind of data-relations and limitations in data volume while, on the other hand, provides a tool for interpretation in terms of information content or its counterpart of uncertainty. This intrinsic interdisciplinarity also allows for more versatility to the modeling in terms of purpose and degrees of freedom. This means that given enough data to build data-driven models, their potential lies in the way they learn and exploit data unconstrained by functional or parametric assumptions and choices. Beyond that, the use of the proposed framework as presented in this thesis explores only particular examples among many potential applications. Overall, this thesis paves the way for enhancing our ability to make realistic predictions. It contributes with a novel framework to avoid conceptualization and compression of data-relations, helping to preserve the information content of the data while allowing an honest account of the related uncertainties. In a broader context, it offers a change of perspective in expressing and using geoscientific knowledge through the lens of information theory.