Towards a Generalized Machine Learning Approach for Estimating Chlorophyll Values in Inland Waters with Spectral Data
Maier, Philipp M.
Abstract:
Wasser ist ein wesentliches Element des Lebens. Seine Qualität ist jedoch bedroht, zum
Beispiel durch schädliche Algenblüten oder anthropogene Verschmutzungen. Regelmäßige Kontrollen ermöglichen das Erkennen von Veränderungen der Wasserqualität von Binnengewässern. Konventionelle Wasserqualitätskontrollen werden hauptsächlich mittels In-situ-Probenahmen durchgeführt, eine teure und arbeitsintensive Vorgehensweise. Spektrale Fernerkundung kann eine Alternative zu In-situ-Beprobungen sein. Die sichtbare und nahinfrarote Strahlung, die von einem Sensor aufgenommen wird, hat mit dem Wasserkörper und dessen Inhaltsstoffen interagiert. ... mehrDadurch enthält die Strahlung Informationen über Absorptions- und Streuprozesse in der Wassersäule. Ein Parameter, der stark mit der Strahlung wechselwirkt, ist das pflanzliche Pigment Chlorophyll a. Chlorophyll a ist ein Proxy für die Phytoplanktonabundanz und kann daher mit der Wasserqualität in Verbindung gebracht werden.
Die spektrale Überlappung mit anderen Wasserinhaltsstoffen erschwert die Bestimmung des Chlorophyll a-Gehalts mit spektralen Daten in der Wassersäule. Daher ist ein zuverlässiger Modellierungsansatz erforderlich, um diese nicht-lineare Regressionsaufgabe zu lösen und damit kontinuierliche Chlorophyll a-Werte aus Spektraldaten zu gewinnen. Eine zusätzliche Anforderung an einen solchen Ansatz ist die Anwendbarkeit auf die meisten der weltweiten Binnengewässer, da der Mangel an Referenzdaten nicht erlaubt, spezialisierte Modelle für jeden einzelnen See zu generieren. Diese Generalisierungsanforderung passt perfekt zu Ansätzen des überwachten maschinellen Lernens.
Ein Hauptziel dieser Arbeit ist daher das Trainieren und Evaluieren von überwachten maschinellen Lernverfahren zum Schätzen kontinuierlicher Chlorophyll a-Werte von mehreren Binnengewässern. Die untersuchten Studien stützen sich dabei vollständig auf spektrale In-situ-Messungen. Dieser Aufbau erlaubt eine detailliertere Analyse der Beziehungen zwischen spektralen Daten und Wasserparametern. Außerdem wird der Einfluss der Atmosphäre verringert. Drei verschiedene Datensätze wurden im Rahmen dieser Arbeit aufgenommen, um den Generalisierungsprozess der generierten Modelle zu untersuchen. Die Variabilität der Datensätze nimmt dabei sukzessive zu. Daher wurden für diese Datensätze drei Studienkonfigurationen entworfen, die sukzessive die Anforderung zur Generalisierung der Modelle erhöhen. In der ersten Konfiguration werden lediglich Modelle untersucht, die sich auf ein einzelnes Gewässer beziehen. Im Gegensatz dazu stützt sich die letzte Konfiguration auf einen vollständig simulierten Datensatz für den Trainingsprozess der Modelle, während deren Evaluierung auf einem völlig unabhängigen Datensatz mit elf verschiedenen Binnengewässern erfolgt. Die Idee hinter diesem Konzept ist, wenn die Modelle die Chlorophyll a-Werte der elf völlig unbekannten Binnengewässer schätzen können, werden sie vermutlich auch
weltweit, die Werte ähnlicher Binnengewässer schätzen können. Ein eindimensionales CNN als Vertreter der Deep-Learning-Verfahren hat sich dabei als das Modell mit den besten Generaliserungseigenschaften bei zufriedenstellender Schätzgenauigkeit erwiesen.
Ein weiteres Augenmerk wird auf die spektrale Auflösung gelegt. Eine Verringerung der
spektralen Auflösung von hyperspektral auf multispektral ist mit einem Informationsverlust verbunden. Die Schätzungsergebnisse aus dem eindimensionalen CNN zeigen, dass eine hyperspektrale Auflösung für ein vollständig generalisierendes Modell notwendig ist. Eine multispektrale Auflösung ist jedoch ausreichend für weniger generalisierende Modelle. Diese Erkenntnisse sind wichtig um im Hinblick auf ein zukünftiges Forschungsvorhaben den Upscaling-Ansatz auf reale Satellitendaten zu realisieren und damit eine flächendeckende Überwachung der Wasserqualität zu verwirklichen.
Abstract (englisch):
Water is an essential element of life. However, its quality is threatened for example by
harmful algal blooms or man-made pollution. Monitoring enables the detection of changes
in inland water quality. Conventional monitoring of water quality is mainly conducted with
in situ sampling, an expensive and labor-intensive technique. Spectral remote sensing can
be an alternative to in situ monitoring. The visible and near-infrared radiation recorded
by a sensor has interacted with the water body and its constituents. Hence, the radiation
contains information related to absorption and scattering processes in the water column. ... mehr
One parameter that strongly interacts with the light is the herbal pigment chlorophyll a.
Since chlorophyll a is a proxy for phytoplankton abundance, it can be related to water quality.
One challenge in retrieving chlorophyll a based on spectral information concerns the spectral
overlapping with other water parameters in the water column. Therefore, a reliable modeling
approach is needed that can solve the non-linear regression task to retrieve continuous
chlorophyll a values from spectral data. An additional requirement for such a model is the
applicability to most of the global inland water bodies since the lack of reference data does
not allow building specialized models for every single lake. This generalization requirement
perfectly matches supervised machine learning approaches.
Hence, the main investigation of this thesis is to train and evaluate supervised machine
learning approaches that can estimate continuous chlorophyll a values of multiple water
bodies. Therefore, the examined studies rely entirely on spectral in situ measurements.
This setup allows a more detailed analysis of the relations between spectral data and water
parameters. Besides, the influence of the atmosphere is reduced. Three different datasets
have been collected in the scope of this thesis to investigate the generalization process.
The variability of the datasets increases consecutively. Therefore, three study setups were
designed for these datasets, which consecutively increase the models’ challenge to generalize.
In the first setup, only models relying on a single water body are investigated. In contrast, the
last setup relies on an entirely simulated dataset for the models’ training process, whereas
their evaluation is conducted on a completely unknown dataset containing eleven different
inland water bodies. The idea of this concept is if models can estimate the chlorophyll a
values of the completely independent eleven water bodies, they will likely perform well
on most of the global water bodies with similar conditions. As a result of the conducted
study setups, an One-dimensional CNN as a deep learning model succeed the task of the
final setup and proves itself as a generalized model with suitable performance.
Further attention is given to the spectral resolution. A decrease in the spectral resolution
from hyperspectral to multispectral is accompanied by a loss of information. The estimation
results from the One-dimensional CNN reveal that hyperspectral resolution is necessary
for an entirely generalized model. However, multispectral resolution is sufficient for less
generalized models. These findings are important considering an upscaling approach to
actual satellite data to fulfill the monitoring approach area-wide in future research.