Abstract:
Airborne (luftgestütztes) Laserscanning (ALS) wird zunehmend für die Schätzung der oberirdischen Biomasse (AGB) von Wäldern verwendet. AGB-Informationen lassen sich jedoch nicht direkt aus ALS-Daten ableiten. Daher werden Regressionsmodelle erstellt, die von den ALS-Punktwolken abgeleitete Metriken mit im Feld erhobenen AGB-Schätzungen verknüpfen. Dementsprechend ist die Verwendung von ALS-Daten zur Schätzung der AGB limitiert durch die Verfügbarkeit der Felddaten, deren Erhebung zeitaufwändig und kostspielig ist. Ein Ansatz, diese Limitierung zu umgehen, ist die Verwendung von durch Computersimulationen erzeugten synthetischen Daten.
... mehr
Ziel dieser Arbeit ist es, das Potenzial synthetischer Daten für das Training von AGB-Modellen, die auf realen Daten angewendet werden, zu bewerten. Der Ansatz zur Erzeugung der synthetischen Daten umfasst den Waldsimulator Forest Factory 2.0, realistische Baummodelle und den Laserscanning-Simulator HELIOS++. Dreidimensionale Waldszenen werden auf der Grundlage von simulierten Waldbestandesinformationen und Punktwolken einzelner Bäume, die aus realen Laserscanning-Daten extrahiert wurden, erstellt. ALS dieser Waldszenen wird mit HELIOS++ simuliert. Auf Grundlage von drei Studien evaluiert diese Arbeit die synthetischen Daten hinsichtlich ihrer Eignung als Trainingsdaten für AGB-Modelle.
In der ersten Studie wird untersucht, ob die Anwendung von HELIOS++ auf Waldszenen, die aus echten Baumpunktwolken bestehen, realistische ALS-Daten erzeugen kann. Die Waldszenen werden entsprechend der Zusammensetzung echter Waldbestände in Südwestdeutschland erstellt und das Laserscanning wird mit den selben Einstellungen wie in den echten Aufnahmen simuliert. Dies ermöglicht einen Vergleich zwischen simulierten und echten ALS-Daten derselben Flächen. Neben den realen Baumpunktwolken (RTM) werden vereinfachte Baumpunktwolken (STM) mit zylindrischen Stämmen und Kronen in Form von Rotationsellipsoiden als Baummodelle verwendet, um den Einfluss der Komplexität der Baummodelle auf das Anwendungspotential der synthetischen Daten zu erfassen. Die Analyse ergibt, dass mit den STM ein realistischerer Kronenschlussgrad erzeugt werden kann, wohingegen die Höhenverteilung der Reflexionen für die meisten Untersuchungsgebiete besser über die RTM reproduziert werden kann. Wenn AGB-Modelle mit von simulierten ALS-Punktwolken abgeleiteten Metriken trainiert und danach auf echten Daten angewendet werden zeigt sich, dass die Verwendung der RTM zu einer Überschätzung der AGB führt, während die Verwendung der STM zu einer Unterschätzung führt. In beiden Fällen ist die über den Root Mean Squared Error (RMSE) erfasste Modellgüte etwas schlechter als bei Modellen, die auf echten Daten trainiert wurden.
Während die erste Studie zeigt, dass AGB-Modelle eine höhere Modellgüte aufweisen, wenn sie mit echten Daten trainiert werden, blieb die Frage offen, ob synthetische Daten einen Mehrwert liefern können, wenn wenige oder gar keine realen Daten verfügbar sind. Daher wird in der zweiten Studie untersucht, ob die Modellgüte von AGB-Modellen, die auf einer begrenzten Anzahl echter Daten trainiert wurden, durch die Ergänzung des Trainingsdatensatzes mit synthetischen Daten verbessert werden kann. Darüber hinaus werden Modelle, die ausschließlich auf synthetischen Daten trainiert wurden, mit solchen verglichen, die auf Ex-situ-Daten trainiert wurden. Letztere umfassen Daten, die in anderen Untersuchungsgebieten erhoben wurden als dem, in dem das Modell angewendet wurde. Für die Experimente werden vier reale Datensätze aus Untersuchungsgebieten in Polen, Tschechien (2 ×) und Kanada verwendet.
Synthetische Datensätze bestehend aus AGB-Werten und ALS-Punktwolkenmetriken von 2 500 Plots werden mit Forest Factory 2.0 und HELIOS++ unter Verwendung derselben ALS-Aufnahmeparameter wie bei den realen Aufnahmen erstellt. Die Analyse zeigt, dass die Ergänzung des Trainingsdatensatzes mit synthetischen Daten die Modellgüte der AGB-Schätzungen in Bezug auf den RMSE und den quadrierten Pearson-Korrelationskoeffizienten (r2) verbessern kann, solange wenig reale Trainingsdaten zur Verfügung stehen (12 bis 346 je nach Untersuchungsgebiet). Die Verwendung synthetischer Daten für das Modelltraining führt jedoch durchweg zu einer signifikanten Unterschätzung der AGB. Bei drei der vier Untersuchungsgebiete erreichen Modelle, die mit echten Ex-situ-Daten trainiert wurden, eine ähnliche Modellgüte wie mit In-situ-Daten trainierte Modelle. Nur für den polnischen Datensatz erzielen AGB-Modelle, die mit synthetischen Daten trainiert wurden, höhere Modellgüten als Ex-situ-Modelle.
Die zweite Studie bestätigt die Ergebnisse der ersten Studie: Die Verwendung realer Daten für das Training von AGB-Modellen führt zu einer höheren Modellgüte als die Verwendung synthetischer Daten, und das in den meisten Fällen auch dann, wenn die Daten in anderen Gebieten erhoben wurden. Ein Nutzen der synthetischer Daten zeigt sich nur, wenn nur sehr wenige reale Trainingsdaten verfügbar sind. Dadurch ergibt sich die Frage, ob Anwendungen mit einem extrem hohen Bedarf an Trainingsdaten, wie z. B. Deep-Learning-Methoden, insbesondere von der Verwendung synthetischer Daten profitieren könnten.
Die dritte Studie befasst sich daher mit einem neuartigen Ansatz zur Schätzung von AGB aus ALS-Punktwolken, bei dem mit dreidimensionalen Convolutional Neural Networks (CNNs) AGB aus Bildsequenzen von Querschnitten der Punktwolken abgeleitet wird. Die initialen Gewichte der CNNs werden transferiert von einem mit dem ImageNet-Datensatz vortrainierten 2D-CNN. Die Schätzgüte der CNNs wird mit der eines auf Punktwolkenmetriken basierenden Random-Forest-Modells verglichen. Außerdem wird untersucht, ob die Modellgüte durch zusätzliches Vortraining der CNNs auf Querschnittsbildern von synthetischen Daten verbessert werden kann. Die Ergebnisse variieren zwischen den Untersuchungsgebieten und hängen von der Anzahl der verwendeten realen Trainingsdaten ab. Zumeist schneiden die CNNs etwas schlechter ab als die Random-Forest-Modelle. Das Vortraining auf synthetischen Daten verbessert die CNN-Schätzungen nur dann, wenn die Anzahl der realen Trainingsdaten sehr klein ist (10 bis 40).
Diese Arbeit zeigt, dass synthetische Daten reale Daten in AGB-Modellen noch nicht ersetzen können, ohne die Schätzgenauigkeit zu verringern. Die synthetischen Daten weisen im Vergleich zu realen Daten Diskrepanzen auf, die ihre Eignung als Trainingsdaten beeinträchtigen. Die Methode zur Erzeugung synthetischer Daten muss daher in Bezug auf die Realitätsnähe der Laserscanning-Simulationen, der Zusammensetzung des Waldbestands, der Baummodelle und der Platzierung der Baummodelle verbessert werden.
Darüber hinaus hat diese Arbeit gezeigt, dass die Veröffentlichung realer Datensätze eine vielversprechendere Lösung für das Problem der begrenzten Trainingsdaten bei ALS-basierten AGB-Schätzungen ist als die Verwendung synthetischer Daten. Nichtsdestoweniger haben synthetische Daten großes Potenzial für Anwendungen, die genaue Informationen über einzelne Bäume und die Möglichkeit zum Testen verschiedener Laserscanner-Aufnahmeparameter und Feldaufnahmemethoden erfordern, wie beispielsweise Sensitivitätsanalysen oder die Entwicklung von Einzelbaum-basierten Methoden.
Abstract (englisch):
Airborne laser scanning (ALS) data are increasingly being used to estimate forest aboveground biomass (AGB). However, AGB information cannot be directly derived from ALS data. Instead, regression models are built to link metrics describing the ALS point clouds to field-measured AGB estimates. Therefore, the use of ALS data for estimating AGB is limited by the availability of field data, which are time-consuming and costly to collect. One potential solution for overcoming this limitation is the use of synthetic data generated by computer simulations.
This thesis aims to evaluate the potential of synthetic data for training AGB models that can subsequently be applied to real ALS data. ... mehrThe workflow for generating the synthetic data involves a forest simulator, realistic tree models, and a laser scanning simulator. Three-dimensional forest scenes are created based on forest stand information generated using the forest simulator Forest Factory 2.0 and point clouds of individual trees extracted from real laser scanning data acquired by an unoccupied aerial vehicle (UAV). The lidar simulator HELIOS++ is then used to simulate airborne laser scanning of these forest scenes. Based on three studies, this thesis evaluates the synthetic data in terms of their performance as training data for AGB models.
The first study investigates whether applying HELIOS++ on forest scenes composed of real tree point clouds can generate realistic ALS data. The scenes are created based on the stand composition of real forest plots located in southwestern Germany and laser scanning is simulated with the same parameters as in the real acquisitions. This allows for comparison between the simulated and real ALS data from the same plots. In addition to the real tree point clouds, simplified tree point clouds with cylindrical stems and spheroidal crowns are used as tree models to assess the influence of tree model complexity on the usability of the synthetic data. The analysis reveals that using simplified tree models results in more accurate values for canopy cover, while the height distribution of the returns is better represented by the simulated data based on real tree models for most study sites. Training AGB models on point cloud metrics derived from the simulated data shows that using real tree models results in an overprediction of AGB when applied to real ALS data, whereas using simplified tree models results in an underprediction of AGB. In both cases, the prediction accuracy in terms of root mean squared error (RMSE) is slightly worse than for models trained on metrics derived from real data.
While the first study demonstrates that AGB models perform better when trained on real data than on synthetic data, the question remains as to whether synthetic data could still be valuable in situations where little to no real data are available. Consequently, the second study aims to determine if the prediction performance of AGB models, trained on a limited sample of real data, can be enhanced by extending the training dataset with synthetic data. Additionally, the study compares models trained solely on synthetic data to models trained on real ex situ data, i.e. data collected from different study sites than the one where the model is applied. Four real datasets from study sites in Poland, the Czech Republic (2×), and Canada are used for the experiments. Synthetic datasets comprising of AGB estimates and ALS point cloud metrics for 2500 plots are created using Forest Factory 2.0 and HELIOS++ with the identical ALS settings as the real acquisitions. The analysis demonstrates that extending the training dataset with synthetic data can improve the accuracy of AGB predictions in terms of RMSE and squared Pearson correlation coefficient (r2), as long as a limited number of real training samples is available (12 to 346, depending on the study site). However, using synthetic data for model training consistently results in a strong underprediction of AGB. For three of the four study sites, training models on real ex situ data yields prediction accuracies comparable to models trained on data from the respective sites. AGB models trained on synthetic data only outperform models trained on real ex situ data in case of the Polish dataset.
The second study confirms that using real data to train AGB models results in higher prediction accuracies compared to using synthetic data and reveals that this is in most cases true even when the real data are collected from different sites. The advantage of using synthetic data only becomes apparent when there is a very limited amount of real training data available. This rises the question of whether applications with an extremely high demand for training data, such as deep learning methods, can particularly benefit from the utilization of synthetic data.
A novel approach is developed for predicting AGB from ALS point clouds: three-dimensional convolutional neural networks (CNNs) are trained to predict AGB based on sequences of images derived from cross sections of the point clouds. The initial weights of the CNNs are transferred from a 2D CNN pre-trained on ImageNet data. The CNNs are compared to random forest regression models based on typical point cloud metrics, using the same real datasets as in the second study. Further, the study investigates whether the predictive performance can be improved by additionally pre-training the CNNs on cross section images derived from synthetic data. As in the previous studies, the results vary across study sites and depend on the number of real samples available for model training. In most cases, the CNNs perform slightly worse than the random forest models. Pre-training on synthetic data only improves the CNN predictions when the number of real training samples is extremely limited.
This thesis demonstrates that synthetic data cannot yet substitute real data in AGB models without a noticeable decrease in prediction accuracy. It appears that the synthetic data differ from real data in a way that affects their suitability as training data. The generation of synthetic data needs to be improved in terms of the realism of laser scanning simulations, forest stand composition, tree models, and the placement of tree models.
Furthermore, this work shows that making real datasets publicly available could be a more promising solution for addressing the issue of limited training data in ALS-based predictions, rather than using synthetic data. Nevertheless, synthetic data still hold potential in applications that necessitate precise information on individual trees and the ability to test different laser scanning acquisition settings and field sampling methods, such as sensitivity analyses or the development of methods at the individual tree level.