Abstract:
Niederschlagsvorhersagen über dem tropischen Afrika basierend auf numerischen Modellen erreichen selten eine höhere Güte als einfachere klimatologische Vorhersagen. Die Grenzen der heutigen numerischen Wettervorhersagemodelle (NWP) bei der Auflösung kleinräumiger Konvektionsprozesse und die geringere intrinsische Vorhersagbarkeit in tropischen Gebieten sind wesentliche Gründe dafür. Aktuelle Forschungsergebnisse deuten jedoch darauf hin, dass datengestützte Vorhersagen, die sich ausschließlich auf räumlich-zeitliche Abhängigkeiten stützen, ein Potenzial für eine verbesserte Vorhersag-barkeit von Niederschlägen auf synoptischer Ebene über dem tropischen Afrika aufweisen. ... mehrEin weiterer Vorteil sind die geringeren Rechenkosten, die mit der Erstellung statistischer Modelle für solche Vorhersagen verbunden sind. Das Hauptziel dieser Dissertation besteht darin, tägliche Niederschlagsvorhersagen mit statistischen Modellen zu entwickeln, die ausschließlich mittels Vorhersagevariablen aus Beobachtungsdatensätzen trainiert werden.
Zunächst untersuchen wir das Potenzial für die Konstruktion eines statistischen Modells zur Vorhersage der Auftrittswahrscheinlichkeit von täglichem Niederschlag im tropischen Afrika unter Verwendung eines logistischen Regressionsmodells (Logistic). Wir wenden den neu entwickelten `Coefficient of Predictive Ability' (CPA) an, um Prädiktoren auf der Grundlage der Niederschlagsdaten der vorangegangenen drei Tage zu ermitteln. Das logistische Modell wird anhand der identifizierten Prädiktoren in einem "Leave-one-out"-Kreuzvalidierungsmodus trainiert, um die Robustheit der Ergebnisse zu verbessern. Die statistische Vorhersage wird mit einem klimatologie--basierten Benchmark, der operationellen Ensemble-Niederschlagsvorhersagen (ENS) des Europäischen Zentrums für mittelfristige Wettervorhersage (ECMWF) und einer statistisch nachbearbeiteten Ensemble-Vorhersage verglichen. Alle Vorhersagen weisen innerhalb des tropischen Regengürtels eine geringe Güte auf, mit statistisch nicht-signifikanten Unterschieden im Brier Skill Score (BSS). Die logistische Vorhersage übertrifft jedoch die Benchmarks hauptsächlich an den Rändern des Regengürtels. Die CPA, zusammen mit dem neuartigen `coherent-linear-propagation factor' (coh) und meteorologischen Hilfsvariablen, zeigen, dass die hohe Stochastizität im Regengürtel die Vorhersagbarkeit einschränkt. Entlang der Ränder des Regengürtels nutzt das logistische Modell jedoch sich kohärent ausbreitende Niederschlagsmerkmale, die mit starken tropischen Wettersystemen wie den `African easterly waves' (AEWs) im Sommer der Nordhemisphäre verbunden sind.
Zweitens, werden in dieser Studie die Auswirkungen der verschiedenen Phasen tropischer Wellen auf synoptisch-skalige Niederschläge untersucht. Die Studie untersucht auch den Einfluss der Phasen auf NWP- und statistische Niederschlagsvorhersagen. Die Analyse zeigt, dass schnell propagierende Wellen, wie die tropische Depressionen (TDs) und Kelvin-Wellen, den größten Einfluss auf die täglichen Niederschlagsanomalien über dem tropischen Afrika haben. Großräumige Wellen, wie die Madden-Julian-Oszillation (MJO) und die äquatorialen Rossby-Wellen (ER), zeigen zwar eine gewisse Modulation, aber mit fehlenden Wellenstrukturen im verbundenen Niederschlagsmuster. Die Phasen aller tropischen Wellen, mit Ausnahme der ostwärts propagierenden Trägheitsschwerewellen (EIG) haben einen erkennbaren Einfluss auf die Güte der ENS-Vorhersage. Allerdings ist der Einfluss bei der Vorhersage des Auftretens von Niederschlägen stärker ausgeprägt als bei der Schätzung der Niederschlagsmenge.
Ein großer Nachteil des oben beschriebenen datengetriebenen Ansatzes besteht darin, dass er bei der Auswahl der Prädiktoren vollständig auf menschliches Fachwissen angewiesen ist. Vorhandenes Wissen über kohärente Wellenmerkmale wird nicht direkt einbezogen, insbesondere in Regionen, in denen mehrere Wellentypen aktiv sein können. Dies führt zu nichtlinearen Wechselwirkungen, die von der CPA möglicherweise nicht erkannt werden. Eine noch wichtigere Einschränkung ist jedoch das logistische Regressionsmodell, das lediglich die Wahrscheinlichkeit des Auftretens von Niederschlägen vorhersagen kann. Die Weiterentwicklung der statistischen Modelle soll diese beiden Mängel beheben. Um den ersten zu beheben, wurde ein Gradient-Boosting-Verfahren eingeführt, um die Auswahl der Prädiktoren teilweise zu automatisieren. Da das logistische Regressionsmodell auf binäre Ergebnisse beschränkt ist, wurden ein Gamma-Regressionsmodell und ein fortschrittlicheres Convolutional Neural Network (CNN) verwendet, um deterministische Vorhersagen der täglichen Niederschlagsmengen für sechs Stunden im Voraus zu erstellen. Das kürzlich entwickelte `Easy Uncertainty Quantification' (EasyUQ)-Tool wird verwendet, um diese deterministischen Vorhersagen in leicht zu kalibrierende probabilistische Vorhersagen umzuwandeln. Es werden Prädiktoren auf der Grundlage von sieben konvektiv gekoppelten tropischen Wellen identifiziert, um die statistischen Modelle in einem "Leave-one-out"-Kreuzvalidierungsmodus zu trainieren. Die erstellten statistischen Vorhersagen werden mit verschiedenen Benchmark-Vorhersagen verglichen, darunter zwei klimatologie-basierte Vorhersagen, die rohe ECMWF-Ensemblevorhersage und eine probabilistische Vorhersage, die mit EasyUQ aus der ECMWF-Kontrollvorhersage (ENS-control EasyUQ) erstellt wurde. Insgesamt weisen die statistischen Vorhersagen im gesamten Analysebereich eine hohe Güte auf, was die Robustheit der auf tropischen Wellen basierenden Vorhersagen belegt. Im Bereich des tropischen Regengürtels sind die statistischen Vorhersagen besser als die Benchmark-Vorhersagen. Allerdings zeigt die Gamma-Regressionsvorhersage statistische Signifikanz über ein größeres Gebiet als die CNN-Vorhersage. In Regionen mit geringem Niederschlag, insbesondere in der nördlichen Sahelzone und im äquatorialen Atlantik, scheint die ENS-Kontrollvorhersage EasyUQ ein höhere Güte aufzuweisen. Allerdings sind die Unterschiede zu den statistischen Vorhersagen in den meisten dieser Regionen statistisch nicht signifikant.
Diese Dissertation gehört zu den ersten Studien, die systematisch die Vorteile des Einsatzes statistischer Prognosen zur Vorhersage des täglichen Niederschlags im tropischen Afrika aufzeigen. Basierend auf meteorologischen Erkenntnissen versucht diese Arbeit, wertvolle Einblicke in die zugrundeliegenden Prinzipien, die von komplexen maschinellen Lernmodellen genutzt werden, zu liefern, um bessere Vorhersagen als die von konventionellen NWP-Modellen zu erstellen. Die in dieser Dissertation diskutierten statistischen Modelle wurden mit Schwerpunkt auf der operationellen Vorhersage entwickelt und können aufgrund ihrer im Vergleich zu ihren Pendants im NWP-Bereich wesentlich geringeren Kosten mit minimalen Änderungen eingesetzt werden.
Abstract (englisch):
Numerical model-based rainfall forecasts consistently fail to outperform more simplistic climatology-based forecasts over tropical Africa. The limitations of contemporary numerical weather prediction (NWP) models in resolving small-scale convective processes and the decreased intrinsic predictability in tropical areas are the major reasons for this. However, current research suggests that data-driven forecasts, which rely exclusively on spatio-temporal dependencies derived from satellite-based gridded rainfall estimates, demonstrate potential for improved predictability of synoptic-scale rainfall over tropical Africa. ... mehrA further benefit is the lower cost associated with statistical models for producing such forecasts. Motivated by this, the primary goal of this dissertation is to develop daily rainfall forecasts using statistical models trained solely on predictor variables derived from observational datasets.
First, we investigate the potential for constructing a statistical model to forecast the probability of daily precipitation occurrence across tropical Africa utilizing a logistic regression (Logistic) model. We apply the newly developed Coefficient of Predictive Ability (CPA) to detect predictors based on rainfall data from the previous three days. The Logistic model is trained on the identified predictors in a `leave-one-out' cross-validation mode to improve the robustness of output. The statistical forecast is compared with a climatology-based benchmark, the operational ensemble precipitation forecast (ENS) from the European Center for Medium Weather Forecast (ECMWF) and a statistically postprocessed ensemble forecast. All forecasts show poor skill within the main rainbelt region, with statistically insignificant differences in the Brier skill score (BSS). However, the Logistic forecast outperforms the benchmarks mainly along the fringes of the rainbelt. The CPA, along with a coherent-linear-propagation factor (coh) developed in the thesis and auxiliary meteorological variables, indicate that the high stochasticity in the rainbelt limits predictability. Along the fringes of the rainbelt, however, the Logistic model leverages coherently propagating precipitation features associated with potent tropical weather systems like African easterly waves (AEWs) in the summer season.
Secondly, this thesis examines the impact of tropical waves on synoptic-scale rainfall and explores the influence of their phases on ENS forecast. The analysis indicates that fast-moving waves, like the tropical depressions (TDs) and Kelvin waves, have the most significant impact on daily rainfall anomalies over tropical Africa. Slow, large-scale waves, such as the Madden-Julian Oscillation (MJO) and equatorial Rossby (ER) waves, demonstrate some modulation, but the corresponding propagation behaviour does not show expected wave structures in space. The phases of all tropical waves apart from the eastward inertio-gravity (EIG) waves have a discernible impact on the skill of the ENS forecast. However, the influence is more noticeable in predicting the occurrence of rainfall than in estimating the amount of precipitation.
One major drawback of the data-driven approach described earlier is its reliance on human expertise when choosing predictors. Existing knowledge of coherent wave features is not included directly, specifically in regions where multiple wave types may be active, which can result in non-linear interactions potentially undetected by CPA. However, a more significant limitation is the use of a logistic regression model, which can only predict the likelihood of rainfall occurrence. Further statistical models employed in this thesis address these two limitations. To overcome the former, a gradient-boosting technique has been implemented to partially automate predictor selection. As the logistic regression model is constrained to binary outcomes, a gamma regression model and a more advanced convolutional neural network (CNN) model have been utilised to generate six-hour-ahead deterministic forecasts of daily precipitation amounts. The recently introduced Easy Uncertainty Quantification (EasyUQ) tool transforms these deterministic forecasts into readily calibrated probabilistic forecasts. Predictors based on the convectively coupled tropical waves used earlier are identified to train the statistical models in a `leave-one-out' cross-validation mode. The statistical forecasts produced are compared with various benchmark forecasts, including two climatology-based forecasts, the ENS forecast and a probabilistic forecast generated through EasyUQ from the ECMWF control forecast (ENS-control EasyUQ). Overall, the statistical forecasts demonstrate proficiency throughout the entire analysis domain, attesting to the robustness of the tropical wave-based predictors. In the rainbelt region, the statistical forecasts are more skilful than the benchmark forecasts. The differences between the gamma regression and the benchmark forecasts demonstrate statistical significance over a wider area than the CNN forecast. In regions with very low rainfall amounts, specifically the northern Sahel and the equatorial Atlantic Ocean, the ENS-control EasyUQ prediction appears to display an enhanced level of skill. However, differences between the statistical and benchmark forecasts lack statistical significance in most such regions.
This dissertation belongs to the first studies to systematically present the advantages of employing statistical forecasts to predict daily rainfall in tropical Africa. Based on meteorological evidence, this thesis attempts to provide insights into the underlying principles utilised by complex machine-learning models in generating more skilful forecasts than the ones produced by conventional NWP models. The statistical models discussed in this dissertation are developed with a focus on operational forecasting and can be deployed with minimal changes due to lower costs compared to their NWP counterparts.