Abstract:
Knowledge Discovery (KD) – die Extraktion valider, neuartiger und handlungsrelevanter Muster aus Daten – hat einen tiefgreifenden Einfluss auf die moderne Wissenschaft und Industrie. Es ermöglicht Fortschritte in Bereichen wie den Materialwissenschaften, der Medizin und der Biologie sowie die Optimierung komplexer industrieller Fertigungsprozesse.
Klassische KD-Prozesse setzen jedoch häufig voraus, dass Daten in einem zentralen Speicher leicht verfügbar sind. In der Realität ist die Datenerhebung oft ein teures und zeitaufwendiges Unterfangen, das Materialien, Arbeitskraft und Energie erfordern kann.
... mehr
Solche Datenerhebungskosten werden für KD besonders dann zur Herausforderung, wenn (1) der zugrunde liegende datengenerierende Prozess nicht stationär ist, d. h. Concept Drift aufweist, und wenn (2) Messungen integriert oder aggregiert vorliegen, was die eigentlich relevante Größe verschleiert. Hier macht die kostspielige Datenerhebung die Erfassung ausreichender Datenmengen für traditionelle Lösungen oft unpraktikabel. Während etablierte Felder wie Active Learning und Bayes’sche Optimierung daran arbeiten die Dateneffizienz zu steigern, konzentriert sich die bestehende Literatur häufig auf wenige gut erforschte Aufgaben und vernachlässgt oft die Verknüpfung zwischen diesen Bausteinen und anderen KD-Aufgaben. Das Ziel dieser Dissertation ist es, diese Lücke zu schließen, indem sie die Nützlichkeit von Adaptive Knowledge Discovery (AKD) in neuen Szenarien und für neue Aufgaben aufzeigt.
Zunächst adressieren wir die Herausforderungen die durch Concept Drift entstehen, indem wir Data Efficient Active Learning (DEAL) vorstellen, einen neuen Ansatz für Regression unter Drift. DEAL modelliert Drift explizit als stochastischen Prozess und schätzt die Zunahme der Unsicherheit über verschiedene Datenregionen hinweg. Dies ermöglicht es Modellkalibrierung nur dann durchzuführen, wenn die Unsicherheit einen benutzerdefinierten Schwellenwert erreicht, wodurch teure Messungen minimiert werden, während die Modellqualität erhalten bleibt.
Anschließend widmen wir uns verborgenen Informationen in aggregierten Messungen.
Hierzu leiten wir den neuartigen Brownian Integral Kernel (BIK) her. Dieser quantifiziert die zusätzliche Unsicherheit, die integrierten Daten aus Größen mit Brownschem Bewegungsverhalten innewohnt – ein charakteristisches Verhalten physikalischer Prozesse. Durch die Modellierung dieser Unsicherheit ermöglichen wir eine präzise Regression und Qualitätssicherung in Szenarien, in denen eine direkte Beobachtung nicht möglich ist.
Darüber hinaus untersuchen wir die Einbindung von Domänenwissen zur Steigerung der Dateneffizienz. Im Kontext der Surrogatmodell-basierten Optimierung für die industrielle Fertigung zeigen wir, wie die Einbeziehung von domänenagnostischem und domänenspezifischem Ingenieurwissen den Bedarf an teuren High-Fidelity-Simulationen reduziert.
Um diese Modelle auf spezifische KD-Aufgaben auszurichten, schlagen wir Objective Alignment (OA) vor, welches das Trainingsziel eines Modells durch gradientengewichtete Verlustfunktionen automatisch mit dem spezifischen Informationsbedarf der KD-Aufgabe abgleicht.
Schließlich wenden wir die AKD-Methodik auf die im AKD-Kontext neuartige Aufgabe des Multi-Sample-Testens an. Wir zeigen, dass Adaptive Multi-sample Testing (AMT) Verteilungsunterschiede dateneffizienter bestimmen kann als nicht-adaptive klassische Testmethoden, während AMT ein vorgegebenes Signifikanzniveau einhält.
Insgesamt etabliert diese Dissertation AKD als grundlegende Methodik zur Lösung vielfältiger KD-Aufgaben in ressourcenbeschränkten und nicht stationären Umgebungen.
Unter Verwendung synthetischer und realer Daten demonstrieren wir die Vorteile unserer Methoden durch umfangreiche Studien an realen Anwendungsfällen, die von der Prozessüberwachung über die Lastprognose bis hin zum Textil-Tiefziehen reichen. Zur Erleichterung der Reproduktion stellen wir unsere Algorithmen und Benchmarks auf Open-Source-Plattformen zur Verfügung.
Abstract (englisch):
Knowledge Discovery (KD) – the process of extracting valid, novel, and actionable patterns from data – has a profound impact on modern science and industry. It facilitates critical advancements in fields such as materials science, medicine, and biology, as well as the optimization of complex industrial manufacturing processes.
However, the classic KD processes often assumes that data is readily available in a centralized warehouse. In reality, data collection is often an expensive and time-consuming endeavor, requiring significant material resources, labor, and energy. ... mehrSuch data acquisition costs becomes particularly challenging for KD when (1) the underlying data-generating process is non-stationary, i.e., exhibiting concept drift, and when (2) measurements are integrated or aggregated, obscuring the true quantity of interest. Here, the expensive data collection makes acquiring sufficient data for traditional solutions to these challenges often impractical. While established fields like Active Learning and Bayesian Optimization address data efficiency, existing literature often focuses on a few well-researched tasks, frequently missing the linkage between these building blocks and more diverse discovery tasks. The goal of this dissertation is to bridge this gap by providing a methodological case for Adaptive Knowledge Discovery (AKD) in new scenarios and for new tasks.
We first focus on the challenge of concept drift by introducing Data Efficient Active Learning (DEAL) a new approach for regression under drift. DEAL explicitly models drift as a stochastic process estimating the increase in uncertainty across data regions. We show that this allows for model recalibration only when uncertainty reaches a user-required threshold, thereby minimizing expensive measurements while maintaining model quality.
Then, we address the problem of hidden information in aggregated measurements.
We derive the novel Brownian Integral Kernel (BIK) that quantifies the additional uncertainty inherent in integrated data from quantities that behave like Brownian motions – a typical behavior in physical processes. By modeling this uncertainty we enable accurate regression and quality adherence in scenarios where direct observation is impractical.
Furthermore, we investigate the inclusion of domain knowledge to enhance data efficiency. In the context of surrogate model-based optimization for industrial manufacturing, we demonstrate how incorporating domain-agnostic and domain-informed engineering knowledge reduces the need for expensive high-fidelity simulations. To align these models with specific discovery goals, we propose Objective Alignment (OA), which automatically matches the training goal of a model with the specific information needs of the discovery task through gradient-weighted loss functions.
Finally, we apply the AKD methodology to the, in the AKD context novel, task of multi-sample testing, showing that Adaptive Multi-sample Testing (AMT) can determine distribution differences more data efficiently than non-adaptive classic testing methods while adhering to a given significance level.
Overall, this dissertation establishes Adaptive Knowledge Discovery as a fundamental methodology to solve diverse knowledge discovery tasks in resource-constrained and non-stationary environments. We demonstrate the benefits of our methods through extensive studies on real-world use cases, ranging from process monitoring, over load forecasting, to textile draping using synthetic and real-world data. To facilitate reproduction, we release our algorithms, and benchmarks on open-source platforms.