Abstract:
Künstliche Intelligenz (KI) hat die Produktionstechnik in der Industrie bereits revolutioniert und wird diese zukünftig weitgehend verändern. Diese Transformation hat bzw. wird abhängig von der jeweiligen Branche zu Kostensenkungen von bis zu ca. $20\%$ und Umsatzsteigerungen von bis zu ca. $10\%$ führen. Mithilfe von KI ist es IT-Systemen nun möglich, große Datenmengen aus Produktionslinien effizient zu verarbeiten, Schlussfolgerungen daraus zu ziehen und Optimierungen durchzuführen. Diese Fähigkeiten ermöglichen es diesen Systemen, Muster in den Daten zu erkennen, Prozessverhalten zu analysieren und vorherzusagen sowie Anomalien in Echtzeit während des Produktionsprozesses zu erkennen.
... mehr
Eine wichtige Rolle nimmt hierbei die Perzeption von Objekten ein, um beispielweise zuvor bereits bekannte Objekte in unterschiedlichen Umgebungen präzise zu lokalisieren und zu erkennen. Für die Skalierung solcher Perzeptionsmodelle auf neue Produkte und unbekannte Objekte und dem damit verbundenem Training von neuen und zuvor nicht bekannten Klassen werden normalerweise sehr viele annotierte Daten benötigt. Um diese Menge von benötigten Trainingsdaten zu reduzieren, können Modelle auf Basis des Few-Shot-Object-Detection (FSOD)-Ansatzes eingesetzt werden, die diese neuen Objekte bzw. Klassen anhand einer begrenzten Anzahl von Daten erlernen können.
Allerdings haben aktuelle FSOD-Algorithmen zwei Hauptnachteile. Sie sind erstens anfällig für das sogenannte „katastrophale Vergessen“ beim Erlernen neuer Klassen, da sie dazu tendieren, zuvor bereits erlerntes Wissen über die Basis-Klassen zu vergessen. Dieses Phänomen kann in unterschiedlichen Situationen zu verschiedenen Fehlern führen. Zweitens sind sie im Vergleich zu anderen Ansätzen aufgrund ihrer Komplexität und der hohen Modellkapazität viel rechenaufwändiger und weisen eine verminderte Genauigkeit auf.
In dieser Dissertation werden drei neue „Generalized-Few-Shot-Object-Detection“ (G-FSOD)-Ansätze vorgestellt, die das katastrophale Vergessen in neuronalen Netzen untersuchen. In den ersten beiden Verfahren wird dieses Vergessen über das Wissen von Basis-Klassen verringert, in dem Informationen bzw. Daten über diese Klassen während des Trainings noch vorhanden sind. Hierfür wird in der ersten Methode eine neue Gradienten-Update-Regel für den Trainingsprozess vorgeschlagen, die zum einen die Gradienten in die richtige Richtung lenkt und zum anderen sicherstellt, dass diese Gradienten zu den Gradienten aus der Basis-Klasse ähnlich ausgerichtet sind. Dies ermöglicht gleichzeitig einen effektiven Informationsaustausch im Training. Das zweite Verfahren führt ein progressives Netzwerk zur Verfeinerung von Objektvorschlägen ein, das aleatorische und epistemische Unsicherheiten nutzt, um eine robustere Repräsentation für alte und neue Klassen zu erlernen. Im dritten Ansatz wird eine „Knowledge-Distillation“ eingeführt, damit auch ohne Informationen über die Basis-Daten neue Klassen gelernt werden können. Dies wird durch einen eigenständigen und leichtgewichtigen Feature-Generator sichergestellt, der zugleich die Hauptidee dieses Verfahren widerspiegelt und die Basis-Daten im hochdimensionalem Feature-Raum repliziert.
Alle drei entwickelten Verfahren basieren auf dem Decoupled Faster R-CNN (DeFRCN)-Modell. Das DeFRCN wurde verwendet aufgrund seiner hervorragenden Leistungsfähigkeit und seiner einfacheren Architektur im Vergleich zu den Transformer-basierten Modellen. Außerdem stehen diese drei Ansätze im Gegensatz zur häufig verwendeten, jedoch teureren und weniger effizienten „Modellinversionstechnik“, die iterative Optimierungsverfahren zur Rekonstruktion der Eingangsdaten nutzt.
Damit solche FSOD-Modelle auch auf eingebetteten Rechenplattformen eingesetzt werden können, wurden in dieser Arbeit zusätzlich Methoden untersucht, um vorhandene Bottlenecks in diesen FSOD-Architekturen zu reduzieren. Dazu wurde ein ressourceneffizienteres FSOD-Modell entwickelt, das aus folgenden vier Hauptkomponenten besteht: Eine Multiskalen-Feature-Fusion, eine Multi-Way-Support-Trainingstrategie, eine Multiskalen-Datenaugmentation und eine adaptive Klassen-Prototyping-Technik.
Am Schluss dieser Arbeit werden die vorgestellten Verfahren validiert und umfangreiche qualitative und quantitative Experimente an mehreren unterschiedlichen Datensätzen durchgeführt. In diesen Experimenten erzielen diese drei Verfahren state-of-the-art Ergebnisse in den FSOD-Benchmarks und können somit auch in vielen praktischen Anwendungen in realen Szenarien und im industriellen Umfeld eingesetzt werden.
Abstract (englisch):
Artificial Intelligence (AI) has been disrupting the manufacturing sector, completely reshaping how industries operate. These changes have resulted in cost reductions of approximately up to $20\%$ and revenue increases of up to $10\%$ in different industries. AI can empower computer vision systems to efficiently process and interpret vast volumes of data from production lines. This capability allows these systems to spot patterns, analyze and predict process behavior, and detect anomalies in real-time during production processes, among other functions. A pivotal component of these modern perception systems is an object detection model capable of accurately localizing and classifying known objects in diverse environmental settings. ... mehrNevertheless, scaling detection models to new products necessitates learning previously unseen classes during the training phase, calling for extensive data collection and labeling efforts. To address this challenge, Few-Shot Object Detection (FSOD) aims to learn new classes from limited data, offering a potential solution.
However, current FSOD algorithms suffer from two major drawbacks. First, they are vulnerable to catastrophic forgetting while learning new classes, as they tend to forget previously learned knowledge on base classes. This phenomenon can be highly detrimental in various situations, leading to system failures or even hazardous consequences. Second, they incur high computational overhead and slow performance, hindering their deployment in real-time systems. The complexity of inference paradigms and large model capacities contributes to these limitations.
This dissertation presents three novel Generalized FSOD (G-FSOD) approaches. These strategies are devised to tackle the challenge of forgetting previously acquired knowledge while learning new classes with limited data. The first two approaches are designed to alleviate forgetting on base classes when they are still available during training on novel data. For the first framework, a novel update rule is proposed to guide the model gradients, ensuring they remain aligned with the base gradients to facilitate effective knowledge transfer. The second framework introduces a progressive object proposal refinement network that leverages aleatoric and epistemic uncertainties to learn more robust representations for old and new classes. To address the base data-free scenario, the third framework introduces a knowledge distillation approach. The key novelty of this framework lies in the design of a lightweight standalone feature generator. This generator is employed to replicate base data within the high-level feature space. This approach stands in contrast to the commonly used but more expensive and less efficient model inversion technique, involving iterative optimization procedures to reconstruct the input data. All these three frameworks adopt the Decoupled Faster R-CNN (DeFRCN) model as a base framework. The choice of DeFRCN is driven by its superior performance in FSOD while having a simpler architecture compared to its transformer-based counterparts.
In pursuit of facilitating the deployment of FSOD models on embedded computing platforms, concerted efforts have been directed toward mitigating the existing bottlenecks. In alignment with this objective, a more resource-efficient FSOD framework has been introduced. Concretely, this framework comprises four novel components: a multi-scale feature fusion, a multi-way support training strategy, multi-scale data augmentation, and an adaptive class prototyping technique.
To validate the proposed approaches, extensive qualitative and quantitative experiments have been conducted on multiple detection datasets achieving the state-of-the-art on the challenging G-FSOD benchmarks, and shedding light on their practical applicability in real-world scenarios.
In summary, this dissertation offers several valuable industry benefits: Firstly, it enables the acquisition of new product knowledge with limited data rapidly. Secondly, it reduces labeling efforts and costs by efficiently leveraging a small subset of labeled samples to annotate the rest. Lastly, it enhances overall production quality by complementing human-based activities like manual product assembly, accounting for fatigue and distractions.