Abstract:
Tragbare Human Activity Recognition (HAR) bietet zahlreiche Vorteile, wie z.B. Echtzeit-Funktionalität, verbesserten Datenschutz und eine geringere Abhängigkeit von der Infrastruktur der Umgebung. Mit dem raschen Fortschritt in der Sensortechnologie wurden verschiedene Sensoren – darunter Beschleunigungsmesser, Gyroskope, Magnetometer, Sauerstoffsättigungssensoren, Herz-frequenzmonitore und Elektrookulografie (EOG) – in Geräte wie Smartphones, Ohrhörer und Smart Glasses integriert. Diese technologischen Entwicklungen haben die Anwendungsbereiche von tragbaren HAR-Systemen erheblich erweitert, einschließlich Gesundheitsüberwachung, Fitness-Coaching, Gaming, Gestensteuerung und mehr.
... mehr
Das Herzstück eines tragbaren HAR-Systems ist das maschinelle Lernmodell, das Aktivitäten basierend auf Sensordaten klassifiziert. Die Leistungsfähigkeit solcher Systeme hängt stark von der Qualität dieser Modelle ab. Obwohl Deep-Learning-Modelle bei HAR-Aufgaben überlegene Leistungen ge-zeigt haben, zeichnen sie sich oft durch einen großen Speicherbedarf und hohe Rechenanforderungen aus, was sie für den Echtzeit-Einsatz auf ressourcen-beschränkten Geräten ungeeignet macht. Seit 2021 ist die Forschung zu leichtgewichtigen Deep-Learning-Modellen für HAR begrenzt, und viele tragbare Anwendungen kämpfen mit der Implementierung fortschrittlicher Modelle auf Edge-Geräten. Einige Ansätze zielen darauf ab, die Modellgröße zu reduzieren, jedoch häufig auf Kosten der Klassifikationsgenauigkeit.
Angesichts dieser Herausforderungen konzentriert sich diese Dissertation auf die Entwicklung leichtgewichtiger neuronaler Netzmodelle für tragbare HAR-Systeme, mit dem Ziel, die Lücke zwischen leistungsstarken Modellen und deren praktischer Implementierung auf Edge-Geräten wie Mikrocontrollern (MCUs) zu schließen, ohne dabei auf Leistung zu verzichten oder mit minimaler Leistungseinbuße.
Die Entwicklung eines tragbaren HAR-Systems, von der Datenerfassung bis zur Modellimplementierung, folgt typischerweise vier Schlüsselschritten: Datenaufbereitung, Modellentwurf, Modelloptimierung und Quantisierung zur Implementierung. Nach der Analyse der Herausforderungen und Eigenschaften von HAR-Aufgaben sowie der Einschränkungen neuronaler Netze – insbesondere bei der Erfassung von Frequenzbereichsinformationen – untersucht diese Dissertation verschiedene Methoden zur Reduzierung der Modellgröße bei gleichbleibend hoher Leistung.
Im Datenaufbereitungsprozess haben wir uns mit Herausforderungen wie interklassenähnlichkeit, intraklassenvariabilität und der multimodalen Natur von HAR-Aufgaben auseinandergesetzt. Zur Verbesserung der Generalisierun-gsfähigkeit des Modells und zur Minderung der typischen Leistungsverschlech-terung bei kleineren Modellen wurden Datenaugmentationstechniken eingesetzt. Darüber hinaus experimentierten wir mit der Transformation von Zeitreihendaten in Frequenzbereichsdarstellungen. Um die durch diesen Ansatz eingeführte zusätzliche Hyperparameter- und Rechenkomplexität zu bewältigen, ha-ben wir eine lernbare Wavelet-Schicht in Kombination mit Pruning-Techniken vorgeschlagen, die die Fähigkeit des Modells, Frequenzbereichsmerkmale zu erfassen, verbessert und gleichzeitig die Größe des Modells reduziert.
Im Modellentwurfsprozess haben wir fünf Schlüsselprinzipien für den Entwurf leichtgewichtiger HAR-Modelle auf der Grundlage der Eigenschaften von HAR-Aufgaben und neuronalen Netzoperatoren festgelegt. Nach diesen Prinzipien entwickelten wir TinyHAR, ein wegweisendes Modell. Angesichts der Schwierigkeit neuronaler Netze, Hochfrequenzinformationen zu erfassen, schlugen wir zusätzlich ein Dual-Branch-Modell, Cross-Atten, vor, das sowohl Zeitreihen- als auch Spektrogramm-Darstellungen nutzt. Während beide Modelle mit leichtgewichtigen Architekturen eine State-of-the-Art (SOTA)-Leistung erzielten, erfüllten sie nicht vollständig die Echtzeitanforderungen und Hardwareeinschränkungen für Edge-Geräte. Um diese Einschränkungen zu überwinden, entwickelten wir ein Modell auf Basis vollständig vernetzter Schichten, MLP-HAR, das ausgezeichnete Klassifikationsleistungen, schnelle Inferenz-zeiten und einen minimalen Speicherverbrauch erzielte und somit als eines der effizientesten leichtgewichtigen HAR-Modelle gilt.
Das manuelle Design von Modellen erfordert erhebliche Fachkenntnisse und stellt eine Hürde für nicht-experten bei der Optimierung von Modellen für spezifische Anwendungsfälle dar. Um dem entgegenzuwirken, haben wir automatisierte maschinelle Lerntechniken (AutoML) in den Modelloptimierungs-prozess integriert, insbesondere mit dem MicroNAS-Framework. Dieses Framework optimiert nicht nur die Klassifikationsleistung, sondern berücksichtigt auch Hardwareeinschränkungen und Echtzeitanforderungen. Zusätzlich führten wir ein neuartiges Framework, NAS meets Pruning (SFTNAS), ein, das nicht nur die Modellstruktur optimiert, sondern auch automatisch die kritischsten Sensor-Kanäle auswählt. SFTNAS hat eine bemerkenswerte Fähigkeit zur Reduzierung der Modellkomplexität gezeigt und gleichzeitig wertvolle Einblicke in das Design manuell konstruierter Modelle geliefert.
Durch umfangreiche Experimente an Benchmark-Datensätzen zeigten die vorgeschlagenen Methoden durchweg HAR-Modelle, die SOTA-Leistung erzielten, während sie gleichzeitig einen geringen Speicherverbrauch und schnelle Inferenzzeiten aufwiesen, was sie für Echtzeitanwendungen geeignet macht. Diese Modelle wurden erfolgreich auf Mikrocontrollern und Smartwatches implementiert, wo sie sowohl SOTA-Klassifikationsgenauigkeit als auch schnelle Inferenzfähigkeiten zeigten.
Zusammenfassend behandelt diese Dissertation die entscheidende Herausforderung, leichtgewichtige und dennoch leistungsstarke neuronale Netzmodelle für tragbare HAR-Systeme zu entwickeln. Durch die gründliche Untersuchung der einzigartigen Eigenschaften von HAR-Aufgaben und der Einschränkungen aktueller Deep-Learning-Modelle schlagen wir eine Reihe von Innovationen vor. Unsere Arbeit zeigt, dass es möglich ist, die Modellgröße erheblich zu reduzieren, ohne die Klassifikationsgenauigkeit zu beeinträchtigen, indem Techniken wie automatisierte Datenaugmentation, Frequenzbereichstransformationen und neuartige Architekturen wie TinyHAR, Cross-Atten und MLP-HAR eingesetzt werden. Darüber hinaus automatisieren wir durch die Einführung von AutoML-Techniken die Suche nach optimalen Architekturen unter Berücksichtigung von Hardwareeinschränkungen und Echtzeitleistungsanforderungen. Diese Dissertation trägt zur Weiterentwicklung des tragbaren HAR bei und bietet praktische Lösungen zur Implementierung effizienter, leistungsstarker Modelle auf ressourcenbeschränkten Geräten.
Abstract (englisch):
Wearable Human Activity Recognition (HAR) offers numerous advantages, such as real-time functionality, enhanced data privacy, and reduced dependency on environmental infrastructure. With the rapid advancement of sensor technology, various sensors—including accelerometers, gyroscopes, magnetometers, oxygen saturation sensors, heart rate monitors, and electrooculography (EOG)—have been integrated into devices like smartphones, earphones, and smart glasses. These technological developments have significantly expanded the applications of wearable HAR systems, including healthcare monitoring, fitness coaching, gaming, gesture control, and more.
... mehr
The core of a wearable HAR system is the machine learning model that classifies activity based on sensor data. The performance of such systems is heavily reliant on the quality of these models. While deep learning models have demonstrated superior performance in HAR tasks, they are often characterized by large memory footprints and high computational demands, making them unsuitable for real-time deployment on resource-constrained devices. As of 2021, research on lightweight deep learning models for HAR remains limited, and many wearable applications struggle to deploy advanced models on edge devices. Some efforts have aimed to reduce model size but frequently at the cost of classification performance.
Motivated by these challenges, this dissertation focuses on developing light-weight neural network models for wearable HAR systems, aiming to bridge the gap between high-performance models and practical deployment on edge devices such as micro-controller units (MCUs), without sacrificing performance or with minimal degradation.
The development of a wearable HAR system, from data collection to model deployment, typically follows four key stages: data preparation, model design, model optimization, and quantization for deployment. After analyzing the challenges and characteristics of HAR tasks, as well as the limitations of neural networks—particularly in capturing frequency-domain information—this dissertation explores various methods to reduce model size while maintaining high performance.
In the data preparation stage, we addressed challenges related to inter-class similarity, intra-class variability, and the multi-modal nature of HAR tasks. Data augmentation techniques were employed to enrich the dataset, improving model generalization and mitigating the performance degradation typically associated with smaller models. Additionally, we experimented with transforming time-series data into frequency-domain representations. To manage the additional hyper-parameters and computational complexity introduced by this approach, we proposed a learnable wavelet layer combined with pruning techniques, improving the model's ability to capture frequency-domain features while reducing its size.
In the model design stage, we established five key principles for designing lightweight HAR models based on the characteristics of HAR tasks and neural network operators. Following these principles, we developed TinyHAR, a landmark model. Recognizing the difficulty of neural networks in capturing high-frequency information, we further proposed a dual-branch model, Cross-Atten, which leverages both time-series and spectrogram representations. While both models achieved state-of-the-art (SOTA) performance with lightweight architectures, they did not fully address real-time requirements and hardware constraints for edge devices. To overcome these limitations, we developed a fully connected layer-based model, MLP-HAR, which achieved excellent classification performance, fast inference times, and minimal memory consumption, positioning it as one of the most efficient lightweight HAR models to date.
Manual model design requires significant expert knowledge, posing a barrier for non-expert users in optimizing models for specific application scenarios. To address this, we integrated automated machine learning (AutoML) techniques into the model optimization process with the MicroNAS framework. This framework optimizes not only the classification performance but also accounts for hardware constraints and real-time inference requirements. Additionally, we introduced a novel framework, NAS meets Pruning (SFTNAS), which not only optimizes model structure but also automatically selects the most critical sensor channels. SFTNAS has demonstrated remarkable ability in reducing model complexity while offering valuable insights into the design of manually constructed models.
Through extensive experimentation on benchmark datasets, the proposed methods consistently yielded HAR models that achieved SOTA performance while maintaining low memory usage and fast inference times, making them suitable for real-time applications. These models were successfully deployed on micro-controllers and smartwatches, where they exhibited both SOTA classification accuracy and fast inference capabilities.
In summary, this dissertation addresses the critical challenge of developing lightweight yet high-performance neural network models for wearable HAR systems. By thoroughly examining the unique characteristics of HAR tasks and the limitations of current deep learning models, we propose a series of innovations. Our work demonstrates that it is possible to significantly reduce model size without sacrificing classification accuracy by employing techniques such as automated data augmentation, frequency-domain transformations, and novel architectures like TinyHAR, Cross-Atten, and MLP-HAR. Furthermore, by introducing AutoML techniques, we automate the search for optimal architectures while considering hardware constraints and real-time performance requirements. This dissertation advances the field of wearable HAR, offering practical solutions for deploying efficient, high-performance models on resource-constrained devices.