Abstract:
Das Forschungsgebiet der Wearable Human Activity Recognition (WHAR) befasst sich mit der automatisierten Analyse menschlicher Bewegungen anhand von Sensorsignalen wie Beschleunigungs- oder Gyroskopdaten. Mit modernen tragbaren Geräten, die von Smartwatches und Fitness-Trackern bis hin zu Kopfhörern reichen, ist es nun möglich, solche Signale kontinuierlich in einer Vielzahl von Alltagssituationen zu erfassen. Nutzer möchten typischerweise ihre täglichen Aktivitäten, sportlichen Leistungen oder gesundheitsbezogenen Metriken überwachen und Erkenntnisse darüber gewinnen, wie sie diese verbessern können.
... mehr
Zur Modellierung und Klassifikation von WHAR-Daten kommen überwiegend Methoden des Maschinellen Lernens (ML) zum Einsatz, da sie sich hervorragend an verschiedene Nutzertypen und Aktivitäten adaptieren lassen. In jüngerer Zeit werden verstärkt neuronale Netze verwendet, da sie anderen Verfahren in Generalisierungs- und Anpassungsfähigkeit überlegen sind. Der Einsatz solcher Modelle auf mobilen Endgeräten ist jedoch herausfordernd. Begrenzte Rechenleistung, kurze Akkulaufzeiten sowie die große Variabilität der Aktivitätsdaten, bedingt durch unterschiedliche Nutzer, Sensorplatzierungen und Bewegungsmuster, können die Modellleistung einschränken. Eine zentrale Aufgabe der WHAR ist daher die Entwicklung robuster und effizienter Modelle, die nicht nur elementare Aktivitäten wie Gehen oder Sitzen, sondern auch komplexe Handlungsabfolgen wie zusammengesetzte Sportübungen zuverlässig erkennen können.
Die Entwicklung solcher ML-Modelle erfordert einen Kompromiss zwischen Modellgröße und Generalisierungsfähigkeit. Für kleine, spezialisierte Anwendungen setzt diese Arbeit daher auf flexible Graph Neural Networks (GNNs) und für Szenarien, die eine bessere Generalisierung über verschiedene Sensormodalitäten hinweg erfordern, auf Foundation Model (FM)-Techniken. Ihre Kernbeiträge sind (i) effiziente und wiederverwendbare Graphtransformationen, die zeitliche Abläufe in Sensorsignalen und komplexen Aktivitätssequenzen abbilden, (ii) GNNs zur leichtgewichtigen Aktivitätserkennung und Vorhersage komplexer Aktivitätssequenzen, (iii) ein Konzept zur Harmonisierung heterogener Sensorsignale für das Training universeller WHAR-Modelle, sowie (iv) FMs, die präzise Signalvorhersagen und -klassifikationen durch neuartige Signalanalysen ermöglichen.
Der erste Teil dieser Arbeit präsentiert Graphtransformationen, die für die Erkennung von Aktivitäten auf verschiedenen Abstraktionsebenen mittels GNNs notwendig sind. Der erste Ansatz erreicht auf vier Referenzdatensätzen ähnliche Erkennungsraten wie topaktuelle Klassifikatoren, benötigt dafür jedoch bis zu drei Größenordnungen weniger Parameter. Kurze Inferenzzeiten auf einer Smartwatch demonstrieren die Echtzeitfähigkeit des Modells. Der zweite Ansatz zeigt die Wirksamkeit von GNNs für die sequenzielle Aktivitätserkennung auf zwei Datensätzen und unterstreicht damit deren Vielseitigkeit im WHAR-Bereich.
Der zweite Teil stellt zwei FMs vor, die vielfältig einsetzbare Signaldarstellungen aus acht vereinheitlichten Datensätzen extrahieren und so die Diversität von Sensorsignalen und Aktivitäten kompensieren. Das erste WHAR-FM erzielt eine um bis zu 12 % geringere absolute Abweichung bei der Signalvorhersage als aktuelle Referenzmodelle. Die Evaluation zeigt zudem eine mit wachsender Datenmenge stetig steigende Generalisierungsfähigkeit. Das zweite WHAR-FM lässt sich mit nachgeschalteten Klassifikatoren kombinieren, was deren F1-Maße um bis zu 0,286 Punkte verbessert, während sich die Inferenzzeiten nur geringfügig erhöhen.
Diese Dissertation demonstriert somit das Potenzial innovativer Signaldarstellungen und ML-Modelle zur Verbesserung realer WHAR-Anwendungen. Umfangreiche Experimente zeigen, dass GNNs und FMs zentrale Herausforderungen wie Gerätebeschränkungen, Signalvariabilität und Aktivitätsvielfalt erfolgreich adressieren und so den Weg für effizientere und präzisere Anwendungen ebnen. Die vorgestellten Methoden bilden einen Werkzeugkasten, den Forscher und Ingenieure zur Bewältigung einer Vielzahl von Anwendungsfällen einsetzen können.
Abstract (englisch):
The Wearable Human Activity Recognition (WHAR) research field focuses on the automated analysis of human motion and behavior in signals from body-worn sensors like accelerometers or gyroscopes. With modern wearable devices, ranging from smartwatches and fitness trackers to earbuds, it now becomes possible to collect such signals continuously in a variety of everyday situations. Users typically want to monitor and get insights on how to improve their daily activities, performance in sports, or health-related metrics.
Machine Learning (ML) models are commonly used to model and classify WHAR data, as they excel in adapting to the many types of individuals and their variations in performing activities. ... mehrRecently, neural networks have become prominent because they offer better generalizability and adaptability than other approaches. However, deploying such models on mobile devices poses significant challenges. Limited computing power, short battery life, and high variability in activity data caused by different users, sensor placements, and movement patterns can all hinder model performance. As a result, a key objective of WHAR is to develop robust and efficient models that are capable of not only recognizing basic actions like walking or sitting but also complex motion patterns such as compound exercises.
Developing ML for WHAR comes with a major tradeoff: Either one can focus on making models as small as possible at the expense of generalizability in application, or vice versa. This dissertation explores methods at both extremes, building on flexible graph representations with Graph Neural Networks (GNNs) when it comes to small, specialized applications, and on Foundation Model (FM) techniques for scenarios that require greater generalization across diverse sensing setups. Its key contributions include (i) resource-efficient and reusable graph transformations that capture temporal dependencies in WHAR signals and complex activity sequences, (ii) GNNs that facilitate lightweight activity recognition and sequential activity prediction, (iii) a framework for harmonizing heterogeneous signals from various sensors that allows general-purpose WHAR models to learn from large-scale data, and (iv) FMs that enable precise signal forecasting and classification through novel dual-view and multi-resolution signal analysis.
In its first part, this work presents techniques for converting signal and activity representations into graph representations, which are necessary for the classification and reasoning of interrelated activity patterns at different levels of abstraction using GNNs. The first approach matches the classification performance of state-of-the-art (SOTA) classifiers on four benchmark datasets while requiring up to three orders of magnitude fewer parameters. Short inference times on a smartwatch demonstrate the model's ability to operate close to real time. The second approach proves effective for sequential activity recognition on two benchmark datasets, underscoring the versatility of GNNs within the WHAR domain.
The second part presents two FMs that extract versatile signal representations from eight aligned datasets. These models help address the diversity of sensor signals and activities. The first WHAR-FM outperforms SOTA in signal forecasting by up to 12 % in mean absolute error. Results also show that its generalizability improves steadily with the amount of training data. The second WHAR-FM integrates with neural network-based classifiers, enhancing their F1 scores by up to 0.286 points while only slightly increasing inference times on a smartwatch.
In sum, this dissertation demonstrates how innovative signal representations and ML models can improve real-world WHAR applications. By representing signals as graphs, GNNs capture complex relationships within the data, while WHAR-FMs learn generalizable signal representations from large datasets. Extensive experiments show that GNNs and FMs help overcome key challenges such as device limitations, signal variability, and the broad range of users and activities. Together, these findings support the development of more efficient and accurate WHAR solutions and provide researchers and engineers with a new toolbox of methods that they can employ to handle a variety of use cases.