Abstract:
Mit der Entwicklung von Deep-Learning-Techniken sind Deep-acNN-basierte Methoden
zum Standard für Bildverarbeitungsaufgaben geworden, wie z. B. die Verfolgung menschlicher
Bewegungen und Posenschätzung, die Erkennung menschlicher Aktivitäten und
die Erkennung von Gesichtern. Deep-Learning-Techniken haben den Entwurf, die Implementierung
und den Einsatz komplexer und vielfältiger Anwendungen verbessert, die nun
in einer Vielzahl von Bereichen, einschließlich der Biomedizintechnik, eingesetzt werden.
Die Anwendung von Computer-Vision-Techniken auf die medizinische Bild- und Videoanalyse
... mehr
hat zu bemerkenswerten Ergebnissen bei der Erkennung von Ereignissen geführt. Die
eingebaute Fähigkeit von convolutional neural network (CNN), Merkmale aus komplexen
medizinischen Bildern zu extrahieren, hat in Verbindung mit der Fähigkeit von long short
term memory network (LSTM), die zeitlichen Informationen zwischen Ereignissen zu erhalten,
viele neue Horizonte für die medizinische Forschung geschaffen. Der Gang ist einer der
kritischen physiologischen Bereiche, der viele Störungen im Zusammenhang mit Alterung
und Neurodegeneration widerspiegeln kann. Eine umfassende und genaue Ganganalyse
kann Einblicke in die physiologischen Bedingungen des Menschen geben. Bestehende
Ganganalyseverfahren erfordern eine spezielle Umgebung, komplexe medizinische Geräte
und geschultes Personal für die Erfassung der Gangdaten. Im Falle von tragbaren Systemen
kann ein solches System die kognitiven Fähigkeiten beeinträchtigen und für die Patienten
unangenehm sein.
Außerdem wurde berichtet, dass die Patienten in der Regel versuchen, während des
Labortests bessere Leistungen zu erbringen, was möglicherweise nicht ihrem tatsächlichen
Gang entspricht. Trotz technologischer Fortschritte stoßen wir bei der Messung des menschlichen
Gehens in klinischen und Laborumgebungen nach wie vor an Grenzen. Der Einsatz
aktueller Ganganalyseverfahren ist nach wie vor teuer und zeitaufwändig und erschwert den
Zugang zu Spezialgeräten und Fachwissen.
Daher ist es zwingend erforderlich, über Methoden zu verfügen, die langfristige Daten
über den Gesundheitszustand des Patienten liefern, ohne doppelte kognitive Aufgaben oder
Unannehmlichkeiten bei der Verwendung tragbarer Sensoren. In dieser Arbeit wird daher eine einfache, leicht zu implementierende und kostengünstige Methode zur Erfassung von
Gangdaten vorgeschlagen. Diese Methode basiert auf der Aufnahme von Gehvideos mit
einer Smartphone-Kamera in einer häuslichen Umgebung unter freien Bedingungen. Deep
neural network (NN) verarbeitet dann diese Videos, um die Gangereignisse zu extrahieren.
Die erkannten Ereignisse werden dann weiter verwendet, um verschiedene räumlich-zeitliche
Parameter des Gangs zu quantifizieren, die für jedes Ganganalysesystem wichtig sind.
In dieser Arbeit wurden Gangvideos verwendet, die mit einer Smartphone-Kamera mit
geringer Auflösung außerhalb der Laborumgebung aufgenommen wurden. Viele Deep-
Learning-basierte NNs wurden implementiert, um die grundlegenden Gangereignisse wie
die Fußposition in Bezug auf den Boden aus diesen Videos zu erkennen. In der ersten
Studie wurde die Architektur von AlexNet verwendet, um das Modell anhand von Gehvideos
und öffentlich verfügbaren Datensätzen von Grund auf zu trainieren. Mit diesem Modell
wurde eine Gesamtgenauigkeit von 74% erreicht. Im nächsten Schritt wurde jedoch die
LSTM-Schicht in dieselbe Architektur integriert. Die eingebaute Fähigkeit von LSTM in
Bezug auf die zeitliche Information führte zu einer verbesserten Vorhersage der Etiketten
für die Fußposition, und es wurde eine Genauigkeit von 91% erreicht. Allerdings gibt es
Schwierigkeiten bei der Vorhersage der richtigen Bezeichnungen in der letzten Phase des
Schwungs und der Standphase jedes Fußes.
Im nächsten Schritt wird das Transfer-Lernen eingesetzt, um die Vorteile von bereits
trainierten tiefen NNs zu nutzen, indem vortrainierte Gewichte verwendet werden. Zwei
bekannte Modelle, inceptionresnetv2 (IRNV-2) und densenet201 (DN-201), wurden mit
ihren gelernten Gewichten für das erneute Training des NN auf neuen Daten verwendet. Das
auf Transfer-Lernen basierende vortrainierte NN verbesserte die Vorhersage von Kennzeichnungen
für verschiedene Fußpositionen. Es reduzierte insbesondere die Schwankungen
in den Vorhersagen in der letzten Phase des Gangschwungs und der Standphase. Bei der
Vorhersage der Klassenbezeichnungen der Testdaten wurde eine Genauigkeit von 94% erreicht.
Da die Abweichung bei der Vorhersage des wahren Labels hauptsächlich ein Bild
betrug, konnte sie bei einer Bildrate von 30 Bildern pro Sekunde ignoriert werden.
Die vorhergesagten Markierungen wurden verwendet, um verschiedene räumlich-zeitliche
Parameter des Gangs zu extrahieren, die für jedes Ganganalysesystem entscheidend sind.
Insgesamt wurden 12 Gangparameter quantifiziert und mit der durch Beobachtungsmethoden
gewonnenen Grundwahrheit verglichen. Die NN-basierten räumlich-zeitlichen Parameter
zeigten eine hohe Korrelation mit der Grundwahrheit, und in einigen Fällen wurde eine sehr
hohe Korrelation erzielt. Die Ergebnisse belegen die Nützlichkeit der vorgeschlagenen Methode.
DerWert des Parameters über die Zeit ergab eine Zeitreihe, eine langfristige Darstellung des Ganges. Diese Zeitreihe konnte mit verschiedenen mathematischen Methoden weiter
analysiert werden.
Als dritter Beitrag in dieser Dissertation wurden Verbesserungen an den bestehenden
mathematischen Methoden der Zeitreihenanalyse von zeitlichen Gangdaten vorgeschlagen.
Zu diesem Zweck werden zwei Verfeinerungen bestehender entropiebasierter Methoden
zur Analyse von Schrittintervall-Zeitreihen vorgeschlagen. Diese Verfeinerungen wurden
an Schrittintervall-Zeitseriendaten von normalen und neurodegenerativen Erkrankungen
validiert, die aus der öffentlich zugänglichen Datenbank PhysioNet heruntergeladen wurden.
Die Ergebnisse zeigten, dass die von uns vorgeschlagene Methode eine klare Trennung
zwischen gesunden und kranken Gruppen ermöglicht.
In Zukunft könnten fortschrittliche medizinische Unterstützungssysteme, die künstliche
Intelligenz nutzen und von den hier vorgestellten Methoden abgeleitet sind, Ärzte bei der
Diagnose und langfristigen Überwachung des Gangs von Patienten unterstützen und so die
klinische Arbeitsbelastung verringern und die Patientensicherheit verbessern.
Abstract (englisch):
With the development of deep learning techniques, deep neural network (NN)-based methods
have become the standard for vision tasks such as tracking human motion and pose estimation,
recognizing human activity, and recognizing faces. Deep learning techniques have improved
the design, implementation, and deployment of complex and diverse applications, which are
now being used in a wide variety of fields, including biomedical engineering. The application
of computer vision techniques to medical image and video analysis has resulted in remarkable
results in recognizing events. ... mehrThe inbuilt capability of convolutional neural network (CNN)
in extracting features from complex medical images, coupled with long short term memory
network (LSTM)’s ability to maintain the temporal information among events, has created
many new horizons for medical research. Gait is one of the critical physiological areas that
can reflect many disorders associated with aging and neurodegeneration. A comprehensive
and accurate gait analysis can provide insights into human physiological conditions. Existing
gait analysis techniques require a dedicated environment, complex medical equipment, and
trained staff to collect the gait data. In the case of wearable systems, such a system can alter
cognitive abilities and cause discomfort for patients.
Additionally, it has been reported that patients usually try to perform better during
the laboratory gait test, which may not represent their actual gait. Despite technological
advances, we continue to encounter limitations when it comes to measuring human walking
in clinical and laboratory settings. Using current gait analysis techniques remains expensive
and time-consuming and makes it difficult to access specialized equipment and expertise.
Therefore, it is imperative to have such methods that could give long-term data about
the patient’s health without any dual cognitive tasks or discomfort while using wearable
sensors. Hence, this thesis proposes a simple, easy-to-deploy, inexpensive method for gait
data collection. This method is based on recording walking videos using a smartphone
camera in a home environment under free conditions. Deep NN then processes those videos
to extract the gait events after classifying the positions of the feet. The detected events
are then further used to quantify various spatiotemporal parameters of the gait, which are
important for any gait analysis system.
In this thesis, walking videos were used that were captured by a low-resolution smartphone
camera outside the laboratory environment. Many deep learning-based NNs were
implemented to detect the basic gait events like the foot position in respect of the ground
from those videos. In the first study, the architecture of AlexNet was used to train the model
from scratch using walking videos and publicly available datasets. An overall accuracy
of 74% was achieved with this model. However, the LSTM layer was included with the
same architecture in the next step. The inbuilt capability of LSTM regarding the temporal
information resulted in improved prediction of the labels for foot position, and an accuracy
of 91% was achieved. However, there is hardship in predicting true labels at the last stage of
the swing and the stance phase of each foot.
In the next step, transfer learning is used to get the benefit of already trained deep NNs by
using pre-trained weights. Two famous models inceptionresnetv2 (IRNV-2) and densenet201
(DN-201) were used with their learned weights for re-training the NN on new data. Transfer
learning-based pre-trained NN improved the prediction of labels for different feet’ positions.
It especially reduced the variations in the predictions in the last stage of the gait swing and
stance phases. An accuracy of 94% was achieved in predicting the class labels of the test
data. Since the variation in predicting the true label was primarily one frame, it could be
ignored at a frame rate of 30 frames per second.
The predicted labels were used to extract various spatiotemporal parameters of the
gait, which are critical for any gait analysis system. A total of 12 gait parameters were
quantified and compared with the ground truth obtained by observational methods. The
NN-based spatiotemporal parameters showed a high correlation with the ground truth, and
in some cases, a very high correlation was obtained. The results proved the usefulness of
the proposed method. The parameter’s value over time resulted in a time series, a long-term
gait representation. This time series could be further analyzed using various mathematical
methods. As the third contribution in this dissertation, improvements were proposed to the
existing mathematical methods of time series analysis of temporal gait data. For this purpose,
two refinements are suggested to existing entropy-based methods for stride interval time
series analysis. These refinements were validated on stride interval time series data of normal
and neurodegenerative disease conditions downloaded from the publicly available databank
PhysioNet. The results showed that our proposed method made a clear degree of separation
between healthy and diseased groups.
In the future, advanced medical support systems that utilize artificial intelligence, derived
from the methods introduced here, could assist physicians in diagnosing and monitoring
patients’ gaits on a long-term basis, thus reducing clinical workload and improving patient
safety.