Abstract:
Die verfügbaren Ressourcen in Informationsverarbeitungssystemen wie Prozessoren sind in der Regel eingeschränkt.
Das umfasst z. B. die elektrische Leistungsaufnahme, den Energieverbrauch, die Wärmeabgabe oder die Chipfläche.
Daher ist die Optimierung der Verwaltung der verfügbaren Ressourcen von größter Bedeutung, um Ziele wie maximale Performanz zu erreichen.
Insbesondere die Ressourcenverwaltung auf der Systemebene hat über die (dynamische) Zuweisung von Anwendungen zu Prozessorkernen und über die Skalierung der Spannung und Frequenz (dynamic voltage and frequency scaling, DVFS) einen großen Einfluss auf die Performanz, die elektrische Leistung und die Temperatur während der Ausführung von Anwendungen.
... mehr
Die wichtigsten Herausforderungen bei der Ressourcenverwaltung sind die hohe Komplexität von Anwendungen und Plattformen, unvorhergesehene (zur Entwurfszeit nicht bekannte) Anwendungen oder Plattformkonfigurationen, proaktive Optimierung und die Minimierung des Laufzeit-Overheads.
Bestehende Techniken, die auf einfachen Heuristiken oder analytischen Modellen basieren, gehen diese Herausforderungen nur unzureichend an.
Aus diesem Grund ist der Hauptbeitrag dieser Dissertation der Einsatz maschinellen Lernens (ML) für Ressourcenverwaltung.
ML-basierte Lösungen ermöglichen die Bewältigung dieser Herausforderungen durch die Vorhersage der Auswirkungen potenzieller Entscheidungen in der Ressourcenverwaltung, durch Schätzung verborgener (unbeobachtbarer) Eigenschaften von Anwendungen oder durch direktes Lernen einer Ressourcenverwaltungs-Strategie.
Diese Dissertation entwickelt mehrere neuartige ML-basierte Ressourcenverwaltung-Techniken für verschiedene Plattformen, Ziele und Randbedingungen.
Zunächst wird eine auf Vorhersagen basierende Technik zur Maximierung der Performanz von Mehrkernprozessoren mit verteiltem Last-Level Cache und limitierter Maximaltemperatur vorgestellt.
Diese verwendet ein neuronales Netzwerk (NN) zur Vorhersage der Auswirkungen potenzieller Migrationen von Anwendungen zwischen Prozessorkernen auf die Performanz.
Diese Vorhersagen erlauben die Bestimmung der bestmöglichen Migration und ermöglichen eine proaktive Verwaltung.
Das NN ist so trainiert, dass es mit unbekannten Anwendungen und verschiedenen Temperaturlimits zurechtkommt.
Zweitens wird ein Boosting-Verfahren zur Maximierung der Performanz homogener Mehrkernprozessoren mit limitierter Maximaltemperatur mithilfe von DVFS vorgestellt.
Dieses basiert auf einer neuartigen {Boostability}-Metrik, die die Abhängigkeiten von Performanz, elektrischer Leistung und Temperatur auf Spannungs/Frequenz-Änderungen in einer Metrik vereint. % ignorerepeated
Die Abhängigkeiten von Performanz und elektrischer Leistung hängen von der Anwendung ab und können zur Laufzeit nicht direkt beobachtet (gemessen) werden.
Daher wird ein NN verwendet, um diese Werte für unbekannte Anwendungen zu schätzen und so die Komplexität der Boosting-Optimierung zu bewältigen.
Drittens wird eine Technik zur Temperaturminimierung von heterogenen Mehrkernprozessoren mit Quality of Service-Zielen vorgestellt.
Diese verwendet Imitationslernen, um eine Migrationsstrategie von Anwendungen aus optimalen Orakel-Demonstrationen zu lernen.
Dafür wird ein NN eingesetzt, um die Komplexität der Plattform und des Anwendungsverhaltens zu bewältigen.
Die Inferenz des NNs wird mit Hilfe eines vorhandenen generischen Beschleunigers, einer Neural Processing Unit (NPU), beschleunigt.
Auch die ML Algorithmen selbst müssen auch mit begrenzten Ressourcen ausgeführt werden.
Zuletzt wird eine Technik für ressourcenorientiertes Training auf verteilten Geräten vorgestellt, um einen konstanten Trainingsdurchsatz bei sich schnell ändernder Verfügbarkeit von Rechenressourcen aufrechtzuerhalten, wie es z.~B.~aufgrund von Konflikten bei gemeinsam genutzten Ressourcen der Fall ist.
Diese Technik verwendet Structured Dropout, welches beim Training zufällige Teile des NNs auslässt.
Dadurch können die erforderlichen Ressourcen für das Training dynamisch angepasst werden -- mit vernachlässigbarem Overhead, aber auf Kosten einer langsameren Trainingskonvergenz.
Die Pareto-optimalen Dropout-Parameter pro Schicht des NNs werden durch eine Design Space Exploration bestimmt.
Evaluierungen dieser Techniken werden sowohl in Simulationen als auch auf realer Hardware durchgeführt und zeigen signifikante Verbesserungen gegenüber dem Stand der Technik, bei vernachlässigbarem Laufzeit-Overhead.
Zusammenfassend zeigt diese Dissertation, dass ML eine Schlüsseltechnologie zur Optimierung der Verwaltung der limitierten Ressourcen auf Systemebene ist, indem die damit verbundenen Herausforderungen angegangen werden.
Abstract (englisch):
Computing systems such as processors are generally constrained in their resources like power consumption, energy consumption, heat dissipation, and chip area. This makes optimizing the management of the available resources of paramount importance to achieve goals like maximum performance. In particular, system-level resource management has a major impact on the performance, power, and temperature during application execution by utilizing application mapping, application migration, and dynamic voltage and frequency scaling (DVFS).
The main challenges in resource management are coping with the high complexity of applications and platforms, coping with unseen, i.e., not known at design time, scenarios in the workload and platform configuration, achieving proactive management, and maintaining a low run-time overhead. ... mehrExisting solutions based on hand-coded rules, simple heuristics, or analytical models insufficiently tackle these challenges. To this end, this dissertation focuses on employing machine learning (ML) within the resource management. ML-based solutions allow tackling the challenges by predicting the impact of potential resource management actions, by estimating hidden, i.e., unobservable at run time, properties of applications, or by directly learning a resource management policy. This dissertation presents several novel ML-based resource management techniques for different platforms, objectives, and constraints.
First, a prediction-based application migration technique for performance maximization of many-core processors with distributed shared last-level cache (LLC) under a thermal constraint is presented. It employs a neural network (NN) model to predict the impact of potential migrations on the overall system performance to determine the best one, enabling proactive management. The prediction model is trained to cope with during training unseen applications, and even copes with varying thermal constraints.
Second, a frequency boosting technique for performance maximization of homogeneous many-core processors under a thermal constraint using DVFS is presented. It is based on a novel boostability metric that integrates the sensitivities of performance, power, and temperature to voltage/frequency (V/f) changes. The sensitivities of performance and power depend on the application and cannot be observed or measured at run time. Therefore, an NN model is employed to estimate these values for unseen applications, thereby helping tackle the complexity of boosting optimization.
Third, an imitation learning (IL)-based application migration technique for temperature
minimization of heterogeneous multi-core processors under quality of service (QoS)
targets is introduced. It uses IL to directly learn the migration policy by learning from optimal oracle demonstrations. It employs an NN to tackle the complexity of the platform and application behavior. The NN inference is accelerated using an existing generic NN accelerator, a so-called neural processing unit (NPU).
Finally, since ML also needs to run with limited resources, a technique for resource-aware distributed on-device learning is presented to maintain a constant training throughput under fast-varying computational resource availability, e.g., due to shared resource contention. It employs structured dropout, which randomly drops parts of the NN during training. This allows to dynamically adjust the required resources for training with negligible overhead, at the cost of a slower training convergence. The Pareto-optimal per-layer dropout rates are determined using a design space exploration (DSE).
Evaluations of these techniques are performed both in simulation and on real hardware, and demonstrate significant improvements over the state of the art, at negligible run-time overhead. Ultimately, this dissertation shows that ML is a key technology to optimize system-level resource management by tackling the involved challenges listed above.