Abstract:
Mit dem Voranschreiten der Technologieskalierung und der Globalisierung der Produktion von integrierten Schaltkreisen eröffnen sich eine Fülle von Schwachstellen bezüglich der Verlässlichkeit von Computerhardware. Jeder Mikrochip wird aufgrund von Produktionsschwankungen mit einem einzigartigen Charakter geboren, welcher sich durch seine Arbeitsbedingungen, Belastung und Umgebung in individueller Weise entwickelt. Daher sind deterministische Modelle, welche zur Entwurfszeit die Verlässlichkeit prognostizieren, nicht mehr ausreichend um Integrierte Schaltkreise mit Nanometertechnologie sinnvoll abbilden zu können. ... mehrDer Bedarf einer Laufzeitanalyse des Zustandes steigt und mit ihm die notwendigen Maßnahmen zum Erhalt der Zuverlässigkeit.
Transistoren sind anfällig für auslastungsbedingte Alterung, die die Laufzeit der Schaltung erhöht und mit ihr die Möglichkeit einer Fehlberechnung. Hinzu kommen spezielle Abläufe die das schnelle Altern des Chips befördern und somit seine zuverlässige Lebenszeit reduzieren. Zusätzlich können strahlungsbedingte Laufzeitfehler (Soft-Errors) des Chips abnormales Verhalten kritischer Systeme verursachen. Sowohl das Ausbreiten als auch das Maskieren dieser Fehler wiederum sind abhängig von der Arbeitslast des Systems. Fabrizierten Chips können ebenfalls vorsätzlich während der Produktion boshafte Schaltungen, sogenannte Hardwaretrojaner, hinzugefügt werden. Dies kompromittiert die Sicherheit des Chips. Da diese Art der Manipulation vor ihrer Aktivierung kaum zu erfassen ist, ist der Nachweis von Trojanern auf einem Chip direkt nach der Produktion extrem schwierig.
Die Komplexität dieser Verlässlichkeitsprobleme machen ein einfaches Modellieren der Zuverlässigkeit und Gegenmaßnahmen ineffizient. Sie entsteht aufgrund verschiedener Quellen, eingeschlossen der Entwicklungsparameter (Technologie, Gerät, Schaltung und Architektur), der Herstellungsparameter, der Laufzeitauslastung und der Arbeitsumgebung. Dies motiviert das Erforschen von maschinellem Lernen und Laufzeitmethoden, welche potentiell mit dieser Komplexität arbeiten können.
In dieser Arbeit stellen wir Lösungen vor, die in der Lage sind, eine verlässliche Ausführung von Computerhardware mit unterschiedlichem Laufzeitverhalten und Arbeitsbedingungen zu gewährleisten. Wir entwickelten Techniken des maschinellen Lernens um verschiedene Zuverlässigkeitseffekte zu modellieren, zu überwachen und auszugleichen. Verschiedene Lernmethoden werden genutzt, um günstige Überwachungspunkte zur Kontrolle der Arbeitsbelastung zu finden. Diese werden zusammen mit Zuverlässigkeitsmetriken, aufbauend auf Ausfallsicherheit und generellen Sicherheitsattributen, zum Erstellen von Vorhersagemodellen genutzt. Des Weiteren präsentieren wir eine kosten-optimierte Hardwaremonitorschaltung, welche die Überwachungspunkte zur Laufzeit auswertet. Im Gegensatz zum aktuellen Stand der Technik, welcher mikroarchitektonische Überwachungspunkte ausnutzt, evaluieren wir das Potential von Arbeitsbelastungscharakteristiken auf der Logikebene der zugrundeliegenden Hardware. Wir identifizieren verbesserte Features auf Logikebene um feingranulare Laufzeitüberwachung zu ermöglichen. Diese Logikanalyse wiederum hat verschiedene Stellschrauben um auf höhere Genauigkeit und niedrigeren Overhead zu optimieren.
Wir untersuchten die Philosophie, Überwachungspunkte auf Logikebene mit Hilfe von Lernmethoden zu identifizieren und günstigen Monitore zu implementieren um eine adaptive Vorbeugung gegen statisches Altern, dynamisches Altern und strahlungsinduzierte Soft-Errors zu schaffen und zusätzlich die Aktivierung von Hardwaretrojanern zu erkennen.
Diesbezüglich haben wir ein Vorhersagemodell entworfen, welches den Arbeitslasteinfluss auf alterungsbedingte Verschlechterungen des Chips mitverfolgt und dazu genutzt werden kann, dynamisch zur Laufzeit vorbeugende Techniken, wie Task-Mitigation, Spannungs- und Frequenzskalierung zu benutzen.
Dieses Vorhersagemodell wurde in Software implementiert, welche verschiedene Arbeitslasten aufgrund ihrer Alterungswirkung einordnet. Um die Widerstandsfähigkeit gegenüber beschleunigter Alterung sicherzustellen, stellen wir eine Überwachungshardware vor, welche einen Teil der kritischen Flip-Flops beaufsichtigt, nach beschleunigter Alterung Ausschau hält und davor warnt, wenn ein zeitkritischer Pfad unter starker Alterungsbelastung steht. Wir geben die Implementierung einer Technik zum Reduzieren der durch das Ausführen spezifischer Subroutinen auftretenden Belastung von zeitkritischen Pfaden. Zusätzlich schlagen wir eine Technik zur Abschätzung von online Soft-Error-Schwachstellen von Speicherarrays und Logikkernen vor, welche auf der Überwachung einer kleinen Gruppe Flip-Flops des Entwurfs basiert.
Des Weiteren haben wir eine Methode basierend auf Anomalieerkennung entwickelt, um Arbeitslastsignaturen von Hardwaretrojanern während deren Aktivierung zur Laufzeit zu erkennen und somit eine letzte Verteidigungslinie zu bilden. Basierend auf diesen Experimenten demonstriert diese Arbeit das Potential von fortgeschrittener Feature-Extraktion auf Logikebene und lernbasierter Vorhersage basierend auf Laufzeitdaten zur Verbesserung der Zuverlässigkeit von Harwareentwürfen.
Abstract (englisch):
With technology scaling advancement and globalization of integrated circuit (IC) manufacturing, a host of vulnerabilities affect dependability of computing hardware. Each integrated circuit chip is born with a unique personality due to process variations and grows uniquely due to operating conditions, workload and environment. Hence, design-time solutions for dependability, based on deterministic models, are no longer sufficient for ICs fabricated at nanoscale technology nodes. There is a need for runtime analysis of the state of a system and adoption of appropriate mitigation actions to ensure dependability.
... mehr
Transistors are prone to workload-dependent aging phenomena that increase delay in circuit paths leading to false computations. In addition, specific workloads can induce accelerated aging leading to reduction in reliable lifetime of a chip. Apart from aging, transient computational errors (soft errors) can be caused by chip exposure to radiations that can result in abnormal behavior in critical systems. The propagation or masking of such errors is dependent on the workload executed on the system. Fabricated chips can also include malicious circuits called hardware Trojans, deliberately inserted during chip design or manufacture, that can compromise security. Due to the stealthy nature of inserted malicious circuits before their activation, it is extremely difficult to verify the chip as Trojan-free.
The complexity of these dependability issues makes simple dependability modeling and mitigation inefficient. This complexity arises from various sources including design (technology, device, circuit and architecture) parameters, fabrication parameters, runtime workload and environment. This is the motivation to explore machine learning and runtime methods that can potentially deal with such complexities.
In this thesis, we propose solutions to ensure dependable operation of computing hardware under different workload and environmental conditions. We devise machine learning techniques to model, monitor and mitigate various dependability effects. Different learning methods are used to identify low cost workload observables and to build prediction models that correlate the workload observables with dependability metrics corresponding to reliability and security attributes. We also developed low cost hardware monitoring circuits that can capture the workload observables during runtime with lower area and power overheads. In contrast to the state-of-the-art techniques exploiting micro-architectural observables for monitoring, we explore the potential of workload characterization at logic level of hardware abstraction. We identify better logic level features to enable fine-grained runtime monitoring. This logic-level analysis also comes with several knobs to tune for higher prediction accuracy and lower overheads.
We experimented this philosophy of identifying logic-level observables based on learning methods and implementing low cost monitors to enable adaptive mitigation of static aging, dynamic aging, radiation-induced soft errors and also to identify the activation of hardware Trojans. In this regard, we developed a prediction model to track the workload impact on aging degradation of a chip that can be used on-the-fly to decide upon mitigation techniques such as task migration, dynamic voltage and frequency scaling. This prediction model is implemented in software that potentially ranks workloads based on their aging stress severity. To ensure resilience against accelerated aging effect, we propose a monitoring hardware that monitors a subset of critical flip-flops for an accelerated aging phase of the workload and raise a flag when a timing-critical path experiences severe aging stress. We implemented a technique to relax the stress by the execution of a specific subroutine that exercises the critically stressed timing paths. We propose a technique to estimate the online soft-error vulnerability of memory arrays and logic cores based on the monitoring of a small set of flip-flops in the design. We also developed a method based on anomaly detection to identify workload signatures of hardware Trojan payload during runtime activation of a Trojan as a last line of defense. Based on these experiments, this thesis demonstrates the potential of advanced feature extraction at logic-level of abstraction and learning-based prediction based on runtime data to achieve better dependability for hardware designs.