Abstract:
Heutzutage sind moderne elektronische Systeme ein integraler Bestandteil unseres Alltags. Dies wurde unter anderem durch das exponentielle Wachstum der Integrationsdichte von integrierten Schaltkreisen ermöglicht zusammen mit einer Verbesserung der Energieeffizienz, welche in den letzten 50 Jahren stattfand, auch bekannt als Moore‘s Gesetz. In diesem Zusammenhang ist die Nachfrage von energieeffizienten digitalen Schaltkreisen enorm angestiegen, besonders in Anwendungsfeldern wie dem Internet of Things (IoT). Da der Leistungsverbrauch von Schaltkreisen stark mit der Versorgungsspannung verknüpft ist, wurden effiziente Verfahren entwickelt, welche die Versorgungsspannung in den nahen Schwellenspannung-Bereich skalieren, zusammengefasst unter dem Begriff Near-Threshold-Computing (NTC). ... mehrMithilfe dieser Verfahren kann eine Erhöhung der Energieeffizienz von Schaltungen um eine ganze Größenordnung ermöglicht werden.
Neben der verbesserten Energiebilanz ergeben sich jedoch zahlreiche Herausforderungen was den Schaltungsentwurf angeht. Zum Beispiel führt das Reduzieren der Versorgungsspannung in den nahen Schwellenspannungsbereich zu einer verzehnfachten Erhöhung der Sensibilität der Schaltkreise gegenüber Prozessvariation, Spannungsfluktuationen und Temperaturveränderungen. Die Einflüsse dieser Variationen reduzieren die Zuverlässigkeit von NTC Schaltkreisen und sind ihr größtes Hindernis bezüglich einer umfassenden Nutzung. Traditionelle Ansätze und Methoden aus dem nominalen Spannungsbereich zur Kompensation von Variabilität können
nicht effizient angewandt werden, da die starken Performance-Variationen und Sensitivitäten im nahen Schwellenspannungsbereich dessen Kapazitäten übersteigen. Aus diesem Grund sind neue Entwurfsparadigmen und Entwurfsautomatisierungskonzepte für die Anwendung von NTC erforderlich.
Das Ziel dieser Arbeit ist die zuvor erwähnten Probleme durch die Bereitstellung von ganzheitlichen Methoden zum Design von NTC Schaltkreisen sowie dessen Entwurfsautomatisierung anzugehen, welche insbesondere auf der Schaltungs- sowie Logik-Ebene angewandt werden. Dabei werden tiefgehende Analysen der Zuverlässigkeit von NTC Systemen miteinbezogen und Optimierungsmethoden werden vorgeschlagen welche die Zuverlässigkeit, Performance und Energieeffizienz verbessern. Die Beiträge dieser Arbeit sind wie folgt:
Schaltungssynthese und Timing Closure unter Einbezug von Variationen: Das Einhalten von Anforderungen an das zeitliche Verhalten und Zuverlässigkeit von NTC ist eine anspruchsvolle Aufgabe. Die Auswirkungen von Variabilität kommen bei starken Performance-Schwankungen, welche zu teuren zeitlichen Sicherheitsmargen führen, oder sich in Hold-Time Verstößen ausdrücken, verursacht durch funktionale Störungen, zum Vorschein. Die konventionellen Ansätze beschränken sich dabei alleine auf die Erhöhung von zeitlichen Sicherheitsmargen. Dies ist jedoch sehr ineffizient für NTC, wegen dem starken Ausmaß an Variationen und den erhöhten Leckströmen.
In dieser Arbeit wird ein Konzept zur Synthese und Timing Closure von Schaltkreisen unter Variationen vorgestellt, welches sowohl die Sensitivität gegenüber Variationen reduziert als auch die Energieeffizienz, Performance und Zuverlässigkeit verbessert und zugleich den Mehraufwand von Timing Closures [1, 2] verringert. Simulationsergebnisse belegen, dass unser vorgeschlagener Ansatz die Verzögerungszeit um 87% reduziert und die Performance und Energieeffizienz um 25% beziehungsweise 7.4% verbessert, zu Kosten eines erhöhten Flächenbedarfs von 4.8%.
Schichtübergreifende Zuverlässigkeits-, Energieeffizienz- und Performance-Optimierung von Datenpfaden: Schichtübergreifende Analyse von Prozessor-Datenpfaden, welche den ganzen Weg spannen vom Kompilierer zum Schaltungsentwurf, kann potenzielle Optimierungsansätze aufzeigen. Ein Datenpfad ist eine Kombination von mehreren funktionalen Einheiten, welche diverse Instruktionen verarbeiten können. Unsere Analyse zeigt, dass die Ausführungszeiten von Instruktionen bei niedrigen Versorgungsspannungen stark variieren, weshalb eine Klassifikation in schnelle und langsame Instruktionen vorgenommen werden kann. Des Weiteren können funktionale Instruktionen als häufig und selten genutzte Instruktionen kategorisiert werden.
Diese Arbeit stellt eine Multi-Zyklen-Instruktionen-Methode vor, welche die Energieeffizienz und Belastbarkeit von funktionalen Einheiten erhöhen kann [3]. Zusätzlich stellen wir einen Partitionsalgorithmus vor, welcher ein fein-granulares Power-gating von selten genutzten Einheiten ermöglicht [4] durch Partition von einzelnen funktionalen Einheiten in mehrere kleinere Einheiten. Die vorgeschlagenen Methoden verbessern das zeitliche Schaltungsverhalten signifikant, und begrenzen zugleich die Leckströme beträchtlich, durch Einsatz einer Kombination von Schaltungs-Redesign- und Code-Replacement-Techniken. Simulationsresultate
zeigen, dass die entwickelten Methoden die Performance und Energieeffizienz von arithmetisch-logischen Einheiten (ALU) um 19% beziehungsweise 43% verbessern. Des Weiteren kann der Zuwachs in Performance der optimierten Schaltungen in eine Verbesserung der Zuverlässigkeit umgewandelt werden [5, 6].
Post-Fabrication und Laufzeit-Tuning: Prozess- und Laufzeitvariationen haben einen starken Einfluss auf den Minimum Energy Point (MEP) von NTC-Schaltungen, welcher mit der energieeffizientesten Versorgungsspannung assoziiert ist. Es ist ein besonderes Anliegen, die NTC-Schaltung nach der Herstellung (post-fabrication) so zu kalibrieren, dass sich die Schaltung im MEP-Zustand befindet, um die beste Energieeffizient zu erreichen.
In dieser Arbeit, werden Post-Fabrication und Laufzeit-Tuning vorgeschlagen, welche die Schaltung basierend auf Geschwindigkeits- und Leistungsverbrauch-Messungen nach der Herstellung auf den MEP kalibrieren. Die vorgestellten Techniken ermitteln den MEP per Chip-Basis um den Einfluss von Prozessvariationen mit einzubeziehen und dynamisch die Versorgungsspannung und Frequenz zu adaptieren um zeitabhängige Variationen wie Workload und Temperatur zu adressieren. Zu diesem Zweck wird in die Firmware eines Chips ein Regression-Modell integriert, welches den MEP basierend auf Workload- und Temperatur-Messungen zur Laufzeit extrahiert. Das Regressions-Modell ist für jeden Chip einzigartig und basiert lediglich auf Post-Fabrication-Messungen. Simulationsergebnisse zeigen das der entwickelte Ansatz eine sehr hohe prognostische Treffsicherheit und Energieeffizienz hat, ähnlich zu hardware-implementierten Methoden, jedoch ohne hardware-seitigen Mehraufwand [7, 8].
Selektierte Flip-Flop Optimierung: Ultra-Low-Voltage Schaltungen müssen im nominalen Versorgungsspannungs-Mode arbeiten um zeitliche Anforderungen von laufenden Anwendungen zu erfüllen. In diesem Fall ist die Schaltung von starken Alterungsprozessen betroffen, welche die Transistoren durch Erhöhung der Schwellenspannungen degradieren. Unsere tiefgehenden Analysen haben gezeigt das gewisse Flip-Flop-Architekturen von diesen Alterungserscheinungen beeinflusst werden indem fälschlicherweise konstante Werte ( '0' oder '1') für eine lange Zeit gespeichert sind. Im Vergleich zu anderen Komponenten sind Flip-Flops sensitiver zu Alterungsprozessen und versagen unter anderem dabei einen neuen Wert innerhalb des vorgegebenen zeitlichen Rahmens zu übernehmen. Außerdem kann auch ein geringfügiger Spannungsabfall zu diesen zeitlichen Verstößen führen, falls die betreffenden gealterten Flip-Flops zum kritischen Pfad zuzuordnen sind.
In dieser Arbeit wird eine selektiver Flip-Flop-Optimierungsmethode vorgestellt, welche die Schaltungen bezüglich Robustheit gegen statische Alterung und Spannungsabfall optimieren. Dabei werden zuerst optimierte robuste Flip-Flops generiert und diese dann anschließend in die Standard-Zellen-Bibliotheken integriert. Flip-Flops, die in der Schaltung zum kritischen Pfad gehören und Alterung sowie Spannungsabfall erfahren, werden durch die optimierten robusten Versionen ersetzt, um das Zeitverhalten und die Zuverlässigkeit der Schaltung zu verbessern [9, 10]. Simulationsergebnisse zeigen, dass die erwartete Lebenszeit eines Prozessors
um 37% verbessert werden kann, während Leckströme um nur 0.1% erhöht werden.
Während NTC das Potenzial hat große Energieeffizienz zu ermöglichen, ist der Einsatz in neue Anwendungsfeldern wie IoT wegen den zuvor erwähnten Problemen bezüglich der hohen Sensitivität gegenüber Variationen und deshalb mangelnder Zuverlässigkeit, noch nicht durchsetzbar. In dieser Dissertation und in noch nicht publizierten Werken [11–17], stellen wir Lösungen zu diesen Problemen vor, die eine Integration von NTC in heutige Systeme ermöglichen.
Abstract (englisch):
Modern electronic devices are an indispensable part of our everyday life. A major enabler for such integration is the exponential increase of the computation capabilities as well as the drastic improvement in the energy efficiency over the last 50 years, commonly known as Moore’s law. In this regard, the demand for energy-efficient digital circuit, especially for application domains such as the Internet of Things (IoT), has faced an enormous growth. Since the power consumption of a circuit highly depends on the supply voltage, aggressive supply voltage scaling to the near-threshold voltage region, also known as Near-Threshold Computing (NTC), is an effective way of increasing the energy efficiency of a circuit by an order of magnitude.
... mehr
Along with the attractive energy benefits, the NTC comes with a variety of design challenges. Reducing the supply voltage to the near-threshold voltage region also increases the sensitivity of the circuits to different variabilities, such as process variation, voltage fluctuation, and temperature variation, by more than one order of magnitude. Such large variation impacts hinder the reliability of the NTC circuits and are the main challenges towards widespread usage of NTC circuits. The traditional method of dealing with variabilities and the conventional designs and methods which are typically used in the nominal voltage range are inefficient for NTC circuit design, because they cannot deal with large performance variation and sensitivity of circuits in the near-threshold voltage region. Therefore, dealing with the NTC challenges requires a new design paradigm as well as design automation flow for the NTC.
The objective of this thesis is to provide a holistic approach for NTC design by tackling the major challenges, in the form of comprehensive design and design automation flow for NTC, mostly at circuit and logic levels. This also includes an in-depth analysis of the reliability issues for the NTC, as well as proposing optimization techniques for better reliability, performance, and energy efficiency. The contributions of this thesis are:
Variation-aware logic synthesis and timing closure: Satisfying timing and reliability requirements for NTC circuits is a challenging task. The impact of variabilities might be seen as large performance variation, which mandates expensive timing margins, or as high functional failure rates, for example, due to hold-time violations. The traditional approach to deal with circuit performance variation is to increase timing margins. However, this is inefficient for the NTC due to the extent of variations and the increased contribution of leakage energy.
This thesis proposes a variation-aware synthesis and timing closure, which reduces the sensitivity to variation and improves energy-efficiency, performance, and reliability while reducing the overheads of timing closure [1, 2]. Simulation results show that our proposed flow reduces the delay variation by 87% and improves the performance and energy efficiency by 25% and 7.4%, respectively, at the expense of only 4.8% area overhead.
Cross-layer reliability, energy efficiency, and performance optimization of data paths: Cross-layer analysis of processor data paths, from compiler all the way to circuit design, could reveal potential optimization approaches. A data path is a combination of several functional units with the ability to execute various instructions. Our analysis shows that the required time for executing an instruction at low supply voltage could be widely different which allows categorizing the instructions into fast and slow instructions. Moreover, the functional unit instructions can be categorized into frequently used and rarely used instructions.
This thesis proposes an instruction multi-cycling method to improve energy efficiency and resiliency of functional units [3]. In addition, we propose a functional unit partitioning method, in which a functional unit is partitioned into several smaller units to support fine-grained power-gating of the units which implement the rarely used instructions [4]. The proposed methods significantly improve the circuit timing, and at the same time considerably limit leakage energy, by employing a combination of circuit redesign and code replacement techniques. Simulation results show that the proposed methods improve performance and energy efficiency of an Arithmetic Logic Unit by 19% and 43%, respectively. Furthermore, the improved performance of the optimized circuits can be traded to improving the reliability [5, 6].
Post-fabrication calibration and runtime tuning: Process and runtime variations greatly affect the Minimum Energy Point (MEP) of NTC circuits, i.e., the supply voltage which leads to the best energy efficiency. Therefore, it is necessary to calibrate each NTC circuit to the correct operating condition (its MEP) based on variations to improve the energy efficiency.
This thesis proposes a post-fabrication and runtime tuning method which calibrates each digital circuit to its best MEP based on the post-fabrication measurements, such as speed and power consumption. The proposed method obtains the MEP in a per-chip basis to account for the impacts of process variation, and dynamically adapts supply voltage and frequency to account for time-dependent variations, such as workload and temperature. For this, the firmware of a chip is updated with a regression model which can determine the best MEP based on the data collected during the runtime about workload and temperature. The regression model is unique for each chip and is created based on the post-fabrication measurements. Simulation results show that the proposed method has high prediction accuracy and energy efficiency similar to hardware-implemented methods, but without imposing hardware overhead [7, 8].
Selective flip-flop optimization Ultra-low-voltage circuits may need to operate at nominal supply voltage mode to satisfy timing constraints required by running applications. In this case, the circuit is exposed to aging impact which degrades the transistors by increasing their threshold voltages. Our analysis shows that some flip-flops store a constant value, either ‘0’ or ‘1’, for a long time leading to a severe impact of aging. Compared to other components, the flip-flops are more sensitive to the aging impact and may fail to store a value correctly within the timing constraints. Furthermore, a slight voltage-drop could lead to timing violations if the aging-affected flip-flops are parts of the critical paths.
For this, this thesis proposes a selective flip-flop optimization methodology, in which the circuit is optimized for resiliency against the impacts of static aging and voltage drop. The proposed method first generates optimized variation-resilient flip-flops and adds them to the standard cell library. Then, timing-critical flip-flops that experience severe aging or voltage-drop impacts are replaced by the variation-resilient versions to improve the timing and reliability [9, 10]. Simulation results show that the proposed method prolongs the lifetime of a processor by 37% while imposing less than 0.1% leakage overhead.
While the NTC potentially offers large energy efficiency, the aforementioned challenges of the NTC design including high sensitivity to variations leading to reliability issues prevent the widespread application of the NTC to the emerging applications such as the IoT. In this dissertation, we proposed methods to address such challenges by improving the reliability and efficiency of NTC designs. Therefore, the contributions in this thesis, and other published work not included in this thesis [11–17], are key elements in making the NTC designs widely acceptable in the mainstream.