Energieeffizienz in Hochleistungsrechenzentren

06 December 2017

In einem zweitägigen Workshop im Höchstleistungsrechenzentrum Stuttgart (HLRS) diskutierten Infrastrukturexperten aus deutschen Hochleistungsrechenzentren Strategien für den Aufbau nachhaltigerer Systeme.

High-Performance-Computing (HPC) ist ein unverzichtbares Werkzeug für die Untersuchung vieler Probleme in Forschung und Technologieentwicklung geworden. Aber die Nutzung dieser Möglichkeiten bedeutet auch Kosten. Der Betrieb eines Supercomputers verschlingt die gleiche Energie wie eine Kleinstadt, erfordert große Kühlsysteme, um die Überhitzung elektronischer Geräte zu verhindern, und benötigt Tonnen von elektronischer Hardware, deren Herstellung und Entsorgung erhebliche Auswirkungen auf die Umwelt haben.

All diese Tatsachen bedeuten einen kostenintensiven Betrieb von HPC-Systemen. Dies führt dazu, dass ihre Betreiber ein großes Interesse daran haben, sie so effizient wie möglich zu gestalten. Es muss jedoch jedes Rechenzentrum seinen eigenen Weg finden, um seinen Hochleistungsrechner nachhaltiger zu betreiben, nicht nur hinsichtlich seiner wirtschaftlichen, sondern auch hinsichtlich seiner ökologischen und sozialen Aspekte.

Um eine Diskussion über diesen ganzheitlichen Ansatz der Nachhaltigkeit anzuregen, organisierte und veranstaltete das HLRS vom 25. bis 26. Oktober 2017 seinen ersten Energieeffizienz-Workshop für nachhaltiges Hochleistungsrechnen. Die Veranstaltung brachte Vertreter von den drei Höchstleistungsrechenzentren des Gauss Centre for Supercomputing (GCS)—HLRS, das Jülich Supercomputing Centre (JSC) und das Leibniz-Rechenzentrum (LRZ)—von Hochleistungsrechenzentren der Gauß-Allianz, und von weiteren Hochschulen in Baden-Württemberg zusammen. Auf diese Weise ermöglichte der Workshop Diskussionen aus einem breiten Querschnitt der deutschen Supercomputing-Community.

Nachhaltigkeit im Supercomputing zu messen ist mit Schwierigkeiten verbunden

Eine Herausforderung bei der Entwicklung eines nachhaltigen Supercomputers besteht darin, dass bis vor kurzem keine wirklich zufriedenstellende Definition der Energieeffizienz in HPC-Systemen existiert hat. Eine häufig verwendete Metrik, genannt Power Use Effectiveness (PUE), misst das Verhältnis zwischen dem Gesamtstromverbrauch eines Rechenzentrums und dem Stromverbrauch seiner Informationstechnologie. Unter idealen Umständen würde die gesamte verbrauchte Leistung nur für die IT bereitgestellt und andere Energieanforderungen wären minimal.

Peter Radgen vom Institut für Energiewirtschaft und Rationelle Energieanwendung der Universität Stuttgart (IER) und Leiter des Projekts Nachhaltige Rechenzentren Baden-Württemberg wies jedoch darauf hin, dass selbst ein perfekter PUE-Wert nicht unbedingt Energieeffizienz bedeutet. Da 70% der Energie, die ein Hochleistungsrechenzentrum aufnimmt, in Abwärme umgewandelt wird, sollte auch die Wiederverwendung der Wärme für andere Zwecke, etwa zum Beheizen benachbarter Gebäude, bei der Bewertung der Energieeffizienz berücksichtigt werden. Er stellte auch eine Reihe von anderen Ideen für die Verbesserung der Nachhaltigkeit beim Hochleistungsrechnen vor—z.B. eine bessere Ausnutzung erneuerbarer Energiequellen, die Wahl energieeffizienterer IT-Geräte sowie die richtige Skalierung der Größe und der Konfiguration des Hochleistungsrechners an die tatsächliche Rechenlast.

Marina Köhn

Marina Köhn, Umweltbundesamt 
(Photo: Christopher Williams, HLRS)

Marina Köhn, Green IT-Expertin des Umweltbundesamtes, wies ebenfalls darauf hin, dass der PUE nichts über den ökologischen Fußabdrucks eines HPC Zentrums aussagt. Er berücksichtigt nicht solche Faktoren wie die effiziente Nutzung des Computers, Unterschiede bei den von der Energiequelle abhängigen Treibhausgasemissionen oder ob das Kühlsystem effizient ausgelegt und betrieben wird. Ihr Büro hat ein Forschungsprojekt gestartet, das Metriken entwickelt, um solche Aspekte des HPC-Betriebs zu berücksichtigen. In Zukunft werden diese weiterentwickelten Kennzahlen in den Blauen Engel für Rechenzentren implementiert. "Der Blaue Engel hat den Vorteil, dass wir endlich etwas haben, an dem wir uns selber orientieren können," erklärte sie. Die Festlegung von Anforderungen, so argumentierte sie, solle den Planern konkrete Ziele für die Gestaltung von HPC-Zentren geben und zukünftig zu nachhaltigem Bauen und Betreiben führen.

Nach einer Einführung durch den stellvertretenden HLRS-Direktor Norbert Conrad, stellte die Energieexpertin Ursula Paul die Nachhaltigkeitsstrategie des HLRS vor. Dazu gehören Pläne zur Verbesserung der Energieeffizienz sowie andere Bereiche der Nachhaltigkeit, einschließlich ökologischer, wirtschaftlicher und sozialer Aspekte. Sie stellte einige Details zu Kennzahlen vor, die das HLRS verfolgt hat, und erörterte Pläne zur Erlangung von Zertifizierungen des Eco-Management and Audit Scheme (EMAS) und der ISO 50001, zwei anspruchsvolle Standards für ökologische Nachhaltigkeit bzw. Energiemanagement. Das HLRS diskutiert derzeit auch intern Fragen zur Energieeffizienz und zur Wiederverwendung von Abwärme bzgl. der Vorbereitung auf Erweiterungen in den kommenden Jahren.

Kühlung als Schlüssel zur Verbesserung der Energieeffizienz

Da HPC eine Nischenindustrie mit einer Handvoll Computerherstellern ist, haben Supercomputerbetreiber keine große Anzahl an Prozessoren zur Auswahl. Aus diesem Grund bietet der Aufbau einer effizienteren Infrastruktur, insbesondere von Kühlsystemen, eine wesentlich unmittelbarere Möglichkeit, die Energieeffizienz eines HPC-Zentrums zu verbessern.

Ein Ansatz des Steinbuch Centre for Computing (SCC) am Karlsruher Institut für Technologie (KIT) ist die Warmwasserkühlung, die den größten Teil des HPC-Systems versorgt. Wie Rudolf Lohner erklärte, strömt zirkulierendes Wasser mit einer Temperatur von 42 °C in den Serverraum und wird dort auf 47 °C erwärmt. Obwohl die Verwendung von warmen Wasser zum Kühlen zunächst als nicht naheliegend erscheinen mag, führt die relativ hohe Wassertemperatur dazu, dass selbst in der wärmeren Jahreszeit Außenluft zur Wasserkühlung verwendet werden kann und somit keine zusätzliche Energie zum Kühlen erforderlich ist. Im Winter zirkuliert das warme Wasser durch Rohre, die in den Wänden des Rechenzentrumsgebäudes eingebettet sind und strahlt in den heizenden Räumen Wärme ab. Der Warmwasserkreislauf ist auch an ein Kaltwassersystem angeschlossen, das bei höheren Außentemperaturen im Sommer genutzt werden kann.

Willi Homberg vom Jülich Supercomputing Centre (JSC) diskutierte, wie sich das Kühlkonzept für sein Höchstleistungsrechenzentrum im Laufe der Zeit weiterentwickelt hat, von der Freon-Flüssigkeitskühlung in den 1980er Jahren bis hin zu neueren Hybrid-Kühltechnologien. Solche Verbesserungen sind nicht nur vorteilhaft für die Umwelt, sondern waren auch wichtig für die Steigerung der wirtschaftlichen Nachhaltigkeit. Homberg stellte auch ein für die Partnership for Advanced Computing in Europe (PRACE) verfasstes Whitepaper vor, das detaillierte Möglichkeiten zur Senkung der Gesamtkosten (Total Cost of Ownership, TCO) für Hochleistungsrechner-Systeme beschreibt. Er erörterte auch seine Perspektive zu den derzeit effizientesten Kühlkonzepten wie der direkten Wasserkühlung sowie Zukunftstechnologien. Ein Ansatz, der derzeit bei JSC untersucht wird, ist die Immersionskühlung, bei der Computerprozessoren vollständig in eine spezielle Flüssigkeit eingetaucht werden, wodurch die abgestrahlte Wärme sofort abgeführt und die Menge an zusätzlicher Kühlung minimiert wird. Das Forschungszentrum Jülich arbeitet derzeit auch an der langfristigen Planung seiner Campus-Entwicklung und sieht vor, Wärme aus dem HPC-Zentrum zur Beheizung von Gebäuden zu nutzen.

Daniel Hackenberg

Daniel Hackenberg, ZIH at TU Dresden
(Photo: Christopher Williams, HLRS)

Daniel Hackenberg vom Zentrum für Informationsdienste und Hochleistungsrechnen (ZIH) der TU Dresden präsentierte eine flexible Architektur für das HPC Center Design, die er das Plenumkonzept nannte. Hier sind die IT-Komponenten vollständig von der Infrastruktur getrennt und auf zwei verschiedenen Gebäudeebenen untergebracht. In einem speziellen Warmgang–System wird die Wärme von den oben stehenden Rechenclustern direkt durch Umluftkühlgeräte im unteren Geschoss gesaugt, bevor sie wieder in den Computerraum zurückströmt. Hackenberg wies darauf hin, dass dieser Ansatz, das von den Prozessoren erzeugte und zu transportierende Warmluftvolumen zu minimieren, sehr effizient ist. Obwohl ein solches Konzept nicht in einer bereits existierenden HPC-Anlage implementiert werden kann, geht er davon aus, dass die Architektur auf größere Maschinen skalierbar sein sollte, wenn die TU Dresden-Anlage erweitert wird. Hackenberg sprach auch darüber, wie sein Team Sensoren zur Optimierung des Kühlsystems eingesetzt hat.

Seit einigen Jahren betreibt das Leibniz Supercomputing Centre (LRZ) ein Adsorptionskühlsystem, das einzige seiner Art in einem Top500-Supercomputer. In seinem Vortrag erörterte Torsten Wilde die Tests, die sein Team unternommen hat, um die Energieeffizienz in diesem System zu optimieren. Wie Hackenberg betonte auch er die Möglichkeiten, die moderne Sensoren für das Tracking des Systembetriebs bieten. In einem aktuellen Projekt arbeitet LRZ mit akademischen und industriellen Partnern zusammen, um Software zu entwickeln, die maschinelles Lernen nutzt, um die von Sensoren erfassten Daten so zu analysieren, dass der Energieverbrauch in Echtzeit vorhergesagt und verwaltet werden kann.

Die Zukunft des Energieeffizienz-Workshops

Nach den Gesprächen waren sich die Teilnehmer einig, dass der Workshop ein wertvolles Forum für den Austausch innerhalb der deutschen HPC-Gemeinschaft sei. Das HLRS und seine Partner werden darüber diskutieren, wie der Erfolg des ersten Workshops in den kommenden Jahren fortgesetzt werden kann.

Christopher Williams (deutsche Übersetzung Ursula Paul)