Kühler Supercomputer

Dank der Fortschritte bei der Geschwindigkeit von Supercomputersimulationen werden komplexe Phänomene wie Wettersysteme, Proteinfaltung und nukleare Explosionen einfacher zu modellieren und zu verstehen. Aber nur ein kleiner Teil dieser Beschleunigung ist auf schnellere Prozessoren zurückzuführen. Stattdessen besteht die gängigste Methode zum Erreichen von Supercomputing-Kapazitäten darin, Hunderte oder Tausende von separaten Maschinen in Clustern zusammenzufassen. Zusammengekoppelt teilt sich ein solcher Cluster einen einzigen Speicher und kann gleichzeitig massive Simulationen durchführen, indem er die Arbeit in viele kleine Teile aufteilt.

Aber auch dieser Ansatz hat seine Grenzen. Zum einen gilt: Je größer der Speicher ist, desto wahrscheinlicher ist es, dass einige Teile davon während einer Berechnung ausfallen. Je mehr Maschinen zu einem Cluster zusammengefasst werden, desto mehr Wärme produzieren sie. Tatsächlich werden in einigen großen Rechenzentren Lüftungs- und Klimaanlagen, Lüfter und Flüssigkeitskühlsysteme schwer unter Druck gesetzt, um eine Überhitzung der Maschinen zu verhindern.

Silicon Graphics mit Sitz in Mountain View, CA, auch bekannt als SGI, baut einige der weltweit größten Supercomputing-Cluster. Das viertschnellste System der Welt ist beispielsweise Columbia, ein System, das SGI 2004 für das NASA Ames Research Center baute. Columbia umfasst 20 SGI Altix-Supercluster mit jeweils 512 Prozessoren, also insgesamt 10.240 Prozessoren, die sich einen -Terabyte Speicher. Die Kühlung dieses Ungetüms (das die NASA verwendet, um Probleme mit großen Datenmengen wie Klimawandel, magnetische Stürme und Konstruktionen für Hyperschallflugzeuge zu modellieren) ist derzeit eine sehr Low-Tech-Angelegenheit: Es wird hauptsächlich erreicht, indem Luft mit hoher Geschwindigkeit an den Prozessoren vorbei geblasen wird Geschwindigkeit.



Mensch und Affe Hybrid

Eng Lim Goh, Informatiker und Chief Technical Officer bei SGI, sagt, ein NASA-Administrator sagte ihm: 'Ich habe Millionen von Dollar für Ihren Supercomputer ausgegeben, nur damit wir Simulationen durchführen können, die unseren Windkanal ersetzen – und Sie haben uns einen neuen Windkanal geschenkt.' .'

Goh ist jetzt der Anführer von Projekt Ultraviolett , die Bemühungen von SGI, die nächste Generation von Superclustern zu entwickeln. Die Chips, die SGI für Ultraviolet entwickelt, werden Anwendungen schneller ausführen – und dabei weniger Strom verbrauchen und weniger Wärme produzieren. Technology Review interviewte Goh am 2. Februar zu dem Projekt.

Technologie-Review: Was sind die Ziele des Projekts Ultraviolet?

Ger Lim Goh: In den letzten drei Jahren verbringe ich 80 Prozent meiner Zeit mit Ultraviolett, mit dem Ziel, bis Ende dieses Jahrzehnts ein System ausgeliefert zu haben. Wir bauen ASICs [anwendungsspezifische integrierte Schaltkreise], um bestimmte Speicherfunktionen zu beschleunigen und Anwendungen kühler laufen zu lassen; und diese haben einen langen Entwicklungszyklus, typischerweise zweieinhalb Jahre.

Wir begannen mit dem, was wir haben – im Grunde ein System mit großem Speicher. Wir bauen riesige Systeme, die bis zu 512 Prozessoren verwalten, die sich bis zu zehn Terabyte Arbeitsspeicher teilen. Der Vorteil solcher Systeme besteht darin, dass Sie riesige Datenbanken in den Speicher laden können, ohne die zehnfache Verlangsamung, wenn Sie Daten von einer Festplatte holen müssen. Sie möchten die Möglichkeit haben, alle Daten im Speicher zu speichern und mit hoher Geschwindigkeit zu speichern, was für fortschrittliche Geschäftsanalysen und -informationen wichtig ist.

Unsere ASICs passen unter den [Intel] Itanium-Prozessor, mit Speicher darunter, und sie kommunizieren miteinander, um dem Benutzer und dem Betriebssystem eine virtuelle, einzige Ansicht des gesamten Speichers zu bieten. Wir achten darauf, diesen kostengünstigen Standardspeicher zu verwenden. Damit einher ging jedoch die Zuverlässigkeit von der Stange. In Ultraviolet führen wir also Funktionen ein, um den Speicher zuverlässiger zu machen. Zum Beispiel gibt es intelligente Agenten in unserem Chipsatz, die ausgehen und ungenutzten Speicher bereinigen können, um Teile zu erzwingen, die dies während des Bereinigungsvorgangs und nicht des Anwendungsvorgangs versäumten. Die Agenten geben diesen Speicher schnell wieder frei, ähnlich wie bei einer defekten Festplatte.

TR: Einiges von dem, was Sie tun, wenn Sie über Agenten sprechen, klingt nach dem, was IBM autonomes Computing nennt.

a(n) _____ System basiert auf künstlicher Intelligenz.

ELCH: Die Leute verwenden unterschiedliche Namen, um das Computing selbstheilender zu machen. Wir überlegten, ob wir autonomen Speicher oder selbstheilende Systeme wie IBM und andere Anbieter verwenden sollten. Aber wir haben uns ein bisschen Sorgen gemacht, weil das sehr hohe Erwartungen weckt.

TR: Was ist mit dem Hitzeproblem? Ich gehe davon aus, dass die Systeme, die die Leute mit Ihren Systemen der nächsten Generation bauen werden, sogar mehr als 512 Prozessoren haben werden, alle in einem Raum, die enorme Wärmemengen abgeben.

ELCH: Mit schnelleren Lüftern können wir die Hitze aus den Racks herauspressen, aber dann wird der Computerraum sehr schwer zu kühlen. Die einzige Möglichkeit, mit mehr Hitze umzugehen, besteht darin, die Hitze schneller zu bewegen. Es gibt Computerräume, in denen, wenn man eine Diele öffnet, sie einem sagen: „Den Fuß nicht reinstecken“, weil die Luft dort unten mit 100 Stundenkilometern bewegt wird.

Der andere Teil dessen, was wir mit Ultraviolet untersuchen möchten, ist also, wie man diese Hitze reduziert und wie man mit Anwendungen umgeht, die nicht skalieren [d. h. nicht so schnell wie erwartet laufen, wenn sie auf mehreren Prozessoren parallel laufen]. Diese beiden sind verwandt. Nehmen wir an, eine Anwendung läuft 100 Sekunden lang auf einem einzigen Prozessor. Und sagen wir, auf 100 Prozessoren läuft es zehnmal schneller – es läuft 10 Sekunden lang. Das ist eine große Verbesserung – aber Sie verwenden 100-mal so viele Prozessoren, um dorthin zu gelangen. Als solche sind Sie nur 10 Prozent effizient; Die Anwendung verbraucht zehnmal mehr Energie und gibt zehnmal mehr Wärme ab, als sie benötigt.

TR: Wie also sorgen Sie dafür, dass Anwendungen kühler laufen?

ELCH: Ein großer Teil ist die Art und Weise, wie wir Probleme in Einzelteile zerlegen und diese den Prozessoren zuordnen. Wir haben etwa 50 Kundenanwendungen analysiert, um zu sehen, was mit diesen Anwendungen schief läuft, wenn sie parallel laufen. Wir haben vier oder fünf Hauptbereiche identifiziert.

Eine davon ist die Kommunikationslatenz [Verzögerungen]. Das Problem besteht darin, dass die meisten Anwendungen eine ständige Synchronisierung erfordern, um sicherzustellen, dass jeder Prozess vor dem nächsten Berechnungsschritt bereit ist. Diese Synchronisation benötigt viel Zeit. Es ist, als ob sechs Leute versuchen, in einer geraden Linie zu stehen – sie müssen sich gegenseitig überprüfen. Bei 60 oder 600 oder 6.000 Personen dauert es exponentiell länger, um eine gerade Linie zu erreichen.

An zweiter Stelle nach der Latenz steht das Problem der Kommunikationsbandbreite. Manchmal möchten Sie viele Daten übertragen und die Dicke der Verbindung zwischen den Prozessoren entscheidet dann, wie lange es dauert, bis diese riesige Datenmenge durchkommt. Wenn Sie warten, arbeiten Sie nicht. Das ist ein weiterer Bereich, in dem die Effizienz sinkt.

Der dritte Bereich ist das Lastungleichgewicht, das ein riesiges Problem darstellt. Angenommen, Sie möchten das Wetter in Ihrer Nähe modellieren. Sie gehen davon aus, dass das Luftvolumen in Ihrem Bereich ein riesiger Würfel ist, und teilen dieses in acht Unterwürfel auf und verteilen diese Unterwürfel an verschiedene Prozessoren. An einem Tag, an dem das Wetter im Big Cube homogen ist, kann die Auslastung dieser Prozessoren ausgeglichen sein; wenn es jedoch lokale Turbulenzen in einem der Unterwürfel gibt, werden Prozessoren warten, während andere Prozessoren fertig werden.

Der vierte Bereich ist, wenn eine Anwendung Daten benötigt und sich die Daten nicht im eigenen Cache des Prozessors befinden und in den Speicher gehen müssen. Wenn es in den Speicher geht, hat dies eine enorme Auswirkung auf die Latenz.

menschliches Gehirn vs Computer

Dies wären also die Grundsätze des Ultraviolett-Designs [zuverlässigerer Speicher, weniger Kommunikationslatenz, mehr Kommunikationsbandbreite, besserer Lastausgleich und weniger Speicherlatenz]. Angenommen, Sie haben eine Anwendung mit 128 Prozessoren, da sie einen Engpass bei der Kommunikationslatenz verursacht. Dieser Chip, den wir entwickeln, wird die Latenz drastisch reduzieren, wodurch diese Anwendung nun auf mehr Prozessoren ausgeführt werden kann. Wenn Sie dieselbe Anwendung immer noch auf 128 Prozessoren ausführen, sollten Sie eine bessere Leistung erzielen und weniger Wärme erzeugen.

Bildunterschrift für das Bild der Homepage: Ansicht von oben: Brücken verbinden die Knoten des 20-Knoten-SGI Altix-Supercomputers, der in der NASA Advanced Supercomputing Facility untergebracht ist.

Bild der Homepage mit freundlicher Genehmigung des NASA Ames Research Center/Tom Trower

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen