Erste Benchmark-Studie der AMD MI300A APU für das Training großer Sprachmodelle

Foto von Hunter
Forschende vom Seedbox.AI trainieren große Sprachmodelle auf dem Hunter-Supercomputer des HLRS. Hunter wurde von Hewlett Packard Enterprise hergestellt und ist mit AMD Instinct MI300A Accelerated Processing Units ausgestattet.

Forschungsarbeiten am HLRS innerhalb der „AI Factory“ HammerHAI haben Strategien zur Optimierung hybrider Systemarchitekturen für das Training von Modellen aufgezeigt und die Realisierbarkeit von spärlichen Trainingsmodellen als Alternative zu großen Modellen demonstriert.

Eine diese Woche auf dem Cray User Group Technical Meeting in Jersey City in den USA vorgestellte Forschungsarbeit bietet die erste Benchmark-Studie der AMD Instinct MI300A Accelerated Processing Unit (APU) für KI-Anwendungen. Für Hoch- und Höchstleistungsrechenzentren, die vor der Entscheidung stehen, ob sie in ein hybrides, APU-basiertes System oder in ein separates, spezialisierteres System für maschinelles Lernen und generative KI investieren sollen, bestätigte die Studie, dass sich mithilfe der MI300A eine hohe Leistung beim Training großer Sprachmodelle (LLMs) erzielen lässt. Die Veröffentlichung bietet auch praktische Einblicke, die Systemarchitekten, KI-Expert:innen und HPC-Zentren nutzen können, um die Fähigkeiten des APU-Prozessors für Deep Learning- und KI-Anwendungen voll auszuschöpfen. 

Frühere Benchmark-Studien haben Leistungsdaten von AMDs MI250X- und MI300X-Prozessoren geliefert. Dies ist jedoch die erste, die MI300A-Leistungsdaten in einem LLM-Anwendungsfall erzeugt. 

Die Studie ist das Ergebnis einer Zusammenarbeit zwischen dem Seedbox.AI Lab, Hewlett Packard Enterprise (HPE), AMD und dem Höchstleistungsrechenzentrum Stuttgart (HLRS). Das Team nutzte einen von Seedbox.AI entwickelten Ansatz zur Datenkompression und führte seine Experimente auf dem neuen Supercomputer Hunter des HLRS durch. Die Zusammenarbeit zwischen dem HLRS und Seedbox.AI ging aus dem HammerHAI-Projekt hervor, einer vom HLRS koordinierten EuroHPC Joint Undertaking (EuroHPC JU) „AI Factory“.

Optimierung der MI300A sorgt für hohe Leistung bei LLM-Training

Hunter wurde von HPE hergestellt und basiert auf der AMD MI300A APU, die CPUs, GPUs und Speicher mit hoher Bandbreite in einem einzigen Paket kombiniert. Bei traditionellen HPC-Anwendungen dienen GPUs als Beschleuniger und ermöglichen schnellere Simulationen bei geringerem Energiebedarf. Da GPUs jedoch auch die bevorzugten Prozessoren für Deep Learning- und KI-Anwendungen sind, wollten die Forschenden testen, wie gut die hybride Architektur einen Big Data Workflow bewältigen kann.

Nach der Zusammenstellung eines mehrsprachigen Datensatzes mit 20 Milliarden Token, der mit synthetischen Daten angereichert war, trainierte das Team auf Hunter ein großes Sprachmodell für 24 europäische Sprachen. Obwohl das Team bei der Einrichtung und Ausführung der Pipeline auf der neuen Hardware zunächst auf mehrere Herausforderungen stieß, wird in der Veröffentlichung erläutert, wie sich diese überwinden lassen. Eine besondere Herausforderung war der Umgang mit den Einschränkungen, die sich aus der Speicherarchitektur des MI300A ergeben. Anders als bei KI-spezifischen Systemen, die nur die GPU nutzen, verwendet die APU einen gemeinsamen Speicher für CPU- und GPU-Komponenten. Das LLM-Training belastete diese Architektur zunächst, da mehrere Elemente in der Trainingspipeline um den verfügbaren Arbeitsspeicher konkurrieren mussten. Dank Maßnahmen zur Optimierung der Speichernutzung konnte das Team jedoch die Leistung auf bis zu 64 Knoten (256 APUs) nahezu linear skalieren.

Vergleichbare Leistung von spärlichen Modellen mit SimplePrune

Die Forschung profitierte auch von dem bei Seedbox.AI entwickelten Datenkomprimierungsansatz SimplePrune, der die Komplexität eines großen Sprachmodells mittels intelligenter Eliminierung redundanter neuronaler Pfade in den Trainingsdaten reduziert. Mit diesem Ansatz lässt sich der Energie- und Zeitaufwand für das LLM-Training verringern. Die Forschenden wandten den maschinellen Lernansatz „Wissensdestillation“ auf den resultierenden Datensatz an und fanden dabei heraus, dass die beschnittenen Modelle sowohl zu einer Parameterreduzierung von 80 Prozent führten als auch praktisch identische Ergebnisse im Vergleich zu ihren nicht beschnittenen Gegenstücken lieferten.

Das erfolgreiche Training eines LLM-Modells auf Hunter und die Durchführbarkeit der SimplePrune-Methode zeigen auf, wie sich große Sprachmodelle für KI-Nutzer zugänglicher machen lassen. Anstatt in überdimensionierte KI-optimierte Rechnersysteme zu investieren, um zunehmend größere Modelle auszuführen, sollte laut der Studienergebnisse ein stärkerer Fokus auf die Modelloptimierung in der künftigen Forschung zu effizienteren, flexibleren und kostengünstigeren HPC-Architekturen führen, die auch für viele typische KI-Anwendungen geeignet sind.

Dennis Dickmann, Chief Technology Officer bei Seedbox.AI, leitete das Experiment und sieht zusätzliche Vorteile für die europäische KI-Gemeinschaft: „Mit Hunter am HLRS haben wir gezeigt, dass es möglich ist, hochwertige, optimierte LLMs mit strukturierter Sparsamkeit und fortgeschrittener Wissensdestillation zu trainieren, ohne auf eine außereuropäische Cloud-Infrastruktur angewiesen zu sein. In dieser Arbeit geht es nicht nur um Gewichte und Verzerrungen. Es ist ein Beweis dafür, dass die Infrastruktur zum Aufbau fortschrittlicher KI-Systeme in Europa existiert - und sie funktioniert.“

„AI Factory“ HammerHAI unterstützt neue Methodentests

Die der Cray User Group vorgestellte Forschungsarbeit ist ein frühes Ergebnis von HammerHAI, einer vom HLRS koordinierten EuroHPC JU AI Factory, die am 1. April 2025 offiziell begann. Parallel zur Vorbereitung auf die Installation eines KI-optimierten Supercomputers am HLRS im Jahr 2026 unterstützt HammerHAI bereits Start-ups wie Seedbox.AI bei der Entwicklung, Erprobung und Implementierung neuer Anwendungen künstlicher Intelligenz.

Christopher Williams