
Holen Sie mehr aus den GPUs heraus mit AMD EPYC™ CPUs
5 Gründe, warum AMD EPYC™ bis zu 20% mehr KI-Performance aus GPUs herausholen 1,2
High-Performance-GPU-Knoten sind für hohe KI-Auslastungen unerlässlich, aber High-Compute-, High-Performance-Beschleuniger sind zur Maximierung ihrer Performance auf schnelle CPU-Hosts angewiesen.
AMD EPYC™ CPUs der 5.Generation umfassen Hochfrequenzmodelle, die speziell für einen höheren Durchsatz von GPU-Clustern entwickelt wurden. Und so funktioniert es.
Hochfrequenzverarbeitung
CPUs mit höherer Frequenz verbessern die Datenbewegung und die Performance virtueller Maschinen.
CPUs mit höherer Frequenz können Daten verschieben, Aufgaben steuern und mehrere virtuelle Maschinen unterstützen, was eine höhere KI-Beschleuniger-Performance ermöglicht. AMD EPYC 9575F CPUs laufen mit bis zu 28% höherer Frequenz als Intel® Xeon® Platinum 8592+, was sie als GPU-Hostknoten unschätzbar macht.3
Durchschnittlich 50% höhere Performance bei grundlegenden GPU-Hosting-Aufgaben4
Schnellere Kernel-Starts, Speicher-Swappings und Datenübertragungen steigern die Performance
Tests haben ergeben, dass AMD EPYCTM CPUs der 5.Generation die allgemeine Performance eines 8x NVIDIA H100-Clusters um durchschnittlich 50% steigern konnten. Dies führte zu einer Steigerung von Grok-1-Inferenz um ~52 %, Kernel Launch um ~30 % und MemCopy-Aufgaben um ~138% im Vergleich zu Intel® Xeon® Platinum 8592+ CPUs4.
Reichlich RAM zum Speichern ganzer Modelle und Datensätze im Speicher
12 DDR5-Kanäle unterstützen bis zu 6 TB RAM pro Sockel
AMD EPYCTM CPUs der 5.Generation unterstützen ausreichend RAM, um große Datensätze und ganze Modelle im Speicher abzulegen, wodurch Lese-/Schreibzyklen und Transfers in den und aus dem Speicher verkürzt werden. Wenn die Daten im Speicher bleiben, können AMD EPYCTM CPUs mehr Daten schneller verarbeiten und an GPU-Cluster übertragen.
Große, schnelle Datenbewegung für massive Parallelverarbeitung
Bis zu 160 PCIe® Gen5 Lanes beschleunigen die Datenübertragung
PCIe Lanes sind die Kommunikationskanäle zwischen CPU, GPUs und Speicher. CPUs mit weniger Lanes können schnell zu Engpässen führen, die die GPU-Performance drosseln. Mit bis zu 128 PCIe Lanes (Single-Socket) und bis zu 160 PCIe Gen5 Lanes (Dual-Socket) können AMD EPYCTM CPUs der 5.Generation riesige Datenvolumen zu und über GPUs hinweg transportieren, um ihre Kapazität zu maximieren.
Bis zu 20% höherer GPU-Durchsatz 1,2
GPU-Performance bei hohen KI-Auslastungen steigt mit AMD EPYCTM Hosts
Bei der Verwendung von AMD EPYC 9575F CPUs der 5.Generation zum Hosten von 8x GPU-Plattformen verzeichnen wir einen Anstieg von ca. 20% bei der Stable Diffusion XL v2 (FP8) Trainings-Benchmark1 und bis zu 20% bei der Llama 3.1-70B (FP8) Inferenz-Benchmark im Vergleich zu äquivalenten Knoten, die von Intel® Xeon® Platinum 8592+ CPUs gehostet werden.2
AMD CPUs sind besonders geeignet für HPC-Projekte, da sie eine ideale Kombination aus hoher Rechenleistung, Energieeffizienz und Skalierbarkeit bieten.
Starten Sie Ihr HPC-Projekt mit den Experten. Als AMD Elite Partner verfügen wir über umfassende Erfahrung in der Planung und Umsetzung von umfangreichen HPC-Projekten und IT-Infrastrukturen. Wir unterstützen Sie bei der Auswahl der optimalen Hardwarekomponenten, der Konfiguration Ihrer Systeme und der Integration in Ihre bestehende IT-Landschaft.
Kontaktieren Sie uns und erfahren Sie mehr zu unseren Leistungen
1. Stable Diffusion XL v2 Trainingsergebnisse basierend auf internen Tests von AMD vom 10.10.2024. SDXL-Konfigurationen: DeepSpeed 0.14.0, TP8 Parallel, FP8, Batchgröße 24, Ergebnisse in Sekunden 2P AMD EPYCTM 9575F (128 Kerne gesamt) mit 8 x AMD Instinct MI300X-NPS1-SPX-192GB-750W, GPU Interconnectivity XGMI, ROCm™ 6.2.0-66, 2304 GB 24 x 96 GB DDR5-6000, BIOS 1.0 (Power Determinism = off), Ubuntu® 22.04.4 LTS, Kernel 5.15.0-72-generic, 334,80 Sekunden 2P Intel Xeon Platinum 8592+ (128 Kerne gesamt) mit 8 x AMD Instinct MI300X-NPS1-SPX-192GB-750, GPU Interconnectivity XGMI, ROCm 6.2.0-66, 2048 GB 32 x 64 GB DDR5-4400, BIOS 2.0.4, (Power Determinism = off), Ubuntu 22.04.4 LTS, Kernel 5.15.0-72-generic, 400,43 Sekunden für 19,600 % Steigerung der Trainings-Performance. Die Ergebnisse können abhängig von Faktoren wie Systemkonfiguration, Softwareversion und BIOS-Einstellungen variieren. (9xx5-059A)
2. Llama 3.1-70B-Inferenz-Durchsatzergebnisse basierend auf internen Tests von AMD vom 01.09.2024. Llama3.1-70B-Konfigurationen: TensorRT-LLM 0.9.0, nvidia/cuda 12.5.0-devel-ubuntu22.04, FP8, Eingangs-/Ausgangs-Token-Konfigurationen (Anwendungsfälle): [BS=1024 E/A=128/128, BS=1024 E/A=128/2048, BS=96 E/A=2048/128, BS=64 E/A=2048/2048]. Ergebnisse in Token/Sekunde. 2P AMD EPYC 9575F (128 Kerne gesamt) mit 8 x NVIDIA H100 80 GB HBM3, 1,5 TB 24 x 64 GB DDR5-6000, 1,0 Git/s 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®, BIOS T20240805173113 (Determinism=Power, SR-IOV = On), Ubuntu 22.04.3 LTS, kernel=5.15.0-117-generic (Mitigations = off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/ drop_caches), 2P Intel Xeon Platinum 8592+ (128 Kerne gesamt) mit 8 x NVIDIA H100 80 GB HBM3, 1 TB 16 x 64 GB DDR5-5600, 3,2 TB Dell Ent NVMe® PM1735a MU, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic, (processor.max_cstate=1, intel_idle.max_cstate=0 Mitigations = off, cpupower frequency-set -g performance), BIOS 2.1, (Max- Performance, SR-IOV=On), E/A-Token Batch-Größe EMR Turin Relativer Wert 128/128 1024 814,678 1101,966 1,353 128/2048 1024 2120,664 2331,776 1,1 2048/128 96 114,954 146,187 1,272 2048/2048 64 333,325 354,208 1,063 für eine durchschnittliche Durchsatzsteigerung von 1,197 x. Die Ergebnisse können abhängig von Faktoren wie Systemkonfiguration, Softwareversion und BIOS-Einstellungen variieren. (9xx5-014)
3. Vergleich der AMD EPYCTM CPU der 5. Generation mit der höchsten Frequenz (5 GHz) und der Intel Xeon Platinum 8592+ CPU mit der höchsten Frequenz (3,9 GHz), basierend auf veröffentlichten Spezifikationen.
4. Vergleich basiert auf internen Tests von AMD vom 05.11.2024. Auslastungen: MemCopy v1.0 (8 Threads/8 GPUs, nvhpc 24.3 KernelLaunch v2.0 (8 Threads /8 GPUs, nvhpc 24.3) Grok1-324B (FP16, JAX 0.4.25, nvhpc 24.3, sentencepiece 0.2.0, numpy 1.26.4, dm_haiky 0.0.12, 2 / 8 experts, 11-Token-Eingabe-Prompt mit 105-Token-Ausgabe-Prompt). 2P AMD EPYC 9575F (128 Kerne gesamt) mit 8 x NVIDIA H100 80 GB HBM3, 1,5 TB 24 x 64 GB DDR5-6000, 1,0 Gbit/s 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®, BIOS T20240805173113 (Determinism = Power, SR-IOV = On), Ubuntu 22.04.3 LTS, kernel = 5.15.0-117-generic (mitigations = off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches), Durchschnitt über 3 Durchläufe 77,13 Sekunden (MemCopy), Durchschnitt über 3 Durchläufe 3,21 Sekunden (Kernel Launch), Durchschnitt über 3 Durchläufe 99,00 Sekunden (Grok) 2P Intel Xeon Platinum 8592+ (128 Kerne gesamt) mit 8 x NVIDIA H100 80 GB HBM3, 1 TB 16 x 64 GB DDR5-5600, 3,2 TB Dell Ent NVMe® PM1735a MU, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic (processor.max_cstate = 1, intel_idle.max_cstate = 0 mitigations = off, cpupower frequency-set -g performance), Durchschnitt über 3 Durchläufe 183,58 Sekunden (MemCopy), Durchschnitt über 3 Durchläufe 4,18 Sekunden (Kernel Launch), Durchschnitt über 3 Durchläufe 163,98 Sekunden (Grok), führte zu einem Performance-Anstieg um 138,01 % in MemCopy, einem Performance-Anstieg um 30,22 % in KernelLaunch und einem Performance-Anstieg um 51,77 % in Grok1-324B oder einem Gesamt-Performance-Anstieg (geometric mean) von 49,67 %. Die Ergebnisse können abhängig von Faktoren wie Systemkonfiguration, Softwareversion und BIOS-Einstellungen variieren. (9xx5-084A)