Zum Inhalt springen
Auf Lager · lieferbar

NVIDIA H200 kaufen — die Hopper-GPU mit 141 GB für LLM-Inference

Die erste GPU mit HBM3e: 141 GB Speicher, 4,8 TB/s Bandbreite und bis zu 2× LLM-Inference-Leistung gegenüber der H100. Nelpx GmbH liefert und plant Ihre H200 im DACH-Raum — als einzelne Karte oder komplettes HGX/DGX-H200-System, inklusive Strom-, Kühlungs- und Netzwerkkonzept.

141 GB
HBM3e pro GPU
4,8 TB/s
Speicherbandbreite
LLM-Inference vs. H100
NVIDIA H200 Tensor Core GPU
Preis Ab 26.500 € netto, zzgl. MwSt., konfigurationsabhängig
Einordnung

Was ist die NVIDIA H200?

Die NVIDIA H200 ist eine Rechenzentrums-GPU auf Basis der Hopper-Architektur und die erste GPU der Welt mit HBM3e-Speicher. Sie ist dafür gebaut, große KI-Modelle zu trainieren und – vor allem – im produktiven Betrieb mit hohem Durchsatz auszuführen.

Technisch ist die H200 die speicheroptimierte Weiterentwicklung der H100. Beide nutzen denselben Hopper-GH100-Die und damit die gleiche Rechenarchitektur – der entscheidende Unterschied liegt im Speicher-Subsystem. Wo die H100 bei 80 GB HBM3 endet, bietet die H200 141 GB HBM3e bei 4,8 TB/s Bandbreite. Das sind rund 76 % mehr Kapazität und 43 % mehr Bandbreite.

Genau dieser Speichersprung entscheidet bei modernen Workloads. Bei autoregressiver LLM-Inference lädt jeder Decode-Schritt das gesamte Modell aus dem GPU-Speicher – die Bandbreite bestimmt direkt die Tokens pro Sekunde. Und die 141 GB erlauben es, ein 70-Milliarden-Parameter-Modell in FP16 auf einer einzelnen GPU zu betreiben sowie große KV-Caches für lange Kontexte bis 128K Token vorzuhalten – ohne aufwändiges Sharding über viele Knoten.

Die H200 ist in zwei Bauformen verfügbar: als SXM5-Modul für HGX- und DGX-H200-Plattformen mit voller NVLink-Kopplung (900 GB/s, 700 W) und als NVL-Variante (PCIe 5.0) für den flexiblen Einbau in Standard-Server (600 W, luftgekühlt). Beide enthalten 16.896 CUDA-Cores, 528 Tensor-Cores der 4. Generation mit FP8-Transformer-Engine und unterstützen Multi-Instance-GPU (MIG) mit bis zu 7 Instanzen.

Auf einen Blick

Die H200 in Zahlen

Verifizierte Eckdaten der NVIDIA H200 — die Basis für jede seriöse Infrastruktur-Planung.

141 GB
HBM3e pro GPU
Erste GPU mit HBM3e · ~1,76× H100 (80 GB)
4,8 TB/s
Speicherbandbreite
+43 % gegenüber H100 SXM (3,35 TB/s)
4 PF
FP8 Tensor (sparse)
~1.979 TFLOPS FP8 dense
700 / 600 W
TDP SXM / NVL
SXM5 flüssig/HGX · NVL luftgekühlt/PCIe
16.896
CUDA-Cores
528 Tensor-Cores (4. Gen, Transformer Engine)
900 GB/s
NVLink (bidirektional)
Full-Mesh über NVSwitch im HGX-Knoten
bis 7
MIG-Instanzen
Sichere Partitionierung pro GPU
>32 PF
FP8 im HGX-Knoten
8× H200 SXM · >1,1 TB aggregierter HBM
Generationen-Vergleich

H200 vs. H100

Gleicher Die, anderes Speicher-Subsystem — warum die H200 genau dort gewinnt, wo der Speicher der Engpass ist.

Merkmal H200 H100 SXM
GPU-Speicher141 GB HBM3e80 GB HBM3
Speicherbandbreite4,8 TB/s3,35 TB/s
FP8 (dense)~1.979 TFLOPS~1.979 TFLOPS
Architektur / DieHopper (GH100)Hopper (GH100)
TDP700 W (SXM) / 600 W (NVL)700 W
LLM-Inferencebis 2× (MLPerf ~+42 % Llama 2 70B)Referenz (1×)
StärkeMemory-bound Inference, lange Kontexte, 70B@FP16 single-GPUAllround Training & Inference

Quellen: NVIDIA H200 Datasheet & Produktseite, MLPerf Inference v4.0. Werte können je nach finaler Konfiguration und Bauform variieren. Nelpx verifiziert die Zielspezifikation vor jedem Angebot.

Der Mehrwert

Warum die H200 besonders ist

Die H200 ist kein neuer Architektursprung, sondern ein gezielter Speicher-Upgrade auf der Hopper-Plattform. Vier Dinge machen sie für moderne KI-Workloads – besonders für Inference im großen Maßstab – außergewöhnlich.

01 — Speicher

141 GB HBM3e pro GPU

Sechs Stacks 24-GB-HBM3e liefern 76 % mehr Kapazität als die H100. Mehr Modell, mehr KV-Cache und mehr gleichzeitige Inferenz-Sessions bleiben direkt auf der GPU – ohne Sharding über viele Knoten. Ein 70B-Modell läuft in FP16 auf einer einzelnen Karte. Genau das entscheidet bei langen Kontexten über Latenz, Kosten und Stabilität in der Produktion.

02 — Bandbreite

4,8 TB/s — +43 % vs. H100

Bei autoregressiver LLM-Inference wird in jedem Decode-Schritt das gesamte Modell aus dem Speicher gelesen, bevor ein Token entsteht. Die Bandbreite bestimmt damit direkt die Tokens pro Sekunde. Die 43 % mehr Bandbreite der H200 übersetzen sich auf memory-bound Workloads nahezu linear in höheren Durchsatz – in MLPerf v4.0 rund 42 % mehr auf Llama 2 70B.

03 — Kopplung

NVLink 900 GB/s (SXM)

Im HGX-/DGX-H200-Knoten verbindet NVLink jede SXM5-GPU mit 900 GB/s bidirektional über NVSwitch zu einem Full-Mesh – acht GPUs verhalten sich für viele Workloads wie ein großer Beschleuniger. Bei verteiltem Training mit häufigen Gradienten-Syncs ist genau das oft der Flaschenhals, den die H200 entschärft.

04 — Effizienz

Mehr Durchsatz, gleiches Power-Profil

Laut NVIDIA erreicht die H200 ihre höhere Leistung im selben Power-Profil wie die H100. Für HPC-Anwendungen nennt NVIDIA bis zu 110× höhere Performance gegenüber CPU-Baselines. Mehr Output pro Watt senkt die Kosten pro Token – vorausgesetzt, Strom und Kühlung sind passend dimensioniert.

Worauf es ankommt

SXM oder NVL — was passt zu Ihrem Rechenzentrum?

Die wichtigste Entscheidung beim H200-Kauf ist die Bauform. Sie bestimmt Kühlung, Strombedarf, Plattform und Skalierung. Genau hier liegt der Mehrwert von Nelpx als Systemhaus.

SXM5
700 W · HGX / DGX
NVLink 900 GB/s Full-Mesh, ~18 % höherer Durchsatz. Flüssigkühlung für Dauerlast. Für großskaliges Training & Multi-GPU-Inference.
NVL
600 W · PCIe 5.0
Luftgekühlt, Standard-Server, 2-4-Way-NVLink-Bridges. Flexibler Einbau in Commodity-Hardware, inkl. 5-Jahres-NVAIE.
Strom
PDU & Rack-Budget
Wir prüfen Rack-Power und PDU-Kapazität vor Bestellung – gerade bei dichten SXM-Knoten entscheidend.
Standort
Facility-Check
Standortbewertung für Strom, Kühlung und Netzanbindung im DACH-Raum – bevor Sie bestellen.
Einsatzszenarien

Wofür die H200 eingesetzt wird

Die Stärken der H200 – viel GPU-Speicher und hohe Bandbreite – machen sie für eine klare Bandbreite an Workloads zur richtigen Wahl.

LLM-Inference at Scale

Das Heimspiel der H200: große Sprachmodelle im Produktivbetrieb. Die 141 GB HBM3e halten Modell und KV-Cache auf einer GPU, ein 70B-Modell läuft in FP16 single-GPU, lange Kontexte bis 128K Token bleiben effizient.

Training & Fine-Tuning

Training und Fine-Tuning großer Transformer (100B+) auf eigenen Daten. Größere Batches und die NVLink-Kopplung der SXM-Variante halten verteiltes Training effizient und beschleunigen die Konvergenz.

Wissenschaft & HPC

Simulationen, Genomik, Materialforschung und Klimamodelle in Universitäten und Forschungseinrichtungen. Die hohe Speicherbandbreite reduziert Memory-Stalls – NVIDIA nennt bis zu 110× HPC-Performance gegenüber CPU-Baselines.

Private & souveräne KI

On-Premises-KI für Unternehmen und öffentliche Hand, die Daten nicht in fremde Clouds geben dürfen oder wollen. Volle Kontrolle über Modelle, Daten und Standort – DSGVO-konform im eigenen Rechenzentrum.

Multi-Tenant & MIG

Mit Multi-Instance-GPU (MIG) lässt sich eine H200 sicher in bis zu 7 logische GPUs partitionieren. Mehrere Teams oder Workloads teilen sich das System mit garantierter Leistungsisolierung – effiziente Auslastung statt brachliegender Kapazität.

KI-Plattform & MLOps

Fundament für eine unternehmensweite KI-Plattform: Mit NVIDIA AI Enterprise (bei NVL als 5-Jahres-Subscription enthalten) werden Workloads orchestriert, überwacht und skaliert – von der Entwicklung bis zum produktiven Inferenz-Dienst.

So läuft die Beschaffung

In vier Schritten zur laufenden H200

1

Bedarf & Workload

Wir klären Modellgrößen, Training vs. Inference und den realen GPU-Bedarf — ohne Überdimensionierung.

2

SXM oder NVL & Infra

Wahl der Bauform und Standortbewertung für Strom, Kühlung (Luft/Flüssig) und Netzwerk. Ehrliche Empfehlung, was Ihr Rechenzentrum trägt.

3

Angebot & Festpreis

Konfiguration nach Workload, transparentes Festpreis-Angebot — ohne Überraschungen.

4

Lieferung & Übergabe

Beschaffung über unser Partnernetzwerk, Lieferung im DACH-Raum und Übergabe — auf Wunsch mit Monitoring und Support.

Sonderkonditionen

Bis zu 15 % für Forschung & öffentliche Hand

Universitäten, Forschungseinrichtungen, Startups und öffentliche Einrichtungen erhalten bei Nelpx besondere Konditionen auf NVIDIA-H200-GPUs und -Systeme. Sprechen Sie uns auf Ihr Projekt an — wir kennen die Anforderungen von Tendern und Förderprojekten.

Universitäten Forschungseinrichtungen Startups Öffentliche Hand
Sonderkonditionen anfragen
Häufige Fragen

H200 kaufen — gut zu wissen

Was kostet eine NVIDIA H200?
Eine einzelne H200 NVL ist bei Nelpx ab 26.500 € netto verfügbar. Der finale Preis hängt von Variante (SXM oder NVL), Stückzahl, Server-Plattform und Support-Level ab. Wir erstellen ein individuelles Festpreis-Angebot inklusive Lieferung im DACH-Raum. Für Forschung und öffentliche Hand sind bis zu 15 % Sonderkonditionen möglich.
Welche Kühlung und Stromversorgung braucht die H200?
Die H200 SXM hat 700 W TDP pro GPU und wird für Dauer-Spitzenlast meist flüssiggekühlt in HGX- oder DGX-H200-Plattformen betrieben. Die H200 NVL (PCIe) liegt bei 600 W, ist luftgekühlt und passt in Standard-PCIe-5.0-Server. Wir planen Strom, Kühlung und Netzwerk als integriertes Gesamtsystem.
Was ist der Unterschied zwischen H200 und H100?
H200 und H100 teilen sich denselben Hopper-GH100-Die und damit die gleiche Rechenarchitektur. Der Unterschied liegt im Speicher: 141 GB HBM3e statt 80 GB HBM3 und 4,8 TB/s statt 3,35 TB/s Bandbreite. Das ergibt laut NVIDIA bis zu 2× LLM-Inference-Leistung und erlaubt ein 70B-Modell in FP16 auf einer einzelnen GPU.
Soll ich die H200 als SXM oder als NVL kaufen?
Die H200 SXM5 (700 W, NVLink 900 GB/s, HGX/DGX-Plattform) ist für großskaliges Training und Multi-GPU-Inference gedacht und liefert rund 18 % höheren Durchsatz. Die H200 NVL (600 W, PCIe 5.0, luftgekühlt) lässt sich flexibel in Standard-Server einbauen. Wir beraten ergebnisoffen, welche Variante zu Rechenzentrum und Workload passt.
Liefert Nelpx die H200 im DACH-Raum – und ist sie verfügbar?
Ja. Als IT-Systemhaus liefern und planen wir H200-GPUs und komplette HGX/DGX-H200-Systeme in Deutschland, Österreich und der Schweiz — inklusive Standortbewertung und Netzwerkanbindung. Hinweis: Die H200 unterliegt US-Exportkontrolle („Controlled“); für den DACH-Raum ist die Lieferung i. d. R. unkritisch.

Fordern Sie Ihr H200 Angebot an

Ein kurzer Draht statt langem Formular: Schreiben Sie uns Ihren Bedarf — wir melden uns mit Konfiguration, Bauform-Empfehlung (SXM/NVL) und Festpreis.

DACHDeutsches IT-Systemhaus
< 24 hAntwort auf Anfragen
End-to-EndBeschaffung & Lieferung
Angebot anfragen