NVIDIA H200 kaufen — die Hopper-GPU mit 141 GB für LLM-Inference
Die erste GPU mit HBM3e: 141 GB Speicher, 4,8 TB/s Bandbreite und bis zu 2× LLM-Inference-Leistung gegenüber der H100. Nelpx GmbH liefert und plant Ihre H200 im DACH-Raum — als einzelne Karte oder komplettes HGX/DGX-H200-System, inklusive Strom-, Kühlungs- und Netzwerkkonzept.
Was ist die NVIDIA H200?
Die NVIDIA H200 ist eine Rechenzentrums-GPU auf Basis der Hopper-Architektur und die erste GPU der Welt mit HBM3e-Speicher. Sie ist dafür gebaut, große KI-Modelle zu trainieren und – vor allem – im produktiven Betrieb mit hohem Durchsatz auszuführen.
Technisch ist die H200 die speicheroptimierte Weiterentwicklung der H100. Beide nutzen denselben Hopper-GH100-Die und damit die gleiche Rechenarchitektur – der entscheidende Unterschied liegt im Speicher-Subsystem. Wo die H100 bei 80 GB HBM3 endet, bietet die H200 141 GB HBM3e bei 4,8 TB/s Bandbreite. Das sind rund 76 % mehr Kapazität und 43 % mehr Bandbreite.
Genau dieser Speichersprung entscheidet bei modernen Workloads. Bei autoregressiver LLM-Inference lädt jeder Decode-Schritt das gesamte Modell aus dem GPU-Speicher – die Bandbreite bestimmt direkt die Tokens pro Sekunde. Und die 141 GB erlauben es, ein 70-Milliarden-Parameter-Modell in FP16 auf einer einzelnen GPU zu betreiben sowie große KV-Caches für lange Kontexte bis 128K Token vorzuhalten – ohne aufwändiges Sharding über viele Knoten.
Die H200 ist in zwei Bauformen verfügbar: als SXM5-Modul für HGX- und DGX-H200-Plattformen mit voller NVLink-Kopplung (900 GB/s, 700 W) und als NVL-Variante (PCIe 5.0) für den flexiblen Einbau in Standard-Server (600 W, luftgekühlt). Beide enthalten 16.896 CUDA-Cores, 528 Tensor-Cores der 4. Generation mit FP8-Transformer-Engine und unterstützen Multi-Instance-GPU (MIG) mit bis zu 7 Instanzen.
Die H200 in Zahlen
Verifizierte Eckdaten der NVIDIA H200 — die Basis für jede seriöse Infrastruktur-Planung.
H200 vs. H100
Gleicher Die, anderes Speicher-Subsystem — warum die H200 genau dort gewinnt, wo der Speicher der Engpass ist.
| Merkmal | H200 | H100 SXM |
|---|---|---|
| GPU-Speicher | 141 GB HBM3e | 80 GB HBM3 |
| Speicherbandbreite | 4,8 TB/s | 3,35 TB/s |
| FP8 (dense) | ~1.979 TFLOPS | ~1.979 TFLOPS |
| Architektur / Die | Hopper (GH100) | Hopper (GH100) |
| TDP | 700 W (SXM) / 600 W (NVL) | 700 W |
| LLM-Inference | bis 2× (MLPerf ~+42 % Llama 2 70B) | Referenz (1×) |
| Stärke | Memory-bound Inference, lange Kontexte, 70B@FP16 single-GPU | Allround Training & Inference |
Quellen: NVIDIA H200 Datasheet & Produktseite, MLPerf Inference v4.0. Werte können je nach finaler Konfiguration und Bauform variieren. Nelpx verifiziert die Zielspezifikation vor jedem Angebot.
Warum die H200 besonders ist
Die H200 ist kein neuer Architektursprung, sondern ein gezielter Speicher-Upgrade auf der Hopper-Plattform. Vier Dinge machen sie für moderne KI-Workloads – besonders für Inference im großen Maßstab – außergewöhnlich.
141 GB HBM3e pro GPU
Sechs Stacks 24-GB-HBM3e liefern 76 % mehr Kapazität als die H100. Mehr Modell, mehr KV-Cache und mehr gleichzeitige Inferenz-Sessions bleiben direkt auf der GPU – ohne Sharding über viele Knoten. Ein 70B-Modell läuft in FP16 auf einer einzelnen Karte. Genau das entscheidet bei langen Kontexten über Latenz, Kosten und Stabilität in der Produktion.
4,8 TB/s — +43 % vs. H100
Bei autoregressiver LLM-Inference wird in jedem Decode-Schritt das gesamte Modell aus dem Speicher gelesen, bevor ein Token entsteht. Die Bandbreite bestimmt damit direkt die Tokens pro Sekunde. Die 43 % mehr Bandbreite der H200 übersetzen sich auf memory-bound Workloads nahezu linear in höheren Durchsatz – in MLPerf v4.0 rund 42 % mehr auf Llama 2 70B.
NVLink 900 GB/s (SXM)
Im HGX-/DGX-H200-Knoten verbindet NVLink jede SXM5-GPU mit 900 GB/s bidirektional über NVSwitch zu einem Full-Mesh – acht GPUs verhalten sich für viele Workloads wie ein großer Beschleuniger. Bei verteiltem Training mit häufigen Gradienten-Syncs ist genau das oft der Flaschenhals, den die H200 entschärft.
Mehr Durchsatz, gleiches Power-Profil
Laut NVIDIA erreicht die H200 ihre höhere Leistung im selben Power-Profil wie die H100. Für HPC-Anwendungen nennt NVIDIA bis zu 110× höhere Performance gegenüber CPU-Baselines. Mehr Output pro Watt senkt die Kosten pro Token – vorausgesetzt, Strom und Kühlung sind passend dimensioniert.
SXM oder NVL — was passt zu Ihrem Rechenzentrum?
Die wichtigste Entscheidung beim H200-Kauf ist die Bauform. Sie bestimmt Kühlung, Strombedarf, Plattform und Skalierung. Genau hier liegt der Mehrwert von Nelpx als Systemhaus.
Wofür die H200 eingesetzt wird
Die Stärken der H200 – viel GPU-Speicher und hohe Bandbreite – machen sie für eine klare Bandbreite an Workloads zur richtigen Wahl.
LLM-Inference at Scale
Das Heimspiel der H200: große Sprachmodelle im Produktivbetrieb. Die 141 GB HBM3e halten Modell und KV-Cache auf einer GPU, ein 70B-Modell läuft in FP16 single-GPU, lange Kontexte bis 128K Token bleiben effizient.
Training & Fine-Tuning
Training und Fine-Tuning großer Transformer (100B+) auf eigenen Daten. Größere Batches und die NVLink-Kopplung der SXM-Variante halten verteiltes Training effizient und beschleunigen die Konvergenz.
Wissenschaft & HPC
Simulationen, Genomik, Materialforschung und Klimamodelle in Universitäten und Forschungseinrichtungen. Die hohe Speicherbandbreite reduziert Memory-Stalls – NVIDIA nennt bis zu 110× HPC-Performance gegenüber CPU-Baselines.
Private & souveräne KI
On-Premises-KI für Unternehmen und öffentliche Hand, die Daten nicht in fremde Clouds geben dürfen oder wollen. Volle Kontrolle über Modelle, Daten und Standort – DSGVO-konform im eigenen Rechenzentrum.
Multi-Tenant & MIG
Mit Multi-Instance-GPU (MIG) lässt sich eine H200 sicher in bis zu 7 logische GPUs partitionieren. Mehrere Teams oder Workloads teilen sich das System mit garantierter Leistungsisolierung – effiziente Auslastung statt brachliegender Kapazität.
KI-Plattform & MLOps
Fundament für eine unternehmensweite KI-Plattform: Mit NVIDIA AI Enterprise (bei NVL als 5-Jahres-Subscription enthalten) werden Workloads orchestriert, überwacht und skaliert – von der Entwicklung bis zum produktiven Inferenz-Dienst.
In vier Schritten zur laufenden H200
Bedarf & Workload
Wir klären Modellgrößen, Training vs. Inference und den realen GPU-Bedarf — ohne Überdimensionierung.
SXM oder NVL & Infra
Wahl der Bauform und Standortbewertung für Strom, Kühlung (Luft/Flüssig) und Netzwerk. Ehrliche Empfehlung, was Ihr Rechenzentrum trägt.
Angebot & Festpreis
Konfiguration nach Workload, transparentes Festpreis-Angebot — ohne Überraschungen.
Lieferung & Übergabe
Beschaffung über unser Partnernetzwerk, Lieferung im DACH-Raum und Übergabe — auf Wunsch mit Monitoring und Support.
Bis zu 15 % für Forschung & öffentliche Hand
Universitäten, Forschungseinrichtungen, Startups und öffentliche Einrichtungen erhalten bei Nelpx besondere Konditionen auf NVIDIA-H200-GPUs und -Systeme. Sprechen Sie uns auf Ihr Projekt an — wir kennen die Anforderungen von Tendern und Förderprojekten.
H200 kaufen — gut zu wissen
Was kostet eine NVIDIA H200?
Welche Kühlung und Stromversorgung braucht die H200?
Was ist der Unterschied zwischen H200 und H100?
Soll ich die H200 als SXM oder als NVL kaufen?
Liefert Nelpx die H200 im DACH-Raum – und ist sie verfügbar?
Fordern Sie Ihr H200 Angebot an
Ein kurzer Draht statt langem Formular: Schreiben Sie uns Ihren Bedarf — wir melden uns mit Konfiguration, Bauform-Empfehlung (SXM/NVL) und Festpreis.
NVIDIA H200 kaufen — die Hopper-GPU mit 141 GB für LLM-Inference
Die erste GPU mit HBM3e: 141 GB Speicher, 4,8 TB/s Bandbreite und bis zu 2× LLM-Inference-Leistung gegenüber der H100. Nelpx GmbH liefert und plant Ihre H200 im DACH-Raum — als einzelne Karte oder komplettes HGX/DGX-H200-System, inklusive Strom-, Kühlungs- und Netzwerkkonzept.
Was ist die NVIDIA H200?
Die NVIDIA H200 ist eine Rechenzentrums-GPU auf Basis der Hopper-Architektur und die erste GPU der Welt mit HBM3e-Speicher. Sie ist dafür gebaut, große KI-Modelle zu trainieren und – vor allem – im produktiven Betrieb mit hohem Durchsatz auszuführen.
Technisch ist die H200 die speicheroptimierte Weiterentwicklung der H100. Beide nutzen denselben Hopper-GH100-Die und damit die gleiche Rechenarchitektur – der entscheidende Unterschied liegt im Speicher-Subsystem. Wo die H100 bei 80 GB HBM3 endet, bietet die H200 141 GB HBM3e bei 4,8 TB/s Bandbreite. Das sind rund 76 % mehr Kapazität und 43 % mehr Bandbreite.
Genau dieser Speichersprung entscheidet bei modernen Workloads. Bei autoregressiver LLM-Inference lädt jeder Decode-Schritt das gesamte Modell aus dem GPU-Speicher – die Bandbreite bestimmt direkt die Tokens pro Sekunde. Und die 141 GB erlauben es, ein 70-Milliarden-Parameter-Modell in FP16 auf einer einzelnen GPU zu betreiben sowie große KV-Caches für lange Kontexte bis 128K Token vorzuhalten – ohne aufwändiges Sharding über viele Knoten.
Die H200 ist in zwei Bauformen verfügbar: als SXM5-Modul für HGX- und DGX-H200-Plattformen mit voller NVLink-Kopplung (900 GB/s, 700 W) und als NVL-Variante (PCIe 5.0) für den flexiblen Einbau in Standard-Server (600 W, luftgekühlt). Beide enthalten 16.896 CUDA-Cores, 528 Tensor-Cores der 4. Generation mit FP8-Transformer-Engine und unterstützen Multi-Instance-GPU (MIG) mit bis zu 7 Instanzen.
Die H200 in Zahlen
Verifizierte Eckdaten der NVIDIA H200 — die Basis für jede seriöse Infrastruktur-Planung.
H200 vs. H100
Gleicher Die, anderes Speicher-Subsystem — warum die H200 genau dort gewinnt, wo der Speicher der Engpass ist.
| Merkmal | H200 | H100 SXM |
|---|---|---|
| GPU-Speicher | 141 GB HBM3e | 80 GB HBM3 |
| Speicherbandbreite | 4,8 TB/s | 3,35 TB/s |
| FP8 (dense) | ~1.979 TFLOPS | ~1.979 TFLOPS |
| Architektur / Die | Hopper (GH100) | Hopper (GH100) |
| TDP | 700 W (SXM) / 600 W (NVL) | 700 W |
| LLM-Inference | bis 2× (MLPerf ~+42 % Llama 2 70B) | Referenz (1×) |
| Stärke | Memory-bound Inference, lange Kontexte, 70B@FP16 single-GPU | Allround Training & Inference |
Quellen: NVIDIA H200 Datasheet & Produktseite, MLPerf Inference v4.0. Werte können je nach finaler Konfiguration und Bauform variieren. Nelpx verifiziert die Zielspezifikation vor jedem Angebot.
Warum die H200 besonders ist
Die H200 ist kein neuer Architektursprung, sondern ein gezielter Speicher-Upgrade auf der Hopper-Plattform. Vier Dinge machen sie für moderne KI-Workloads – besonders für Inference im großen Maßstab – außergewöhnlich.
141 GB HBM3e pro GPU
Sechs Stacks 24-GB-HBM3e liefern 76 % mehr Kapazität als die H100. Mehr Modell, mehr KV-Cache und mehr gleichzeitige Inferenz-Sessions bleiben direkt auf der GPU – ohne Sharding über viele Knoten. Ein 70B-Modell läuft in FP16 auf einer einzelnen Karte. Genau das entscheidet bei langen Kontexten über Latenz, Kosten und Stabilität in der Produktion.
4,8 TB/s — +43 % vs. H100
Bei autoregressiver LLM-Inference wird in jedem Decode-Schritt das gesamte Modell aus dem Speicher gelesen, bevor ein Token entsteht. Die Bandbreite bestimmt damit direkt die Tokens pro Sekunde. Die 43 % mehr Bandbreite der H200 übersetzen sich auf memory-bound Workloads nahezu linear in höheren Durchsatz – in MLPerf v4.0 rund 42 % mehr auf Llama 2 70B.
NVLink 900 GB/s (SXM)
Im HGX-/DGX-H200-Knoten verbindet NVLink jede SXM5-GPU mit 900 GB/s bidirektional über NVSwitch zu einem Full-Mesh – acht GPUs verhalten sich für viele Workloads wie ein großer Beschleuniger. Bei verteiltem Training mit häufigen Gradienten-Syncs ist genau das oft der Flaschenhals, den die H200 entschärft.
Mehr Durchsatz, gleiches Power-Profil
Laut NVIDIA erreicht die H200 ihre höhere Leistung im selben Power-Profil wie die H100. Für HPC-Anwendungen nennt NVIDIA bis zu 110× höhere Performance gegenüber CPU-Baselines. Mehr Output pro Watt senkt die Kosten pro Token – vorausgesetzt, Strom und Kühlung sind passend dimensioniert.
SXM oder NVL — was passt zu Ihrem Rechenzentrum?
Die wichtigste Entscheidung beim H200-Kauf ist die Bauform. Sie bestimmt Kühlung, Strombedarf, Plattform und Skalierung. Genau hier liegt der Mehrwert von Nelpx als Systemhaus.
Wofür die H200 eingesetzt wird
Die Stärken der H200 – viel GPU-Speicher und hohe Bandbreite – machen sie für eine klare Bandbreite an Workloads zur richtigen Wahl.
LLM-Inference at Scale
Das Heimspiel der H200: große Sprachmodelle im Produktivbetrieb. Die 141 GB HBM3e halten Modell und KV-Cache auf einer GPU, ein 70B-Modell läuft in FP16 single-GPU, lange Kontexte bis 128K Token bleiben effizient.
Training & Fine-Tuning
Training und Fine-Tuning großer Transformer (100B+) auf eigenen Daten. Größere Batches und die NVLink-Kopplung der SXM-Variante halten verteiltes Training effizient und beschleunigen die Konvergenz.
Wissenschaft & HPC
Simulationen, Genomik, Materialforschung und Klimamodelle in Universitäten und Forschungseinrichtungen. Die hohe Speicherbandbreite reduziert Memory-Stalls – NVIDIA nennt bis zu 110× HPC-Performance gegenüber CPU-Baselines.
Private & souveräne KI
On-Premises-KI für Unternehmen und öffentliche Hand, die Daten nicht in fremde Clouds geben dürfen oder wollen. Volle Kontrolle über Modelle, Daten und Standort – DSGVO-konform im eigenen Rechenzentrum.
Multi-Tenant & MIG
Mit Multi-Instance-GPU (MIG) lässt sich eine H200 sicher in bis zu 7 logische GPUs partitionieren. Mehrere Teams oder Workloads teilen sich das System mit garantierter Leistungsisolierung – effiziente Auslastung statt brachliegender Kapazität.
KI-Plattform & MLOps
Fundament für eine unternehmensweite KI-Plattform: Mit NVIDIA AI Enterprise (bei NVL als 5-Jahres-Subscription enthalten) werden Workloads orchestriert, überwacht und skaliert – von der Entwicklung bis zum produktiven Inferenz-Dienst.
In vier Schritten zur laufenden H200
Bedarf & Workload
Wir klären Modellgrößen, Training vs. Inference und den realen GPU-Bedarf — ohne Überdimensionierung.
SXM oder NVL & Infra
Wahl der Bauform und Standortbewertung für Strom, Kühlung (Luft/Flüssig) und Netzwerk. Ehrliche Empfehlung, was Ihr Rechenzentrum trägt.
Angebot & Festpreis
Konfiguration nach Workload, transparentes Festpreis-Angebot — ohne Überraschungen.
Lieferung & Übergabe
Beschaffung über unser Partnernetzwerk, Lieferung im DACH-Raum und Übergabe — auf Wunsch mit Monitoring und Support.
Bis zu 15 % für Forschung & öffentliche Hand
Universitäten, Forschungseinrichtungen, Startups und öffentliche Einrichtungen erhalten bei Nelpx besondere Konditionen auf NVIDIA-H200-GPUs und -Systeme. Sprechen Sie uns auf Ihr Projekt an — wir kennen die Anforderungen von Tendern und Förderprojekten.
H200 kaufen — gut zu wissen
Was kostet eine NVIDIA H200?
Welche Kühlung und Stromversorgung braucht die H200?
Was ist der Unterschied zwischen H200 und H100?
Soll ich die H200 als SXM oder als NVL kaufen?
Liefert Nelpx die H200 im DACH-Raum – und ist sie verfügbar?
Fordern Sie Ihr H200 Angebot an
Ein kurzer Draht statt langem Formular: Schreiben Sie uns Ihren Bedarf — wir melden uns mit Konfiguration, Bauform-Empfehlung (SXM/NVL) und Festpreis.