NVIDIA Vera Rubin NVL72 kaufen — das Rack als ein KI-Rechner
Die Rubin-Generation als Rack-Scale-Plattform: 72 Rubin-GPUs, 36 Vera-CPUs, 20,7 TB HBM4 und bis zu 3,6 EFLOPS NVFP4-Inferenz in einem flüssiggekühlten Rack. Nelpx GmbH liefert, plant und integriert Ihr System im DACH-Raum — inklusive Strom-, Kühlungs- und Netzwerkkonzept.
Was ist der NVIDIA Vera Rubin NVL72?
Der Vera Rubin NVL72 ist NVIDIAs Rack-Scale-KI-Plattform der Rubin-Generation. Das gesamte Rack arbeitet als ein einziger, verteilter Beschleuniger — 72 Rubin-GPUs und 36 Vera-CPUs sind über NVLink 6 zu einer kohärenten Recheneinheit zusammengeschaltet.
Aufgebaut ist das System aus mehreren flüssiggekühlten Compute-Trays mit je vier Rubin-GPUs und zwei Vera-CPUs, dazu NVLink-Switch-Trays, Power-Shelves und einer DC-Stromschiene. NVIDIA nennt es die dritte Generation des MGX-/Oberon-Rack-Designs, das einen direkten Übergang von der Blackwell-Generation (GB200/GB300 NVL72) ermöglicht.
Jede Rubin-GPU bringt 288 GB HBM4 mit bis zu 22 TB/s Speicherbandbreite und bis zu 50 PFLOPS NVFP4-Inferenz. Auf Rack-Ebene summiert sich das laut NVIDIA auf 20,7 TB HBM4, rund 1,6 PB/s HBM-Bandbreite und bis zu 3,6 EFLOPS NVFP4-Inferenz bzw. etwa 2,5 EFLOPS NVFP4-Training — bei gleichzeitig deutlich niedrigeren Kosten pro Token gegenüber Blackwell.
Eingeordnet bedeutet das: Rubin ist auf Agentic AI, Reasoning-Modelle und große Mixture-of-Experts-Modelle ausgelegt. Der Sprung gegenüber Blackwell liegt vor allem im Speicher (HBM4 statt HBM3e), in der NVFP4-Rechenleistung und in der NVLink-6-Bandbreite — also genau dort, wo die größten Modelle heute an ihre Grenzen stoßen.
Vera Rubin NVL72 in Zahlen
Verifizierte Rack- und GPU-Kennwerte aus offiziellen NVIDIA-Angaben (CES 2026) sowie der GIGABYTE-GIGAPOD-Spezifikation.
Quellen: NVIDIA Vera Rubin NVL72 Produktseite & CES-2026-Angaben; GIGABYTE GIGAPOD „AI DLC Rack – NVIDIA Vera Rubin NVL72“. NVFP4-Werte sind dichte (dense) Spitzenwerte; tatsächliche Leistung ist konfigurations- und workloadabhängig. Spezifikationen vorläufig, Änderungen durch NVIDIA vorbehalten.
Vera Rubin NVL72 vs. GB300 NVL72 (Blackwell Ultra)
Gegenüberstellung der Rubin- und der Blackwell-Ultra-Generation auf GPU- und Rack-Ebene.
| Merkmal | Vera Rubin NVL72 | GB300 NVL72 (Blackwell Ultra) |
|---|---|---|
| GPU-Architektur | Rubin (2 Compute-Dies, 336 Mrd. Transistoren) | Blackwell Ultra |
| GPUs pro Rack | 72× Rubin | 72× Blackwell Ultra |
| CPU | 36× Vera (88 Olympus-Arm-Kerne je CPU) | 36× Grace |
| Speicher pro GPU | 288 GB HBM4 | 288 GB HBM3e |
| Speicherbandbreite / GPU | bis zu 22 TB/s | ~8 TB/s |
| NVFP4-Inferenz / GPU | bis zu 50 PFLOPS | ~15 PFLOPS (dense FP4) |
| NVLink | NVLink 6 – 3,6 TB/s pro GPU | NVLink 5 – 1,8 TB/s pro GPU |
| Netzwerk-SuperNIC | ConnectX-9 (1,6 Tb/s / GPU) | ConnectX-8 (0,8 Tb/s / GPU) |
| Kühlung | 100 % Direkt-Flüssigkühlung | Direkt-Flüssigkühlung |
Werte gemäß NVIDIA-Angaben (CES 2026) und etablierten Blackwell-Ultra-Datenblättern. FP4-Werte sind dichte Spitzenwerte. Bei abweichenden Drittquellen gilt die NVIDIA-Originalangabe. Änderungen vorbehalten.
Warum der Vera Rubin NVL72 besonders ist
HBM4 mit 288 GB pro GPU
Der Wechsel von HBM3e auf HBM4 hebt die Speicherbandbreite pro GPU auf bis zu 22 TB/s — fast das Dreifache der Blackwell-Generation. Genau das entscheidet bei großen Modellen, deren Engpass die Speicherbandbreite ist.
NVFP4-Transformer-Engine
Bis zu 50 PFLOPS NVFP4-Inferenz pro GPU und 3,6 EFLOPS pro Rack. Eine neue Transformer-Engine mit adaptiver Kompression beschleunigt NVFP4-Inferenz gezielt für Reasoning- und Agentic-AI-Workloads.
NVLink 6 – das Rack als ein Rechner
NVLink 6 verdoppelt die GPU-zu-GPU-Bandbreite auf 3,6 TB/s pro GPU (~260 TB/s aggregiert). Bei tensor-parallelem Serving trillionschwerer Modelle ist diese Bandbreite der entscheidende Skalierungsfaktor.
Niedrigere Kosten pro Token
NVIDIA positioniert Rubin mit bis zu 10× mehr Tokens pro Megawatt und rund einem Zehntel der Token-Kosten gegenüber Blackwell — bei MoE-Training mit etwa einem Viertel der GPU-Anzahl. Effizienz ist auf Flottenebene der eigentliche Hebel.
Strom, Kühlung, Netzwerk — als Gesamtsystem geplant
Ein Rack-Scale-System ist kein Server, den man einfach einschiebt. Der Vera Rubin NVL72 stellt hohe Anforderungen an die Rechenzentrums-Infrastruktur. Genau hier liegt die Kernleistung von Nelpx.
Nelpx bewertet Ihren Standort vorab: Stromzuführung, Rückkühlung/CDU, Wasserqualität, Netzwerk-Fabric, Statik und Stellfläche. So geht das System nach Lieferung ohne Böse Überraschungen produktiv.
Wofür der Vera Rubin NVL72 gebaut ist
Reasoning & Agentic AI
Mehrstufige Reasoning-Modelle und autonome Agenten mit großen Kontextfenstern — der primäre Designfokus der Rubin-Plattform.
LLM-Inferenz at Scale
Trillionschwere und Mixture-of-Experts-Modelle mit niedrigsten Kosten pro Token für interaktive, latenzkritische Dienste.
Pretraining & Post-Training
Massives Modelltraining mit deutlich weniger GPUs pro Trainingslauf — ideal für Forschung und KI-Modellentwicklung.
Wissenschaft & HPC
Simulation, Modellierung und KI-gestützte Forschung — auf Vera-Rubin-Basis entstehen erste Supercomputer für Wissenschaftszentren.
Souveräne KI
On-Premise-KI-Fabriken im eigenen Rechenzentrum – volle Datenhoheit für Behörden, Forschung und regulierte Branchen im DACH-Raum.
Multi-Tenant & KI-Plattform
GPU-Cloud- und MLOps-Plattformen mit Confidential Computing & RAS-Engine für mandantenfähigen, abgesicherten Betrieb.
In vier Schritten zum produktiven System
Bedarf & Beratung
Workload, Modellgröße, Skalierung und Zeitrahmen klären. Wir bewerten, ob Vera Rubin oder eine Blackwell-/Alternativ-Konfiguration passt.
Infrastruktur-Check
Standortbewertung: Strom, Direkt-Flüssigkühlung/CDU, Netzwerk-Fabric, Statik und Stellfläche — als integriertes Konzept.
Angebot & Lieferung
Individuelles Festpreis-Angebot inkl. Hardware, Infrastruktur und Service. Vorbestellung mit Lieferung im DACH-Raum.
Integration & Betrieb
Aufbau, Inbetriebnahme, Cluster-Orchestrierung und Übergabe in den produktiven Betrieb — mit laufendem Support.
Bis zu 15 % für Forschung & öffentliche Hand
Für Universitäten, Forschungseinrichtungen, Startups und die öffentliche Hand bietet Nelpx besondere Konditionen. Sprechen Sie uns auf Förderfähigkeit und Ausschreibungsanforderungen an.
Häufige Fragen zum Vera Rubin NVL72
Was kostet ein NVIDIA Vera Rubin NVL72?
Braucht der Vera Rubin NVL72 Flüssigkühlung?
Was ist der Unterschied zum GB200/GB300 NVL72?
Liefert Nelpx den Vera Rubin NVL72 im DACH-Raum?
Wann ist der Vera Rubin NVL72 verfügbar?
Vera Rubin NVL72 anfragen
Sichern Sie sich frühzeitig Ihren Platz: Projektanfrage, Infrastruktur-Planung und Vorbestellung aus einer Hand — im gesamten DACH-Raum.
NVIDIA Vera Rubin NVL72 kaufen — das Rack als ein KI-Rechner
Die Rubin-Generation als Rack-Scale-Plattform: 72 Rubin-GPUs, 36 Vera-CPUs, 20,7 TB HBM4 und bis zu 3,6 EFLOPS NVFP4-Inferenz in einem flüssiggekühlten Rack. Nelpx GmbH liefert, plant und integriert Ihr System im DACH-Raum — inklusive Strom-, Kühlungs- und Netzwerkkonzept.
Was ist der NVIDIA Vera Rubin NVL72?
Der Vera Rubin NVL72 ist NVIDIAs Rack-Scale-KI-Plattform der Rubin-Generation. Das gesamte Rack arbeitet als ein einziger, verteilter Beschleuniger — 72 Rubin-GPUs und 36 Vera-CPUs sind über NVLink 6 zu einer kohärenten Recheneinheit zusammengeschaltet.
Aufgebaut ist das System aus mehreren flüssiggekühlten Compute-Trays mit je vier Rubin-GPUs und zwei Vera-CPUs, dazu NVLink-Switch-Trays, Power-Shelves und einer DC-Stromschiene. NVIDIA nennt es die dritte Generation des MGX-/Oberon-Rack-Designs, das einen direkten Übergang von der Blackwell-Generation (GB200/GB300 NVL72) ermöglicht.
Jede Rubin-GPU bringt 288 GB HBM4 mit bis zu 22 TB/s Speicherbandbreite und bis zu 50 PFLOPS NVFP4-Inferenz. Auf Rack-Ebene summiert sich das laut NVIDIA auf 20,7 TB HBM4, rund 1,6 PB/s HBM-Bandbreite und bis zu 3,6 EFLOPS NVFP4-Inferenz bzw. etwa 2,5 EFLOPS NVFP4-Training — bei gleichzeitig deutlich niedrigeren Kosten pro Token gegenüber Blackwell.
Eingeordnet bedeutet das: Rubin ist auf Agentic AI, Reasoning-Modelle und große Mixture-of-Experts-Modelle ausgelegt. Der Sprung gegenüber Blackwell liegt vor allem im Speicher (HBM4 statt HBM3e), in der NVFP4-Rechenleistung und in der NVLink-6-Bandbreite — also genau dort, wo die größten Modelle heute an ihre Grenzen stoßen.
Vera Rubin NVL72 in Zahlen
Verifizierte Rack- und GPU-Kennwerte aus offiziellen NVIDIA-Angaben (CES 2026) sowie der GIGABYTE-GIGAPOD-Spezifikation.
Quellen: NVIDIA Vera Rubin NVL72 Produktseite & CES-2026-Angaben; GIGABYTE GIGAPOD „AI DLC Rack – NVIDIA Vera Rubin NVL72“. NVFP4-Werte sind dichte (dense) Spitzenwerte; tatsächliche Leistung ist konfigurations- und workloadabhängig. Spezifikationen vorläufig, Änderungen durch NVIDIA vorbehalten.
Vera Rubin NVL72 vs. GB300 NVL72 (Blackwell Ultra)
Gegenüberstellung der Rubin- und der Blackwell-Ultra-Generation auf GPU- und Rack-Ebene.
| Merkmal | Vera Rubin NVL72 | GB300 NVL72 (Blackwell Ultra) |
|---|---|---|
| GPU-Architektur | Rubin (2 Compute-Dies, 336 Mrd. Transistoren) | Blackwell Ultra |
| GPUs pro Rack | 72× Rubin | 72× Blackwell Ultra |
| CPU | 36× Vera (88 Olympus-Arm-Kerne je CPU) | 36× Grace |
| Speicher pro GPU | 288 GB HBM4 | 288 GB HBM3e |
| Speicherbandbreite / GPU | bis zu 22 TB/s | ~8 TB/s |
| NVFP4-Inferenz / GPU | bis zu 50 PFLOPS | ~15 PFLOPS (dense FP4) |
| NVLink | NVLink 6 – 3,6 TB/s pro GPU | NVLink 5 – 1,8 TB/s pro GPU |
| Netzwerk-SuperNIC | ConnectX-9 (1,6 Tb/s / GPU) | ConnectX-8 (0,8 Tb/s / GPU) |
| Kühlung | 100 % Direkt-Flüssigkühlung | Direkt-Flüssigkühlung |
Werte gemäß NVIDIA-Angaben (CES 2026) und etablierten Blackwell-Ultra-Datenblättern. FP4-Werte sind dichte Spitzenwerte. Bei abweichenden Drittquellen gilt die NVIDIA-Originalangabe. Änderungen vorbehalten.
Warum der Vera Rubin NVL72 besonders ist
HBM4 mit 288 GB pro GPU
Der Wechsel von HBM3e auf HBM4 hebt die Speicherbandbreite pro GPU auf bis zu 22 TB/s — fast das Dreifache der Blackwell-Generation. Genau das entscheidet bei großen Modellen, deren Engpass die Speicherbandbreite ist.
NVFP4-Transformer-Engine
Bis zu 50 PFLOPS NVFP4-Inferenz pro GPU und 3,6 EFLOPS pro Rack. Eine neue Transformer-Engine mit adaptiver Kompression beschleunigt NVFP4-Inferenz gezielt für Reasoning- und Agentic-AI-Workloads.
NVLink 6 – das Rack als ein Rechner
NVLink 6 verdoppelt die GPU-zu-GPU-Bandbreite auf 3,6 TB/s pro GPU (~260 TB/s aggregiert). Bei tensor-parallelem Serving trillionschwerer Modelle ist diese Bandbreite der entscheidende Skalierungsfaktor.
Niedrigere Kosten pro Token
NVIDIA positioniert Rubin mit bis zu 10× mehr Tokens pro Megawatt und rund einem Zehntel der Token-Kosten gegenüber Blackwell — bei MoE-Training mit etwa einem Viertel der GPU-Anzahl. Effizienz ist auf Flottenebene der eigentliche Hebel.
Strom, Kühlung, Netzwerk — als Gesamtsystem geplant
Ein Rack-Scale-System ist kein Server, den man einfach einschiebt. Der Vera Rubin NVL72 stellt hohe Anforderungen an die Rechenzentrums-Infrastruktur. Genau hier liegt die Kernleistung von Nelpx.
Nelpx bewertet Ihren Standort vorab: Stromzuführung, Rückkühlung/CDU, Wasserqualität, Netzwerk-Fabric, Statik und Stellfläche. So geht das System nach Lieferung ohne Böse Überraschungen produktiv.
Wofür der Vera Rubin NVL72 gebaut ist
Reasoning & Agentic AI
Mehrstufige Reasoning-Modelle und autonome Agenten mit großen Kontextfenstern — der primäre Designfokus der Rubin-Plattform.
LLM-Inferenz at Scale
Trillionschwere und Mixture-of-Experts-Modelle mit niedrigsten Kosten pro Token für interaktive, latenzkritische Dienste.
Pretraining & Post-Training
Massives Modelltraining mit deutlich weniger GPUs pro Trainingslauf — ideal für Forschung und KI-Modellentwicklung.
Wissenschaft & HPC
Simulation, Modellierung und KI-gestützte Forschung — auf Vera-Rubin-Basis entstehen erste Supercomputer für Wissenschaftszentren.
Souveräne KI
On-Premise-KI-Fabriken im eigenen Rechenzentrum – volle Datenhoheit für Behörden, Forschung und regulierte Branchen im DACH-Raum.
Multi-Tenant & KI-Plattform
GPU-Cloud- und MLOps-Plattformen mit Confidential Computing & RAS-Engine für mandantenfähigen, abgesicherten Betrieb.
In vier Schritten zum produktiven System
Bedarf & Beratung
Workload, Modellgröße, Skalierung und Zeitrahmen klären. Wir bewerten, ob Vera Rubin oder eine Blackwell-/Alternativ-Konfiguration passt.
Infrastruktur-Check
Standortbewertung: Strom, Direkt-Flüssigkühlung/CDU, Netzwerk-Fabric, Statik und Stellfläche — als integriertes Konzept.
Angebot & Lieferung
Individuelles Festpreis-Angebot inkl. Hardware, Infrastruktur und Service. Vorbestellung mit Lieferung im DACH-Raum.
Integration & Betrieb
Aufbau, Inbetriebnahme, Cluster-Orchestrierung und Übergabe in den produktiven Betrieb — mit laufendem Support.
Bis zu 15 % für Forschung & öffentliche Hand
Für Universitäten, Forschungseinrichtungen, Startups und die öffentliche Hand bietet Nelpx besondere Konditionen. Sprechen Sie uns auf Förderfähigkeit und Ausschreibungsanforderungen an.
Häufige Fragen zum Vera Rubin NVL72
Was kostet ein NVIDIA Vera Rubin NVL72?
Braucht der Vera Rubin NVL72 Flüssigkühlung?
Was ist der Unterschied zum GB200/GB300 NVL72?
Liefert Nelpx den Vera Rubin NVL72 im DACH-Raum?
Wann ist der Vera Rubin NVL72 verfügbar?
Vera Rubin NVL72 anfragen
Sichern Sie sich frühzeitig Ihren Platz: Projektanfrage, Infrastruktur-Planung und Vorbestellung aus einer Hand — im gesamten DACH-Raum.
Kontaktieren Sie uns
Ihre Anfrage wird schnellstmöglich bearbeitet.