Für den Betrieb des DeepSeek-R1-671B-Modells in Multi-GPU-Clustern sind folgende Spezifikationen erforderlich:


  1. GPU-Konfiguration (Minimum)
Komponente Anforderung
GPU-Typ NVIDIA A100/H100 80GB (16–24 Chips)
VRAM pro GPU 80 GB
Gesamt-VRAM 1.342–1.543 GB
Netzwerkbandbreite 200 Gb/s+ (RoCE/RDMA)
  1. Quantisierungsoptionen
  • 4-Bit-Modus: Reduziert VRAM-Bedarf auf 436 GB (6×A100 80GB)
  • 8-Bit-Modus: 750–1.000 GB VRAM bei vollem Kontext (128k Tokens)

  1. Server-Architektur
Ansatz Hardwarebeispiel Leistung
Single-Node HGX 8×NVIDIA H200 (141GB VRAM) 42 T/s
Multi-Node Cluster 12×GH200 Nodes (FP8-Tensor-Parallelität) 40 T/s
Cloud-Implementierung 8×H100 auf Hyperstack (SGLang) 68 T/s

  1. Zusätzliche Infrastruktur
  • RAM: 384–768 GB DDR5 (CPU-only) / 2.684 GB Cluster-RAM
  • Storage: NVMe SSDs (≥1 TB für Modellcheckpoints)
  • Netzwerk: InfiniBand HDR/Quantum-2 Switches

  1. Benchmark-Vergleich
GPU-Typ Token/s Konfiguration Kosten/Std
H200×8 58 FP8 mit SGLang v0.4.1 $98.40
A100×16 27 FP16 Tensor-Parallelität $76.80
RTX 4090×4 5 4-Bit-Quantisierung $12.20

  1. Optimierungstipps
  • SGLang Inference Engine: Reduziert Latenz um 63% durch MLA-Optimierungen
  • KV-Cache-Komprimierung: Spart 22% VRAM bei 128k-Kontext
  • CPU/GPU-Hybridmodus: Nutzt ungenutzten Host-RAM für längere Kontexte

Für Forschungszwecke ermöglicht eine EPYC-7713-CPU mit 512 GB RAM die Ausführung in Q4_0-Quantisierung (3,5–4,25 T/s), allerdings mit erheblich reduzierter Performance.

Enterprise-Lösungen sollten jedoch Multi-GPU-Cluster mit H100/A100-GPUs priorisieren.