Für den Betrieb des DeepSeek-R1-671B-Modells in Multi-GPU-Clustern sind folgende Spezifikationen erforderlich:
- GPU-Konfiguration (Minimum)
Komponente | Anforderung |
---|---|
GPU-Typ | NVIDIA A100/H100 80GB (16–24 Chips) |
VRAM pro GPU | 80 GB |
Gesamt-VRAM | 1.342–1.543 GB |
Netzwerkbandbreite | 200 Gb/s+ (RoCE/RDMA) |
- Quantisierungsoptionen
- 4-Bit-Modus: Reduziert VRAM-Bedarf auf 436 GB (6×A100 80GB)
- 8-Bit-Modus: 750–1.000 GB VRAM bei vollem Kontext (128k Tokens)
- Server-Architektur
Ansatz | Hardwarebeispiel | Leistung |
---|---|---|
Single-Node HGX | 8×NVIDIA H200 (141GB VRAM) | 42 T/s |
Multi-Node Cluster | 12×GH200 Nodes (FP8-Tensor-Parallelität) | 40 T/s |
Cloud-Implementierung | 8×H100 auf Hyperstack (SGLang) | 68 T/s |
- Zusätzliche Infrastruktur
- RAM: 384–768 GB DDR5 (CPU-only) / 2.684 GB Cluster-RAM
- Storage: NVMe SSDs (≥1 TB für Modellcheckpoints)
- Netzwerk: InfiniBand HDR/Quantum-2 Switches
- Benchmark-Vergleich
GPU-Typ | Token/s | Konfiguration | Kosten/Std |
---|---|---|---|
H200×8 | 58 | FP8 mit SGLang v0.4.1 | $98.40 |
A100×16 | 27 | FP16 Tensor-Parallelität | $76.80 |
RTX 4090×4 | 5 | 4-Bit-Quantisierung | $12.20 |
- Optimierungstipps
- SGLang Inference Engine: Reduziert Latenz um 63% durch MLA-Optimierungen
- KV-Cache-Komprimierung: Spart 22% VRAM bei 128k-Kontext
- CPU/GPU-Hybridmodus: Nutzt ungenutzten Host-RAM für längere Kontexte
Für Forschungszwecke ermöglicht eine EPYC-7713-CPU mit 512 GB RAM die Ausführung in Q4_0-Quantisierung (3,5–4,25 T/s), allerdings mit erheblich reduzierter Performance.
Enterprise-Lösungen sollten jedoch Multi-GPU-Cluster mit H100/A100-GPUs priorisieren.