Linux Administration für KI-Workloads mit GPUs

Seminar - PROKODA GmbH

Termin	Ort	Preis^*
18.05.2026- 20.05.2026	online	1.773,10 €	jetzt buchen
18.05.2026- 20.05.2026	München	1.773,10 €	jetzt buchen
17.08.2026- 19.08.2026	online	1.773,10 €	jetzt buchen
17.08.2026- 19.08.2026	München	1.773,10 €	jetzt buchen

Alle Termine anzeigen

^*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

GPU-Stack unter Linux stabil aufsetzen
- NVIDIA-Treiber: Versionierung, DKMS, Secure Boot, Kernel-Updates
- CUDA, cuDNN, NCCL: Kompatibilität und typische Fallstricke
- Multi-GPU-Grundlagen: Topologie, PCIe, NVLink, NUMA
- Validierung: nvidia-smi, Persistenced, Smoke-Tests
Container für KI: Docker, NVIDIA Container Toolkit
- GPU in Containern: Runtime, Device-Plugin-Logik, Berechtigungen
- Images reproduzierbar bauen: Base-Images, Pinning, SBOM-Idee
- Fehlerbilder: „CUDA driver too old“, fehlende Libs, Mount-Probleme
- Best Practices für Training vs. Inference
Ressourcen, Scheduling und Isolation
- cgroups v2: CPU, RAM, IO und GPU-Device-Zugriff
- MIG und GPU-Slicing (Überblick): sinnvolle Einsatzmuster
- Ulimits, Shared Memory, Hugepages: typische KI-Engpässe
- Mehrbenutzerbetrieb: Rechte, Gruppen, Policy-Ansätze
Performance-Tuning für Training und Inference
- Storage-Pfade: NVMe, RAID, Filesystem-Optionen, Dataset-Caching
- Netzwerk: MTU/Jumbo Frames, RDMA-Grundlagen, Latenz-Checks
- CPU-Pinning, NUMA-Affinität, IRQ-Balancing
- Monitoring: GPU-Utilization, Thermals, Power-Limits
Observability, Troubleshooting und Betrieb
- Logs und Metriken: journald, dmesg, DCGM-Ansatz, Exporter-Idee
- Kernel- und Treiber-Debugging: Module, Signaturen, tainted Kernel
- Incident-Playbooks: Rollback, Canary, Wartungsfenster
- Hardening: Updates, Repo-Strategie, minimaler Angriffsvektor
Praxis: Referenz-Setup und Abnahmecheck
- Golden Path: von Bare Metal bis Container-Workload
- Kompatibilitätsmatrix als Betriebsdokument
- Checkliste für Go-Live: Tests, Limits, Monitoring, Backup
- Übergabe an Betrieb: Runbooks und Verantwortlichkeiten

Teilnahmevoraussetzungen:

Sichere Linux-Kenntnisse (Shell, Systemdienste, Paketmanagement, Logs)
Grundverständnis von Docker ist hilfreich, aber nicht zwingend

Zielgruppe:

Linux-Administratorinnen und Linux-Administratoren mit Betriebsverantwortung für GPU-Server
DevOps- und Platform-Engineers, die KI-Workloads containerisiert ausrollen
ML-Engineers und MLOps-Verantwortliche mit Bedarf an stabilem Infrastruktur-Setup
IT-Betrieb und SRE-Teams, die Training und Inference absichern
Für alle, die GPU-Workloads unter Linux reproduzierbar, performant und wartbar betreiben wollen

Nach unten

Nach oben

Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.

Akzeptieren Nicht akzeptieren

Ihr Name:

Firma (optional):

Ihre E-Mail-Adresse:

Telefonnummer (optional):

Ihre Nachricht:

Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.

Linux Administration für KI-Workloads mit GPUs

Detaillierte Informationen zum Seminar

Anbieterinformationen