Seminare
Seminare

Linux Administration für KI-Workloads mit GPUs

Seminar - PROKODA GmbH

Linux Administration für KI-Workloads mit GPUs
Termin Ort Preis*
18.05.2026- 20.05.2026 online 1.773,10 €
18.05.2026- 20.05.2026 München 1.773,10 €
17.08.2026- 19.08.2026 online 1.773,10 €
17.08.2026- 19.08.2026 München 1.773,10 €

Alle Termine anzeigen

*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:
  • GPU-Stack unter Linux stabil aufsetzen
    • NVIDIA-Treiber: Versionierung, DKMS, Secure Boot, Kernel-Updates
    • CUDA, cuDNN, NCCL: Kompatibilität und typische Fallstricke
    • Multi-GPU-Grundlagen: Topologie, PCIe, NVLink, NUMA
    • Validierung: nvidia-smi, Persistenced, Smoke-Tests
  • Container für KI: Docker, NVIDIA Container Toolkit
    • GPU in Containern: Runtime, Device-Plugin-Logik, Berechtigungen
    • Images reproduzierbar bauen: Base-Images, Pinning, SBOM-Idee
    • Fehlerbilder: „CUDA driver too old“, fehlende Libs, Mount-Probleme
    • Best Practices für Training vs. Inference
  • Ressourcen, Scheduling und Isolation
    • cgroups v2: CPU, RAM, IO und GPU-Device-Zugriff
    • MIG und GPU-Slicing (Überblick): sinnvolle Einsatzmuster
    • Ulimits, Shared Memory, Hugepages: typische KI-Engpässe
    • Mehrbenutzerbetrieb: Rechte, Gruppen, Policy-Ansätze
  • Performance-Tuning für Training und Inference
    • Storage-Pfade: NVMe, RAID, Filesystem-Optionen, Dataset-Caching
    • Netzwerk: MTU/Jumbo Frames, RDMA-Grundlagen, Latenz-Checks
    • CPU-Pinning, NUMA-Affinität, IRQ-Balancing
    • Monitoring: GPU-Utilization, Thermals, Power-Limits
  • Observability, Troubleshooting und Betrieb
    • Logs und Metriken: journald, dmesg, DCGM-Ansatz, Exporter-Idee
    • Kernel- und Treiber-Debugging: Module, Signaturen, tainted Kernel
    • Incident-Playbooks: Rollback, Canary, Wartungsfenster
    • Hardening: Updates, Repo-Strategie, minimaler Angriffsvektor
  • Praxis: Referenz-Setup und Abnahmecheck
    • Golden Path: von Bare Metal bis Container-Workload
    • Kompatibilitätsmatrix als Betriebsdokument
    • Checkliste für Go-Live: Tests, Limits, Monitoring, Backup
    • Übergabe an Betrieb: Runbooks und Verantwortlichkeiten
Teilnahmevoraussetzungen:
  • Sichere Linux-Kenntnisse (Shell, Systemdienste, Paketmanagement, Logs)
  • Grundverständnis von Docker ist hilfreich, aber nicht zwingend
Zielgruppe:
  • Linux-Administratorinnen und Linux-Administratoren mit Betriebsverantwortung für GPU-Server
  • DevOps- und Platform-Engineers, die KI-Workloads containerisiert ausrollen
  • ML-Engineers und MLOps-Verantwortliche mit Bedarf an stabilem Infrastruktur-Setup
  • IT-Betrieb und SRE-Teams, die Training und Inference absichern
  • Für alle, die GPU-Workloads unter Linux reproduzierbar, performant und wartbar betreiben wollen
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha