Seminare
Seminare

KI-Modelle deployen mit vLLM und Runpod

Seminar - PROKODA GmbH

KI-Modelle deployen mit vLLM und Runpod
Termin Ort Preis*
24.02.2026- 25.02.2026 München 1.779,05 €
11.03.2026- 12.03.2026 Köln 1.779,05 €
24.03.2026- 25.03.2026 online 1.779,05 €
24.03.2026- 25.03.2026 Nürnberg 1.779,05 €
28.04.2026- 29.04.2026 Hamburg 1.779,05 €
29.06.2026- 30.06.2026 Nürnberg 1.779,05 €
29.06.2026- 30.06.2026 online 1.779,05 €

Alle Termine anzeigen

*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

Einführung in LLM-Deployment

  • Herausforderungen beim Deployment großer Sprachmodelle
  • Unterschiede zwischen Training, Finetuning und Inference
  • Überblick über Deployment-Optionen: Cloud vs. On-Premise vs. Hybrid
  • Kosten-Nutzen-Analyse verschiedener Deployment-Strategien

vLLM Deep Dive

  • Was ist vLLM und warum ist es performanter als Standard-Lösungen?
  • PagedAttention und kontinuierliches Batching verstehen
  • Unterstützte Modellarchitekturen und Quantisierungsformate
  • Installation und Konfiguration von vLLM
  • Vergleich: vLLM vs. TensorRT-LLM vs. SGLang vs. Ollama

Runpod-Plattform Einführung

  • Überblick über die Runpod-Plattform und Preismodelle
  • GPU-Typen und deren Eignung für verschiedene Modellgrößen
  • Runpod Pods vs. Serverless: Vor- und Nachteile
  • Account-Setup, Billing und Ressourcen-Management
  • Sicherheitsaspekte und Best Practices
  • Alternative Plattformen: Lambda Labs, Vast.ai, etc.

Praxis: Erstes Deployment

  • Hands-on: vLLM-Server auf Runpod starten
  • Modell-Download und -Konfiguration (z.B. Llama, Mistral, Phi)
  • OpenAI-kompatible API einrichten und testen
  • Erste API-Requests mit Python durchführen
  • Workshop: Deployment eines Chat-Modells

Performance-Optimierung

  • GPU-Memory-Management und Batch-Size-Tuning
  • Quantisierung: GPTQ, AWQ, GGUF im Vergleich
  • Tensor Parallelism für große Modelle
  • Konfiguration von vLLM-Parametern für maximale Throughput
  • Benchmarking und Performance-Monitoring

Skalierung und Load Balancing

  • Horizontal Scaling: Multiple Instances verwalten
  • Load Balancing-Strategien für LLM-Endpoints
  • Auto-Scaling mit Runpod Serverless
  • Fallback-Strategien und High Availability
  • Cost-Optimization: Spot-Instances und Reserved GPUs

API-Integration und Deployment-Patterns

  • OpenAI-kompatible Endpoints nutzen und erweitern
  • Streaming-Responses implementieren
  • Authentifizierung und Rate Limiting
  • Integration in bestehende Anwendungen
  • Multi-Model-Serving-Architekturen

Monitoring, Logging und Troubleshooting

  • Logging-Strategien für Production-Deployments
  • Metriken erfassen: Latency, Throughput, Token-Usage
  • Debugging häufiger Probleme (OOM, CUDA Errors, etc.)
  • Health Checks und Alerting einrichten
  • Kostenüberwachung und -optimierung

Praxis: Produktions-Deployment

  • Workshop: End-to-End-Deployment einer LLM-Anwendung
  • Implementierung einer vollständigen Inference-Pipeline
  • Load-Testing und Performance-Analyse
  • Deployment-Automation mit Scripts
  • Best Practices und Lessons Learned
Teilnahmevoraussetzungen:

Erforderlich:

  • Grundkenntnisse in Python-Programmierung
  • Vertrautheit mit REST APIs und HTTP-Requests
  • Basiswissen über Cloud-Computing-Konzepte
  • Erfahrung mit der Kommandozeile (Terminal/CLI)

Von Vorteil:

  • Grundverständnis von Machine Learning und Large Language Models
  • Erfahrung mit Docker und Containerisierung
  • Kenntnisse in Linux/Ubuntu-Systemadministration
  • Verständnis von GPU-Computing und CUDA
Zielgruppe:
  • AI/ML Engineers und DevOps-Professionals, die KI-Modelle in Produktion bringen möchten
  • Software-Entwickler, die LLM-basierte Anwendungen mit performanten Backend-Lösungen ausstatten wollen
  • Data Scientists, die ihre Modelle professionell deployen und skalieren möchten
  • IT-Verantwortliche und Architekten, die kosteneffiziente Cloud-Infrastrukturen für KI-Workloads planen
  • Unternehmen, die eigene LLM-Infrastrukturen aufbauen und unabhängig von kommerziellen API-Anbietern werden möchten
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha