Seminare
Seminare

Einführung in Databricks

Seminar - GFU Cyrus AG

Das Seminarziel besteht darin, den Teilnehmenden umfassende Kenntnisse und praktische Fähigkeiten zu vermitteln, um Databricks effizient für Datenintegration, Datenanalyse und Machine Learning zu nutzen. Sie sollen die Architektur und Konfiguration der Plattform verstehen, Datenquellen anbinden und ETL-Pipelines mit Apache Spark erstellen können. 

Darüber hinaus sollen sie in der Lage sein, SQL-Abfragen auszuführen, Dashboards zu erstellen, Machine Learning-Workflows zu entwickeln und Modelle zu trainieren sowie bereitzustellen. Ziel ist es, dass die Teilnehmenden Databricks sicher und effizient für skalierbare Datenanalysen und fortgeschrittene maschinelle Lernprojekte einsetzen können.
Termin Ort Preis*
27.10.2025- 28.10.2025 Köln 1.630,30 €
27.10.2025- 28.10.2025 online 1.630,30 €
26.01.2026- 27.01.2026 online 1.630,30 €
26.01.2026- 27.01.2026 Köln 1.630,30 €

Alle Termine anzeigen

*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:
  • Einführung in Databricks
    • Überblick und Architektur
      : Verständnis der Databricks-Plattform, ihrer Architektur und ihrer Hauptkomponenten.
    • Anwendungsbereiche
      : Gängige Anwendungsfälle wie Datenintegration, ETL-Prozesse und Machine Learning.

  • Einrichtung und Konfiguration
    • Installations- und Einrichtungsschritte
      : Installation und Konfiguration von Databricks-Workspaces und Clustern.
    • Cloud-Integration
      : Anbindung an Cloud-Plattformen wie AWS und Azure, einschließlich Zugangskontrollen und Netzwerksicherheit.

  • Datenintegration und ETL
    • Datenquellen anbinden
      : Verbindungen zu Datenbanken, Data Lakes, APIs und Cloud-Speichern einrichten.
    • ETL-Prozesse entwickeln
      : Erstellung von ETL-Pipelines mit Apache Spark und PySpark in Databricks-Notebooks.

  • Datenaufbereitung und -verwaltung
    • Datenaufbereitung
      : Bereinigung, Transformation und Aggregation von Daten in Notebooks.
    • Datenkataloge und -verwaltung
      : Verwendung von Delta Lake, um Datenqualitätsprobleme zu lösen und Versionierung zu ermöglichen.

  • SQL-Analysen und Dashboards
    • SQL-Analyse
      : Ausführen von SQL-Abfragen auf großen Datensätzen mit Databricks SQL.
    • Visualisierungen und Dashboards
      : Erstellung von Datenvisualisierungen und Dashboards zur Echtzeitüberwachung.

  • Fortgeschrittene Datenanalysen
    • Streaming-Analysen
      : Einrichtung von Echtzeitdaten-Pipelines mit Structured Streaming in Apache Spark.
    • Batch-Analysen
      : Optimierte Batch-Verarbeitung großer Datensätze für verschiedene Anwendungsfälle.

  • Machine Learning-Grundlagen
    • ML-Workflows
      : Entwicklung von Machine Learning-Workflows mit Databricks MLflow.
    • Feature Engineering
      : Erstellung von Features und Datenaufbereitung für Machine Learning-Modelle.

  • Modelltraining und -bereitstellung
    • Training von Modellen
      : Nutzung von MLlib, scikit-learn oder TensorFlow zum Training von Modellen in Databricks.
    • Modellbereitstellung
      : Bereitstellung und Überwachung von Machine Learning-Modellen in der Produktion.

  • Sicherheit und Zugriffskontrollen
    • Benutzerrollen und Berechtigungen
      : Einrichtung von Benutzerrollen, Zugriffsrechten und Auditlogs.
    • Datenverschlüsselung
      : Implementierung von Verschlüsselungsrichtlinien zur Sicherung sensibler Daten.

  • Best Practices und Skalierbarkeit
    • Optimierung der Leistung
      : Performance-Tuning von Clustern und Pipelines für höhere Effizienz.
    • Skalierbarkeit
      : Strategien zur Skalierung von Datenanalysen, ETL-Prozessen und Machine Learning-Workflows.








Dauer/zeitlicher Ablauf:
2 Tage
Zielgruppe:
An dem Seminar sollten Dateningenieure, Datenanalysten, IT-Architekten und Entwickler teilnehmen, die sich mit Datenintegration, ETL-Prozessen, Datenanalyse oder Machine Learning befassen. Grundlegende Kenntnisse in SQL und Programmiersprachen wie Python oder Scala sind hilfreich, ebenso ein Verständnis von Datenbanken, Cloud-Technologien und Datenanalyse.
Seminarkennung:
90658
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha