Das Seminarziel besteht darin, den Teilnehmenden umfassende Kenntnisse und praktische Fähigkeiten zu vermitteln, um Databricks effizient für Datenintegration, Datenanalyse und Machine Learning zu nutzen. Sie sollen die Architektur und Konfiguration der Plattform verstehen, Datenquellen anbinden und ETL-Pipelines mit Apache Spark erstellen können.
Darüber hinaus sollen sie in der Lage sein, SQL-Abfragen auszuführen, Dashboards zu erstellen, Machine Learning-Workflows zu entwickeln und Modelle zu trainieren sowie bereitzustellen. Ziel ist es, dass die Teilnehmenden Databricks sicher und effizient für skalierbare Datenanalysen und fortgeschrittene maschinelle Lernprojekte einsetzen können.
Überblick und Architektur : Verständnis der Databricks-Plattform, ihrer Architektur und ihrer Hauptkomponenten.
Anwendungsbereiche : Gängige Anwendungsfälle wie Datenintegration, ETL-Prozesse und Machine Learning.
Einrichtung und Konfiguration
Installations- und Einrichtungsschritte : Installation und Konfiguration von Databricks-Workspaces und Clustern.
Cloud-Integration : Anbindung an Cloud-Plattformen wie AWS und Azure, einschließlich Zugangskontrollen und Netzwerksicherheit.
Datenintegration und ETL
Datenquellen anbinden : Verbindungen zu Datenbanken, Data Lakes, APIs und Cloud-Speichern einrichten.
ETL-Prozesse entwickeln : Erstellung von ETL-Pipelines mit Apache Spark und PySpark in Databricks-Notebooks.
Datenaufbereitung und -verwaltung
Datenaufbereitung : Bereinigung, Transformation und Aggregation von Daten in Notebooks.
Datenkataloge und -verwaltung : Verwendung von Delta Lake, um Datenqualitätsprobleme zu lösen und Versionierung zu ermöglichen.
SQL-Analysen und Dashboards
SQL-Analyse : Ausführen von SQL-Abfragen auf großen Datensätzen mit Databricks SQL.
Visualisierungen und Dashboards : Erstellung von Datenvisualisierungen und Dashboards zur Echtzeitüberwachung.
Fortgeschrittene Datenanalysen
Streaming-Analysen : Einrichtung von Echtzeitdaten-Pipelines mit Structured Streaming in Apache Spark.
Batch-Analysen : Optimierte Batch-Verarbeitung großer Datensätze für verschiedene Anwendungsfälle.
Machine Learning-Grundlagen
ML-Workflows : Entwicklung von Machine Learning-Workflows mit Databricks MLflow.
Feature Engineering : Erstellung von Features und Datenaufbereitung für Machine Learning-Modelle.
Modelltraining und -bereitstellung
Training von Modellen : Nutzung von MLlib, scikit-learn oder TensorFlow zum Training von Modellen in Databricks.
Modellbereitstellung : Bereitstellung und Überwachung von Machine Learning-Modellen in der Produktion.
Sicherheit und Zugriffskontrollen
Benutzerrollen und Berechtigungen : Einrichtung von Benutzerrollen, Zugriffsrechten und Auditlogs.
Datenverschlüsselung : Implementierung von Verschlüsselungsrichtlinien zur Sicherung sensibler Daten.
Best Practices und Skalierbarkeit
Optimierung der Leistung : Performance-Tuning von Clustern und Pipelines für höhere Effizienz.
Skalierbarkeit : Strategien zur Skalierung von Datenanalysen, ETL-Prozessen und Machine Learning-Workflows.
Dauer/zeitlicher Ablauf:
2 Tage
Zielgruppe:
An dem Seminar sollten Dateningenieure, Datenanalysten, IT-Architekten und Entwickler teilnehmen, die sich mit Datenintegration, ETL-Prozessen, Datenanalyse oder Machine Learning befassen. Grundlegende Kenntnisse in SQL und Programmiersprachen wie Python oder Scala sind hilfreich, ebenso ein Verständnis von Datenbanken, Cloud-Technologien und Datenanalyse.
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern.
Diese Cookies werden nicht automatisiert gesetzt.
Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren.
Weitere Informationen finden Sie hier.