Seminare
Seminare

PySpark Einführung

Webinar - GFU Cyrus AG

Die Teilnehmer entwickeln ein umfassendes Verständnis der PySpark-Architektur und Einsatzmöglichkeiten. Sie lernen die verschiedenen Komponenten kennen und können deren Nutzen für ihre spezifischen Datenverarbeitungsanforderungen einschätzen. Das Seminar vermittelt zudem Best Practices für die Planung von PySpark-Projekten.
Termin Ort Preis*
18.11.2025- 19.11.2025 online 1.630,30 €
19.02.2026- 20.02.2026 online 1.630,30 €
19.02.2026- 20.02.2026 Köln 1.630,30 €
26.11.2026- 27.11.2026 online 1.630,30 €

Alle Termine anzeigen

*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:
  • Grundlagen von PySpark
    • Einführung  in die Architektur von Apache Spark und die Rolle von PySpark:  Überblick der Komponenten (Spark Core, SQL, Streaming, MLlib) und deren  Integration mit Python. Vergleich mit anderen Big-Data-Technologien wie Pandas und Dask.
    • Entwicklungsumgebungen  für PySpark: Jupyter Notebooks, Zeppelin und IDEs (PyCharm, VS Code)  mit PySpark-Integration. Besonderheiten bei der lokalen Entwicklung und  Cluster-Umgebungen.
    • Lizenzierung  und Kosten: Open-Source-Aspekte von Spark, kommerzielle Distributionen  (Databricks, Cloudera) und Cloud-Anbieter-Integration (AWS EMR, Azure  Databricks).

  • Datenverarbeitung mit DataFrames
    • DataFrame-Konzept:  Vergleich mit Pandas DataFrames und relationalen Datenbanktabellen.  Vor- und Nachteile der verteilten Verarbeitung.
    • Datenimport/Export:  Arbeiten mit verschiedenen Datenquellen (CSV, JSON, Parquet, JDBC) in  PySpark. Performance-Optimierungen bei großen Datensätzen.
    • Grundlegende  Transformationen: Filterung, Aggregation, Joins und Fensterfunktionen  in PySpark. Unterschiede zu SQL-Implementierungen.

  • Spark-SQL Integration
    • SQL-Syntax  in PySpark: Nutzung von Spark-SQL für Data Scientists mit  SQL-Hintergrund. Abfragen auf registrierten Tabellen und temporären  Views.
    • UDFs (User Defined Functions): Erstellung und Nutzung von Python-Funktionen in Spark-SQL. Performance-Aspekte und Alternativen.
    • Katalogzugriff: Metadatenmanagement und Schema-Integration zwischen PySpark und Hive Metastore.

  • Performance-Optimierung
    • Ausführungsmodell verstehen: Spark-Execution-Pläne interpretieren und optimieren. Rolle der Catalyst-Optimierung.
    • Partitionierungsstrategien: Best Practices für physische Datenverteilung. Auswirkung auf Join- und Aggregationsoperationen.
    • Caching-Persistenz: Strategien für die Zwischenspeicherung von häufig genutzten DataFrames. Speicherlevel und Trade-Offs.

  • Datenvisualisierung
    • Integration mit Python-Visualisierungsbibliotheken: Nutzung von Matplotlib, Seaborn und Plotly mit PySpark-DataFrames.
    • Einschränkungen und Workarounds: Umgang mit Visualisierungen bei großen Datensätzen (Sampling, Aggregation).
    • Dashboard-Integration: Exportmöglichkeiten für BI-Tools (Tableau, Power BI) und Webanwendungen.

  • Machine Learning mit PySpark MLlib
    • Pipeline-Konzept: Aufbau von ML-Workflows mit PySpark. Vergleich mit scikit-learn.
    • Feature-Engineering: Nutzung der integrierten Transformationen für Datenvorbereitung.
    • Modelltraining und -evaluation: Implementierung und Bewertung von Algorithmen für Klassifikation, Regression und Clustering.

  • Streaming-Datenverarbeitung
    • Strukturiertes Streaming: Grundkonzepte der Echtzeitdatenverarbeitung mit PySpark. Vergleich mit Batch-Verarbeitung.
    • Quellen und Senken: Integration mit Kafka, Dateisystemen und Datenbanken.
    • Event-Time-Verarbeitung: Umgang mit verzögerten Daten und Fensteroperationen.

  • Praxisübung: End-to-End-Datenpipeline
    • Teilnehmer  implementieren eine komplette Datenverarbeitungspipeline von der  Datenextraktion über Transformationen bis zur Analyse und  Visualisierung.




Dauer/zeitlicher Ablauf:
2 Tage
Zielgruppe:
Data Engineers, Data Scientists und Python-Entwickler mit Grundkenntnissen in Datenanalyse.
Seminarkennung:
R91032
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha