Seminare
Seminare

PySpark - Big Data Analytics mit Apache Spark und Python

Seminar - Cegos Integrata GmbH

Die Analyse und Verarbeitung großer Datenmengen ist heute ein entscheidender Erfolgsfaktor für datengetriebene Unternehmen. In diesem praxisorientierten Seminar lernen Sie, wie Sie mit Apache Spark und Python (PySpark) effizient Big Data analysieren und aufbereiten. Sie erhalten eine fundierte Einführung in die Grundlagen verteilter Datenverarbeitung, arbeiten mit realitätsnahen Beispielen und wenden moderne Methoden der Datenintegration, Transformation und Aggregation direkt an. Auch die Anwendungsmöglichkeiten von Machine Learning mit PySpark werden thematisiert.

Nach dem Seminar sind Sie in der Lage, große Datenmengen eigenständig zu laden, zu transformieren und gezielt auszuwerten. Sie kennen die Einsatzmöglichkeiten von PySpark im Kontext von Data Science und können fundierte Entscheidungen zur Datenverarbeitung in Big Data Projekten treffen.

 

Termin Ort Preis*
26.03.2026- 27.03.2026 online 1.547,00 €
28.05.2026- 29.05.2026 online 1.547,00 €
16.07.2026- 17.07.2026 online 1.547,00 €
21.09.2026- 22.09.2026 Frankfurt am Main 1.547,00 €
21.09.2026- 22.09.2026 online 1.547,00 €
16.11.2026- 17.11.2026 online 1.547,00 €
firmenintern auf Anfrage auf Anfrage

Alle Termine anzeigen

*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

Einführung in Apache Spark Grundlagen:

  • Verortung und Kontext des Frameworks (Vergleich mit Pyspark, Hadoop und Kubernetes)
  • Grundlegende Prinzipien der verteilten Datenverarbeitung durch Apache Spark

Erste Schritte in der PySpark-Welt:

  • Essenzielle DataFrames-Grundlagen
  • Einbindung von JSON- und CSV-Daten
  • Einfache Datentransformationen (Projektionen, Filterung, grundlegende Funktionen...)

Weitere Datentransformationen erkunden:

  • Gruppierte Aggregationen verstehen
  • Sortierung von Daten
  • Joins von Datensätzen

UDF - User Defined Functions verwenden:

  • Effiziente Nutzung von Pandas UDFs in PySpark
  • Einsatzbereiche von UDFs

Datenhaltung und Speicherung:

  • Überblick über kompatible Dateiformate

Grundlagen des Maschinellen Lernens:

  • Modelltraining und -entwicklung
  • Einführung in Regressionsmodelle
  • Verwendung von Trainings- und Validierungsdaten
  • Bewertungsmetriken für Modellleistungen
  • Praktische Übung mit dem Datensatz des NYC Taxis

Vorbereitung der Daten:

  • Formatumwandlungen für beschleunigte Verarbeitung
  • Integration diverser Datenquellen

Datenexploration:

  • Anfängliche einfache Datenanalysen und -visualisierungen
  • Datenreduktion durch Aggregation

Modelltraining:

  • Maschinelles Lernen mit PySpark umsetzen

Verfeinerung des Modells:

  • Bewertung des Modells mittels geeigneter Metriken
  • Optimierung durch Integration neuer Eigenschaften
  • Austausch von Ideen zur weiteren Verbesserung
  •  
Dauer/zeitlicher Ablauf:
2 Tage
Teilnahmevoraussetzungen:
  • Grundlegende Kenntnisse in Programmierung und SQL sind erforderlich.
  • Erfahrungen in anderen Programmiersprachen sind von Vorteil, da sie den Einstieg in Python erleichtern.
  • Englischkenntnisse, insbesondere im Verständnis von englischen Texten, sind hilfreich, da viele Dokumentationen und Kursmaterialien auf Englisch verfügbar sind.
Lehrgangsverlauf/Methoden:
Dieses Big Data Seminar legt einen großen Fokus auf praktische Anwendungen. Die Konzepte werden während der Schulung anhand von Folien erklärt und durch Beispiele veranschaulicht. In den Übungseinheiten haben die Teilnehmer:innen die Möglichkeit, das Gelernte mithilfe der Programmiersprache Python in der Cloud mit Jupyter Notebooks umzusetzen. Die Trainer:innen stehen den Teilnehmenden bei verschiedenen Aufgaben zur Seite und begleiten sie bei Fragen.
Zielgruppe:
  • Data Scientists und Data Analysts, die sich mit der Verarbeitung und Analyse großer Datenmengen mithilfe von Python und Apache Spark (PySpark) beschäftigen möchten.
Seminarkennung:
54450
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha