Seminare
Seminare

PySpark - Big Data Analytics mit Apache Spark und Python

Seminar - Cegos Integrata GmbH

Dieser praxisorientierte Kurs behandelt die Verarbeitung von großen Datenmengen mit Apache Spark und Python. Es werden grundlegende Konzepte von PySpark erläutert und die Integration des Python Datenanalyse Moduls Pandas in PySpark behandelt. Darüber hinaus werden die Möglichkeiten der Anwendung von Machine Learning in PySpark vorgestellt. Der Kurs bietet einen Überblick über die Analyse großer Datenmengen, Hadoop und Kubernetes, sowie die Verwendung von Spark als Datenverarbeitungsframework. Es werden auch Themen wie das Einladen von Daten, Datenaufbereitung (Transformation, Filtern, Joinen, Aggregation), Ausführungsmodelle von Apache Spark und Datenorganisation in Big Data Projekten behandelt. Insgesamt bietet dieser Kurs eine umfassende Einführung in die Verarbeitung großer Datenmengen mit Apache Spark und Python.

Der Kurs ist in drei thematische Bereiche unterteilt, um die Teilnehmer schrittweise an Apache Spark heranzuführen.

Im ersten Teil wird ein knapper Überblick über aktuelle Technologien zur Speicherung und Verarbeitung großer Datenmengen (Hadoop und Kubernetes) gegeben und die Rolle von Spark als wichtiges Datenverarbeitungsframework erläutert.

Der zweite Teil beinhaltet eine ausführliche Einführung in die Arbeit mit Apache Spark mit Python (PySpark). Dabei werden alle wichtigen Punkte behandelt, wie das Laden von Daten, die Datenaufbereitung (Transformation, Filtern, Joinen, Aggregation), die Anbindung verschiedener Datenquellen, di...

Termin Ort Preis*
firmenintern auf Anfrage auf Anfrage
*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

Einführung in Apache Spark Grundlagen:

  • Verortung und Kontext des Frameworks (Vergleich mit Pyspark, Hadoop und Kubernetes)
  • Grundlegende Prinzipien der verteilten Datenverarbeitung durch Apache Spark

Erste Schritte in der PySpark-Welt:

  • Essenzielle DataFrames-Grundlagen
  • Einbindung von JSON- und CSV-Daten
  • Einfache Datentransformationen (Projektionen, Filterung, grundlegende Funktionen...)

Weitere Datentransformationen erkunden:

  • Gruppierte Aggregationen verstehen
  • Sortierung von Daten
  • Joins von Datensätzen

UDF - User Defined Functions verwenden:

  • Effiziente Nutzung von Pandas UDFs in PySpark
  • Einsatzbereiche von UDFs

Datenhaltung und Speicherung:

  • Überblick über kompatible Dateiformate

Grundlagen des Maschinellen Lernens:

  • Modelltraining und -entwicklung
  • Einführung in Regressionsmodelle
  • Verwendung von Trainings- und Validierungsdaten
  • Bewertungsmetriken für Modellleistungen
  • Praktische Übung mit dem Datensatz des NYC Taxis

Vorbereitung der Daten:

  • Formatumwandlungen für beschleunigte Verarbeitung
  • Integration diverser Datenquellen

Datenexploration:

  • Anfängliche einfache Datenanalysen und -visualisierungen
  • Datenreduktion durch Aggregation

Modelltraining:

  • Maschinelles Lernen mit PySpark umsetzen

Verfeinerung des Modells:

  • Bewertung des Modells mittels geeigneter Metriken
  • Optimierung durch Integration neuer Eigenschaften
  • Austausch von Ideen zur weiteren Verbesserung
  •  
Dauer/zeitlicher Ablauf:
2 Tage
Teilnahmevoraussetzungen:
Die Teilnehmer sollten über grundlegende Kenntnisse in Programmierung und SQL verfügen. Alle Programmierbeispiele für Apache Spark werden in Python durchgeführt. Es hat sich gezeigt, dass Teilnehmer, die Kenntnisse in anderen Programmiersprachen haben, sich schnell in Python zurechtfinden können.

Englischkenntnisse, insbesondere das Verständnis von englischen Texten, sind sehr hilfreich, da Python und die Internet-Dokumentationen auf Englisch verfügbar sind. Aus diesem Grund sind auch die Folien im Kurs auf Englisch gehalten. Die Schulung selbst wird jedoch auf Deutsch abgehalten.
Lehrgangsverlauf/Methoden:
Dieses Big Data Seminar legt einen großen Fokus auf praktische Anwendungen. Die Konzepte werden während der Schulung anhand von Folien erklärt und durch Beispiele veranschaulicht. In den Übungseinheiten haben die Teilnehmer die Möglichkeit, das Gelernte mithilfe der Programmiersprache Python in der Cloud mit Jupyter Notebooks umzusetzen. Der Trainer steht den Teilnehmern bei verschiedenen Aufgaben zur Seite und begleitet sie bei Fragen.
Zielgruppe:
Der Kurs wendet sich primär an Data Scientists und Data Analysts, die mit Hilfe von Python und Apache Spark (PySpark) große Datenmengen verarbeiten und analysieren möchten.
Seminarkennung:
54450
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha