Detaillierte Informationen zum Seminar
Inhalte:
Das dreitägige Seminar schafft einen kompakten Einstieg in die Data Science- und Programmiersprache Python. Sie sind anschließend in der Lage, Python selbstständig für einfache Datenanalysen im Unternehmen zu nutzen. Das Seminar umfasst hierbei eine Einführung in die Datenstruktur DataFrame vom Paket pandas (effizient Daten anpassen und verändern), Daten aus flat files (csv) oder einer Datenbank (SQLite) einlesen bzw. schreiben, Visualisierung mit matplotlib, Grundlagen von numpy, erste eigene Funktionen schreiben und enthält einen Einstieg in Machine Learning mit den Algorithmen Lineare Regression und Entscheidungsbaum. Konkrete Inhalte sind:
- Grundlagen von Python
- Einführung in das Data Science Paket pandas und dem DataFrame
- Daten aus flat files oder Datenbanken einlesen und schreiben
- Daten anpassen, konvertieren, modellieren
- Visualisierung von Daten
- Erste Algorithmen aus dem Machine Learning
Dieses Seminar ist sehr praxisorientiert. Die Teilnehmer arbeiten direkt und selbstständig mit der Programmiersprache Python in der Entwicklungsumgebung Spyder, so dass das Erlernte direkt geübt und vertieft werden kann. Der Trainer moderiert dabei verschiedene Aufgaben und begleitet die Teilnehmer durch die einzelnen Lehreinheiten.
Dauer/zeitlicher Ablauf:
3 Tage
Ziele/Bildungsabschluss:
Sie erhalten eine umfassende Einführung in die wichtigsten Grundlagen der Programmiersprache Python: anhand eines durchgehenden Fallbeispiels erlernen Sie, wie Daten eingelesen, verarbeitet, aufbereitet und schließlich visualisiert werden.
Das Seminar führt in die bekannte Bibliothek pandas ein, welche bei data scientists für die Datenanalyse sehr beliebt ist.
Sie erhalten theoretische Einblicke in die verwendete Machine Learning Algorithmik, welche in Python umgesetzt werden, um Ergebnisse aus Data Science-Analysen auswerten zu können.
Sie sind anschließend in der Lage, Grundlagen von Python selbstständig für unternehmenseigene Zwecke zu nutzen, können Ihre eigenen ersten Datenanalysen durchführen und wissen, wie Sie weitergehende Algorithmen und Methoden in Python finden.
Teilnahmevoraussetzungen:
Notwendig sind erste Erfahrungen mit Programmiersprachen (z.B. VBA, Java, C, R, etc.), um das Konzept einer Programmiersprache zu verstehen (Konzept einer Variable in einer Programmiersprache, Zuweisung von Werten zu einer Variablen, Aufrufen von Funktionen, Parameter einer Funktion).
Sehr hilfreich sind grundlegende Vorkenntnisse im Bereich der Statistik (Begriffsdefinitionen wie bspw. Mittelwert, Median, Standard-abweichung, Quantil, Dichtefunktion, Normalverteilung), Kenntnisse grundlegender mathematischer Symbole und Begriff (Summenzeichen, Integral, Funktion, Ableitung, Menge der natürlichen und reellen Zahlen, Vektor, Matrix) und Kenntnis der booleschen Algebra mit den logischen Operatoren (UND, ODER, NICHT).
Technische Voraussetzungen:
Lehrgangsverlauf/Methoden:
Tag 1
- Vorstellungsrunde & Erwartungshaltung der Teilnehmer
- Hintergrund von Python
- Anwendungsmöglichkeiten von Python
- Installieren von Paketen
- Die Entwicklungsumgebung Spyder
- Aspekte von Python, welche von anderen Programmiersprachen abweichen
- Datenstrukturen in Python
- Einführung in die grundlegenden Datenstrukturen (int, float, NaN)e
- Der Wert NaN (not a number) und Besonderheiten
- Funktionen vs. Methoden
- Datenstrukturen in Python (number, tuple, list, dictionary, string)
- list vs. tuple
- Wann benutze ich welche Klammer [], (), {}?
- Einführung in das Data Science Paket pandas
- Elemente eines pandas data.frame
- Eine Zeile oder Spalte auswählen, hinzufügen und verändern
- Boolean indexing
- Ein leeres data.frame erstellen
- Grundlegende Statistiken mit pandas
- Statistiken mit einem data.frame berechnen (Anzahl an Beobachtungen, Summe, Mittelwert, Median, Minimum, Maximum, Varianz,…)
- Methoden im data.frame, um einen Überblick der Daten zu erhalten
- Kreuztabelle (Kontingenztafel)
- Auswertungen nach einer Variable gruppieren
- Fehlende Werte löschen oder ergänzen
Tag 2
- Visualisierung mit matplotlib und pandas
- Die Hauptelemente beim Plotten
- Einen Plot anpassen (x- und y-Achse ändern, Beschriftungen, Legende und Titel) und speichern
- Auswahl von Farben
- Subplots in einer Grafik erstellen
- Erstellen von Scatterplot, Linienplot, Barplot, (gruppiertes) Histogram, Boxplot
- Control Flows
- Die range() Funktion
- Eine eigene Funktion schreiben und default Parameter setzen
- For Schleifen, If-Else Bedingungen
- List comprehension
- Logische Vergleichsoperatoren
- Daten einlesen
- Das Arbeitsverzeichnis setzen
- Eine CSV Datei einlesen / schreiben
- Überblick über nützliche Parameter beim Lesen und Schreiben
- Große Dateien mit dem Paket pandas einlesen
- Das pickle modul zum Speichern von Python Objekten
- Daten aus Datenbanken einlesen
- Eine Verbindung zu einer Datenbank aus Python herstellen
- Eine Tabelle aus der Datenbank abfragen bzw. hinzufügen
- Eine bestehende Tabelle in der Datenbank erweitern
- SQL Abfragen über Python
Tag 3
- Lineare Regression
- Einführung in den Algorithmus
- Ein lineares Regressionsmodel in Python umsetzen
- Erste Ergebnisse validieren
- Entscheidungsbaum
- Einführung in den Algorithmus
- Einen Entscheidungsbaum in Python umsetzen
- Erste Ergebnisse validieren
- Grundlagen in Numpy
- Attribute eines arrays (Dimension, shape, Größe)
- Arrays zusammenfügen und teilen
- Statistische Funktionen in numpy
- Data Preprocessing
- Daten normalisieren
- Kategorisches Enkodieren von Variablen
- One-Hot Encoding
Förderung:
Die Bitkom Akademie ist anerkannter Bildungsträger in
Baden-Württemberg und
Nordrhein-Westfalen. Teilnehmer haben im Rahmen des Bildungszeitgesetzes die Möglichkeit, Bildungsurlaub bzw. eine Bildungsfreistellung zu beantragen. Auf Anfrage erstellen wir auch Anträge auf Anerkennung unserer Veranstaltungen in anderen Bundesländern.
Zielgruppe:
Das Seminar richtet sich an angehende Data Scientists, Datenanalysten und an der Programmierung in Python interessierte Fachkräfte bzw. Projektleiter, welche noch keine oder wenig Erfahrung mit Python haben und die Grundlagen der Programmiersprache Python für Data Science-Projekte erlernen möchten, um damit eigenständig an data mining Projekten mitzuwirken oder Python Code besser verstehen zu können.