Detaillierte Informationen zum Seminar
Inhalte:
Machine Learning in Python mit scikit-learn
Dieser Kurs führt in das Thema Machine Learning ein und erläutert, wie Sie supervised und unsupervised Machine Learning Algorithmen mit dem Python Modul scikit-learn programmieren und trainieren können.
Zu Supervised Learning (überwachtes Lernen) werden die Algorithmen gezählt, die mit gelabelten Daten trainiert werden, wie z.B. Klassifikation. Unsupervised Learning (unüberwachtes Lernen) dagegen verwendet ungelabelte Daten. Dort wird z.B. versucht Gruppen oder Muster in den Daten zu erkennen.
Behandelte Themen in dieser Schulung:
* Grundlegendes über Maschinelles Lernen
* Lineare Regression (mit scikit-learn)
* Logistische Regression (mit StatsModels)
* Entscheidungsbaum (mit scikit-learn)
* Ensemble Methods (+ AdaBoost)
* Weitere Machine Learning Algorithmen: K-Nearest Neighbor, Einfaches neuronales Netz
* Hyperparameter Tuning und Kreuzvalidierung
* Algorithmen zum Clustering (K-means Clustering und DBScan)
Ziele/Bildungsabschluss:
Hauptsächlich wird das Python Modul sciki-learn verwendet um die Algorithmen umzusetzen. Für die logistische Regression wird das Modul StatsModels verwendet. Damit erhalten Sie einen Einblick in ein zusätzliches Machine Learning Python Packet. Der Schwerpunkt des Kurses bilden die Algorithmen des supervised Learnings. Diese werden zuerst theoretisch erklärt und dann in Python umgesetzt: Regression (lineare, logistische), Decision Tree (Entscheidungsbaum), Ensemble Methods (AdaBoost, Random Forest), Neuronale Netze (MLP=Multi-Layer Perceptron) und K-Nearest Neighbors. Es werden gängige Methoden erklärt um das Overfitting zu erkennen (Aufteilen der Daten in Trainings- und Validierungs Daten, Kreuzvalidierung (Cross Validation)). Im Bereich des unsupervised Learnings werden die beiden Clustering Algorithmen K-Means und DBScan erläutert. Am Ende des Seminars verstehen Sie wie man in scikit-learn Modelle trainiert und können eigenständig andere Machine Learning Modelle ausprobieren.
Teilnahmevoraussetzungen:
Es wird grundlegende Programmiererfahrung in Python und Erfahrung in der Arbeit mit Daten vorausgesetzt. Wenn Sie die Inhalte des Kurses Data Science in Python beherrschen, sind Sie gut für dieses Seminar vorbereitet. Insbesondere wichtig sind: pandas Data.Frames (das Einlesen von Daten, fehlende Werte ergänzen), Python Module installieren und laden, grundlegende Python Datenstrukturen (dictionary, tuple, list) und das Schreiben eigener Funktionen. Kenntnisse in der einfachen Statistik (wie z.B. Standardabweichung, Median, Mittelwert) sind sehr empfehlenswert.
Förderung:
Bildungscheck NRW
Zielgruppe:
Zielgruppe dieser Schulung sind data scientists, Datenanalysten, angehende Machine Learning engineers, welche Grundkenntnisse in der Programmiersprache Python besitzen und sich im Bereich Data Mining / Data Science und Machine Learning vertiefen möchten.
Seminarkennung:
9