Seminare
Seminare

Hybrid-Seminar: Data Analysis und Machine Learning in R

Seminar - Essential Data Science Training GmbH

Der 5-tägige Intensivkurs Data Analysis und Machine Learning in R vermittelt in einzeln buchbaren Modulen Grundkenntnisse in R (Modul 1), praktisches Wissen zur deskriptiven Datenanalyse, der statisischen Inferenz und Modellierung in R (Modul 2), sowie Kenntnisse im supervised machine learning (Modul 3). Für die Anwendungsbeispiele und praktische Übungsaufgaben kommt die statistische Software R zum Einsatz.

Ziel: Vermittlung von theoretischen Kenntnissen im Bereich der Datenanalyse, Statistik und Machine Learning sowie technische und praktische Grundlagen in R. Dies soll es den Teilnehmern erleichtern, in ihrem Arbeitsalltag eigene Datenanalysen durchzuführen und Vorhersagemodelle anzupassen und zu verbessern. Zudem werden in den einzelnen Themenblöcken hilfreiche Zusatzpakete in R empfohlen, deren Nutzung oft unnötige Programmierarbeit, zusätzliche Recherchen und Anfängerfehler ersparen können.

Termin Ort Preis*
01.07.2024- 05.07.2024 München 2.975,00 €
*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

Modul 1: R Crashkurs (1-tägig)

In diesem Tag werden Grundkenntnisse der Programmiersprache R vermittelt. Der Fokus liegt dabei auf die technische Einführung in R, das Erlernen der grundlegenden R-Syntax und das Arbeiten mit R zur Datenanalyse. Dieser Kurs ist sowohl für Teilnehmer ohne R Kenntnisse als auch zur Auffrischung der Grundlagen in geeignet. 

Themenschwerpunkte:

  • Arbeiten mit R und R Studio, eine der beliebtesten und mächtigsten graphischen Benutzeroberfläche (GUIs) für R.

  • Installation und Nutzung von Erweiterungspaketen in R.

  • Einführung in Hilfeseiten und Tipps zur Selbsthilfe.

  • Erläuterung der wichtigsten Datentypen, Operatoren (arithmetische und logische Operatoren) und Funktionen in R.

  • Import und Export von Daten (z.B. Dateiformate wie CSV, Excel etc.)

  • Arbeiten mit Dataframes und Vektoren (numeric, logical, character, factors), z.B. das Indizieren, Aufteilen und Umwandeln von Variablen bzw. Datensätzen.

  • Berechnen von einfachen statistischen Kennzahlen in R (z.B.: Median, Mittelwert, Quantile, Varianz, etc.).

Voraussetzungen: keine


Modul 2: Praktische Datenanalyse in R (2-tägig)

Kursteilnehmer sollen mit den wichtigsten Konzepten und Begriffen in Data Science, Statistik und der Datenanalyse vertraut gemacht werden und lernen erste explorative Analysen in verschiedenen Datensituationen durchzuführen. 

Themenschwerpunkte Teil 1: Grundlagen der Statistik und Datenanalyse in R

  • Definition von Data Science und weiterer Grundbegriffe

  • Einführung in ggplot2 zur Visualisierung von Daten

  • Univariate Deskriptive Statistik und Datenvisualisierung in R: Häufigkeitstabellen, Balkendiagramme, Histogramme, Kerndichteschätzung, Boxplots, Dichten und Verteilungen, QQ-Plots, etc.

  • Multivariate Deskriptive Statistik und Datenvisualisierung in R: Kreuztabellen, Scatter-Plots, Korrelation

Themenschwerpunkte Teil 2: Statistische Inferenz und Modellierung in R

  • Einführung in die statistische Inferenz: Punktschätzung, Intervallschätzung und Konfidenzintervalle

  • Statistische Hypothesentests: 

    • Motivation und Übersicht: Einstichproben vs. zweistichproben Test, einseitiger vs. zweiseitiger Test, gepaarter vs. ungepaarter Tests

    • Interpretation der Ergebnisse und Begriffserklärung: Signifikanzniveau, p-Wert, Teststatistik, etc.

    • Behandelte Tests: t-Test, Welch-Test (Test auf Mittelwertunterschiede), Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest,  Shapiro-Wilk-Test (Test auf Normalverteilung), Kolmogoroff-Smirnow-Test (Test auf beliebige Verteilungen)

    • Multiples Testen: Probleme und Lösungsansätze (z.B. Bonferroni Korrektur)

  • Statistische Modellierung:

    • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Einflussgrößen.

    • Modellevaluation und Modelldiagnose: MSE, R-squared, QQ-plots und Residuenanalyse

    • Ausblick: Generalisierte lineare Modelle (engl. generalized linear models) mit Fokus auf logistische Regression

Voraussetzungen: Kenntnisse in R (etwa im Umfang von Modul 1)



Modul 3: Supervised Machine Learning in R (2-tägig)

Kursteilnehmer lernen die wichtigsten Konzepte und Begriffe des maschinellen Lernens und werden inverschiedene Algorithmen des überwachten maschinellen Lernens eingeführt. Zudem werden weitere fortgeschrittene Konzepte für (überwachtes) maschinelles Lernen vermittelt um praktische Probleme besser und effizienter lösen zu können. 


Themenschwerpunkte Teil 1: Einführung in Machine Learning und Predictive Modeling

  • Allgemeine Fragestellungen im maschinellen Lernen (Regression, Klassifikation, Clustering, …)

  • Einführung allgemeiner Begriffe (Verlustfunktion, Risikominimierung, Overfitting, Hyper- und Modelparameter, Training- und Testdaten, …)

  • Lineare und Logistische Regression aus der Perspektive des maschinellen Lernens

  • K-nächste Nachbarn Verfahren

  • Wichtige Evaluationmaße für Regression und Klassifikation und deren Eigenschaften

  • Resampling Methoden (Kreuzvalidierung, Bootstrap, …) und deren Vor- und Nachteile

Themenschwerpunkte Teil 2: Praktisches Machine Learning - Evaluation und Tuning

  • Funktionsweise wichtiger Machine Learning Algorithmen:

    • Regressions- und Klassifikationsbäume

    • Random Forests, ggf. Ausblick auf (Gradienten) Boosting 

  • Hyperparameter Optimierung (Zufallssuche und Gittersuche)

  • Genestete Kreuzvalidierung zur optimalen Modellwahl

  • Fallstricke und praxisrelevante Tipps bei der Modell-Evaluation und Modellwahl

Voraussetzungen: Kenntnisse in R und in der Datenanalyse / Statistik (etwa im Umfang von Modul 1 und 2)

Technische Voraussetzungen:

Allgemeine Kursinformationen:

Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha