Seminare

Data Mining mit R

Seminar - DHL Data Science Seminare GmbH

Das Training führt in die im Data Mining eingesetzten Verfahren und deren Programmierung mit R ein. Aufbauend auf erste Erfahrungen mit R lernen die Seminarteilnehmer im eintägigen Vortraining die Anwendung des R-Pakets data.table. Das zweitägige Haupttraining vermittelt das theoretische Verständnis und die praktische Anwendung für wichtige der im Data Mining eingesetzten Verfahren. Für die Visualisierung der Ergebnisse werden die Grundlagen des graphischen R-Pakets ggplot2 vermittelt.
Termin Ort Preis*
09.12.2019- 11.12.2019 Stuttgart 1.844,50 €
*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

Unter Data Mining wird die spezialisierte Anwendung bekannter statistischer Verfahren auf große Datenbestände zur automatischen Generierung von Erkenntnissen über bestehende Datenbestände verstanden. Die im Datamining eingesetzten multivariaten Verfahren werden in Ihrer Analyse-Geschwindigkeit zu Ungunsten der Analyse-Genauigkeit angepasst. Die hierbei verwendeten Methoden (Ausreißererkennung, Clusteranalyse, Klassifikation, Assoziationsanalyse, Regressionsanalyse) finden vielfach auch Anwendung im Bereich des maschinellen Lernens. In Abgrenzung zum maschinellen Lernen geht es beim Data Mining jedoch um das Auffinden neuer Muster in bestehenden Datenbeständen, während es beim maschinellen Lernen eher darum geht, bekannte Muster in neuen Datenbeständen zu finden. Die Inhalte dieses Seminars werden mit der statistischen Programmiersprache R vermittelt, die als eine der de-facto data science Programmiersprachen bereits mehr als zwei Millionen Nutzer mit wachsender Tendenz hat. Aus diesem Grund bieten die meisten Anbieter von Software für data science Schnittstellen zu R an.

Das eintägige Vor(bereitungs)-Training Data Mining mit R führt in die Anwendung des R-Pakets data.table ein. Die mit diesem R-Paket erzeugten data.table entsprechen weitestgehend den in R üblichen Datensätzen eines data.frame, können jedoch größere Datenmengen aufnehmen, sind wesentlich performanter, verkürzen die Rechenzeiten und lassen sich schneller programmieren. Das zweitägige Haupttraining Data Mining mit R vermittelt das theoretische Verständnis und die praktische Anwendung für wichtige der im Data Mining eingesetzten Verfahren. Für die Visualisierung der Ergebnisse werden die Grundlagen des graphischen R-Pakets ggplot2 vermittelt.

Inhalte:

  • Grundkenntnisse für Data Mining mit R
    • Hintergrund zu R und RStudio
    • Pakete installieren und laden
    • Datenstrukturen in R
    • Hilfe und weiterführende Informationen finden
    • Wie unterscheidet sich R von anderen Programmiersprachen
  • Das data mining Paket data.table
    • Struktur und Besonderheiten von data.table im Vergleich zum data.frame
    • Ähnlichkeit eines data.tables zu SQL Abfragen
    • Daten nach Zeilen und Spaltennamen abfragen
    • Berechnungen direkt auf Spalten durchführen
    • Abfragen gruppieren
  • Daten einlesen und konvertieren
    • Das Arbeitsverzeichnis zum Einlesen von Daten setzen
    • Daten aus verschiedenen Quellen einlesen (Websiten, txt, csv)
    • Daten aus fremden Quellen einlesen (SPSS)
    • fread(), um effizient große Datenmengen einzulesen
    • Daten als .RData speichern und laden
    • Abfragen aus einer Datenbank (SQLite)
  • Data handling (data.table)
    • Eine Spalte erzeugen, löschen, ändern
    • Zwischen Datentypen konvertieren
    • lapply() und die Anwendung in einem data.table (mit .SD und .SDcols)
  • Visualisierung von Daten mit dem Paket ggplot2
    • Grammar of Graphics und die grundlegende Idee dahinter
    • Scatterplot, Linienplot
    • Histogramm
    • Kerndichteschätzer
    • Barplot
    • Speichern von Grafiken
    • Darstellung (Größe der Datenpunkte, Farbe, Gruppierung) variable oder fest ändern
    • Subplots erzeugen (Facetting)
  • Grundlegende Statistiken
    • Deskriptive Statistiken
    • Korrelationen (Spearman, Pearson)
    • Zufallszahlen aus verschiedenen Verteilungen erzeugen
  • Fortgeschrittene Wege, ein data.table zu benutzen
    • Der := Operator in data.table zum Umformen von Daten
    • Eine Funktion auf eine Gruppe von Daten anwenden
    • Daten aggregieren
    • Filtern von Datensätzen anhand selbst gewählter Attribute
    • Ersetzen von fehlenden Werten
  • Control Flows
    • Schreiben einer eigenen Funktion
    • If und if-else
    • For Schleifen
    • While Schleife
  • Überblick über Machine Learning
    • Einführung in Machine Learning (Supervised – Unsupervised Learning. Overfitting, cross-validation)
    • Grundlegendes Konzept von den Algorithmen Support Vector Machine (SVM), Random Forest und K-means
    • Modelle der Algorithmen in R erstellen
    • Ergebnisse validieren
  • Detaillierte Umsetzung der Algorithmen Entscheidungsbaum und Logistische Regression
    • Grundlagen des Algorithmus
    • Train-Test Split der Daten
    • Ein Model in R erstellen
    • Validieren der Ergebnisse (u.a. confusion matrix, sensitivity, accuracy)
    • Hyperparameter im Training
    • cross-validation
Dauer/zeitlicher Ablauf:
3 Tage, 9-17 Uhr (16-24 Unterrichtsstunden)
Ziele/Bildungsabschluss:
Die Teilnehmer erhalten einen Überblick über einen typischen Data Mining Projektverlauf und die dabei hauptsächlich eingesetzten statistischen Verfahren und ihren Algorithmen, um die Ergebnisse von Data Mining besser verstehen zu können. In den praktischen Übungen werden vorhandene Kenntnisse über die Programmiersprache R dahingehend ausgebaut, dass ein selbständiges Arbeiten im Bereich data science ermöglicht wird.
Teilnahmevoraussetzungen:
Erste Erfahrungen mit R und RStudio, Grundkenntnisse der Statistik und Erfahrungen mit der Regressionsanalyse sind von Vorteil (beispielsweise durch ein Besuch der Seminare Grundlagen der Statistik mit R und Multivariate Datenanalyse mit R)
Technische Voraussetzungen:
Bitte bringen Sie einen Laptop mit der entsprechenden Software mit. Eine Installationsanleitung der kostenlosen Software wird bei Anmeldung zugeschickt. Gegen Aufpreis kann ein vorkonfigurierter Laptop zur Verfügung gestellt werden.
Lehrgangsverlauf/Methoden:

Vortrag mit praktischen Übungen für 4-8 Seminarteilnehmer

Material:
- Seminarräume in zentraler Lage
- 2-10 Teilnehmer pro Veranstaltung
- täglicher Unterricht 9-17 Uhr
- gedruckte Schulungsunterlagen
- ein Zertifikat mit den Schulungsinhalten
- Zahlung auf Rechnung möglich
- Annahme von Bildungsscheck/-prämie
- Last Minute Online-Buchung möglich
Förderung:
Bildungsscheck, Bildungsprämie
Zielgruppe:
Fach- und Führungskräfte mit R-Kenntnissen, die einen Einstieg in die R-Programmierung des Data-Minings wünschen, um eigenständig an data science Projekten mitarbeiten zu können oder einen besseren Überblick über die Tätigkeit von data scientists zu erhalten.
Seminarkennung:
2019-10M-DMR
Nach unten
Nach oben

Helfen Sie uns Seminarmarkt.de noch besser zu machen. Wir freuen uns auf Ihr Feedback. Feedback geben

Wir verwenden Cookies, um Ihre Zufriedenheit auf unserer Website zu steigern. Mit der Nutzung unserer Dienste erklären Sie sich damit einverstanden, dass wir Cookies verwenden. Weitere Informationen finden Sie hier










Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha