- R und RStudio kennenlernen
- Unterschiede von R zu anderen Programmiersprachen verstehen
- Datenüberblick verschaffen und erste Diagramme erstellen
- Installation von Paketen und deren Laden
dplyr (tidyverse) – Grundlagen:
- Tidyverse kennenlernen
- Tibble als erweiterte Form von data.frames erkunden
- Grundlegende Funktionen von dplyr zur Spaltenauswahl kennenlernen
- Nutzung von select(), filter(), rename() und slice()
Datenmanipulation mit dplyr:
- Zeilen mit arrange() sortieren
- Neue Spalten mit mutate() berechnen
- Statistiken mit summarise() erstellen
- Verwendung des Pipe Operators %>%
- Daten mit group_by() gruppieren
- Umgang mit fehlenden Werten: drop_na() und replace_na()
Berechnung von Statistiken mit dplyr:
- Wesentliche deskriptive Statistiken anwenden
- Zufällige Stichproben ziehen
- Berechnung von Korrelationen
- Erstellung von Kontingenztabellen
Kontrollstrukturen:
- Eigene Funktionen erstellen
- Standardparameter für Funktionen festlegen
- Anwendung von For-Schleifen
- Implementierung von If-Else-Bedingungen
Datenvisualisierung mit ggplot2:
- Konzept der Grammar of Graphics verstehen
- Nutzung von ggplot2-Layern zur Diagrammerstellung und statistischen Visualisierung
- Variabilität oder Festsetzung von Darstellungen (Punktgröße, Farbe, Gruppierung) mithilfe einer Variable
- Erstellung mehrerer Subplots, Anpassung und Speicherung von Diagrammen
Daten einlesen und schreiben:
- Arbeitsverzeichnis in R und RStudio festlegen
- Einlesen und Schreiben von CSV-, Excel- und SPSS-Dateien
- Überblick über nützliche Parameter
- Verwendung der fread()-Funktion für große Datensätze
Machine Learning:
- Einführung
- Anwendungsbeispiele von Machine Learning kennenlernen
- Unterscheidung zwischen Künstlicher Intelligenz, Machine Learning und Deep Learning
- Unterschiede zwischen überwachtem und unüberwachtem Lernen verstehen
- Überfitting, Train-Test-Split und Kreuzvalidierung kennenlernen
Lineare Regression:
- Daten in Test- und Trainingsdaten aufteilen, Modell erstellen und validieren
- Grundlagen der linearen Regression verstehen
- Umsetzung der linearen Regression in R
- Ergebnisse validieren, z. B. durch die mittlere quadratische Abweichung (mean squared error)
Entscheidungsbaum in R:
- Daten in Test- und Trainingsdaten aufteilen, Modell erstellen und validieren
- Grundlagen von Entscheidungsbäumen verstehen
- Umsetzung eines Entscheidungsbaums in R
- Ergebnisse validieren, u. a. durch Verwendung der Verwirrungsmatrix, Sensitivität und Genauigkeit
- Anpassung von Hyperparametern während des Trainings
Weitere Machine Learning-Algorithmen in R:
- Überblick über Random Forest und K-means erhalten
- Umsetzung der Algorithmen in R kennenlernen
- Ergebnisse der Algorithmen validieren und interpretieren
MethodeIn diesem Data Mining Training liegt der Fokus auf der praktischen Anwendung. Die Teilnehmer haben die Möglichkeit, eigenständig mit RStudio zu programmieren, um das Gelernte zu üben und eventuelle Unklarheiten sofort zu klären. Der Trainer steht zur Verfügung, um bei Lösungen zu unterstützen und weiterführende Fragen zu beantworten.
HinweisTechnik im Data Science mit R SeminarDie Teilnehmer benötigen für die Übungsaufgaben Laptops. Wir empfehlen, Ihren eigenen Laptop mit der vorab installierten Software mitzubringen. Eine genaue Installationsanleitung für die Software wird Ihnen vor dem Seminar per E-Mail zugesandt.Bitte prüfen Sie, ob Ihr Firmenlaptop Zugangsbeschränkungen im Internet hat. Die digitalen Unterlagen (Skript, Code, Dateien) werden im Seminar online zum Download zur Verfügung gestellt. Sie erhalten vor dem Seminar per E-Mail den Link zu einer Testdatei zum Download, um dies überprüfen zu können.Sie sollten sich in firmenfremde WLAN-Netze registrieren können.Als Backup Lösung ist es möglich, dass der USB Port bei Ihrem Laptop freigeschalten ist, um damit verwendete Dateien oder sonstige Unterlagen übertragen zu können.In der Schulung wird das Betriebssystem Windows verwendet. Der Umgang mit Ihrem verwendeten Betriebssystem und Laptop sollte bekannt sein. Insbesondere sollten Sie ohne Schwierigkeiten Sonderzeichen auf der Tastatur finden (insbesondere bei Apple Geräten werden auf manchen Tastaturen nicht immer runde, eckige bzw. geschweifte Klammern dargestellt).Hinweis für Online-Schulungen:Für unsere Online-Schulungen möchten wir Sie darauf hinweisen, dass es von Vorteil ist, wenn Sie über zwei Bildschirme verfügen. Ein zusätzlicher Bildschirm ermöglicht es Ihnen, die Schulungsinhalte auf einem Bildschirm anzuzeigen, während Sie auf dem anderen Bildschirm praktische Übungen durchführen oder Anwendungen parallel öffnen können.Durch die Verwendung von zwei Bildschirmen können Sie die Schulungsinhalte effektiver verfolgen und gleichzeitig interaktiv an den Übungen teilnehmen, ohne zwischen Fenstern hin- und herwechseln zu müssen.Wir empfehlen daher, sich im Vorfeld auf die Schulung mit einem zusätzlichen Bildschirm vorzubereiten, um das bestmögliche Lernerlebnis zu gewährleistenWeitere Seminare aus dem Bereich Data Science, Machine Learning & KI