PySpark - Big Data Analytics mit Apache Spark und Python - Seminar / Kurs von Cegos Integrata GmbH

Inhalte

  • Verortung und Kontext des Frameworks (Vergleich mit Pyspark, Hadoop und Kubernetes)
  • Grundlegende Prinzipien der verteilten Datenverarbeitung durch Apache Spark
Erste Schritte in der PySpark-Welt:
  • Essenzielle DataFrames-Grundlagen
  • Einbindung von JSON- und CSV-Daten
  • Einfache Datentransformationen (Projektionen, Filterung, grundlegende Funktionen...)
Weitere Datentransformationen erkunden:
  • Gruppierte Aggregationen verstehen
  • Sortierung von Daten
  • Joins von Datensätzen
UDF - User Defined Functions verwenden:
  • Effiziente Nutzung von Pandas UDFs in PySpark
  • Einsatzbereiche von UDFs
Datenhaltung und Speicherung:
  • Überblick über kompatible Dateiformate
Grundlagen des Maschinellen Lernens:
  • Modelltraining und -entwicklung
  • Einführung in Regressionsmodelle
  • Verwendung von Trainings- und Validierungsdaten
  • Bewertungsmetriken für Modellleistungen
  • Praktische Übung mit dem Datensatz des NYC Taxis
Vorbereitung der Daten:
  • Formatumwandlungen für beschleunigte Verarbeitung
  • Integration diverser Datenquellen
Datenexploration:
  • Anfängliche einfache Datenanalysen und -visualisierungen
  • Datenreduktion durch Aggregation
Modelltraining:
  • Maschinelles Lernen mit PySpark umsetzen
Verfeinerung des Modells:
  • Bewertung des Modells mittels geeigneter Metriken
  • Optimierung durch Integration neuer Eigenschaften
  • Austausch von Ideen zur weiteren Verbesserung
  •  
Methode

Dieses Big Data Seminar legt einen großen Fokus auf praktische Anwendungen. Die Konzepte werden während der Schulung anhand von Folien erklärt und durch Beispiele veranschaulicht. In den Übungseinheiten haben die Teilnehmer die Möglichkeit, das Gelernte mithilfe der Programmiersprache Python in der Cloud mit Jupyter Notebooks umzusetzen. Der Trainer steht den Teilnehmern bei verschiedenen Aufgaben zur Seite und begleitet sie bei Fragen.

  • Verortung und Kontext des Frameworks (Vergleich mit Pyspark, Hadoop und Kubernetes)
  • Grundlegende Prinzipien der verteilten Datenverarbeitung durch Apache Spark
Erste Schritte in der PySpark-Welt ... Mehr Informationen >>

Lernziele

Dieser praxisorientierte Kurs behandelt die Verarbeitung von großen Datenmengen mit Apache Spark und Python. Es werden grundlegende Konzepte von PySpark erläutert und die Integration des Python Datenanalyse Moduls Pandas in PySpark behandelt. Darüber hinaus werden die Möglichkeiten der Anwendung von Machine Learning in PySpark vorgestellt. Der Kurs bietet einen Überblick über die Analyse großer Datenmengen, Hadoop und Kubernetes, sowie die Verwendung von Spark als Datenverarbeitungsframework. Es werden auch Themen wie das Einladen von Daten, Datenaufbereitung (Transformation, Filtern, Joinen, Aggregation), Ausführungsmodelle von Apache Spark und Datenorganisation in Big Data Projekten behandelt. Insgesamt bietet dieser Kurs eine umfassende Einführung in die Verarbeitung großer Datenmengen mit Apache Spark und Python.

Der Kurs ist in drei thematische Bereiche unterteilt, um die Teilnehmer schrittweise an Apache Spark heranzuführen.Im ersten Teil wird ein knapper Überblick über aktuelle Technologien zur Speicherung und Verarbeitung großer Datenmengen (Hadoop und Kubernetes) gegeben und die Rolle von Spark als wichtiges Datenverarbeitungsframework erläutert.Der zweite Teil beinhaltet eine ausführliche Einführung in die Arbeit mit Apache Spark mit Python (PySpark). Dabei werden alle wichtigen Punkte behandelt, wie das Laden von Daten, die Datenaufbereitung (Transformation, Filtern, Joinen, Aggregation), die Anbindung verschiedener Datenquellen, die Ausführungsmodelle von Apache Spark sowie die Integration des Python Data Science Moduls Pandas und wichtige Unterschiede.Die Teilnehmer werden all diese Schritte direkt an praktischen Beispielen und Übungen durchführen. Es werden auch gängige Grundkonzepte zur Datenorganisation in Big Data Projekten besprochen.Im dritten Teil werden die Möglichkeiten von Spark zur Datenanalyse und zum maschinellen Lernen (ML) behandelt. Die grundlegenden Konzepte und Vorgehensweisen von ML werden kurz erläutert und anhand eines Beispiels mit PySpark praktisch angewendet.Der Fokus des Workshops liegt auf dem Umgang mit PySpark zur Verarbeitung und Analyse großer Datenmengen. Der Bereich "Machine Learning" wird ebenfalls behandelt, jedoch nur knapp theoretisch umrissen aufgrund seiner Komplexität. Vielmehr wird darauf eingegangen, welche Möglichkeiten Apache Spark in diesem Anwendungsgebiet bietet und unter welchen Bedingungen der Einsatz von PySpark anderen Alternativen vorzuziehen ist.Der Workshop ermöglicht es den Teilnehmern, eigenständig Daten mithilfe von Apache Spark zu transformieren und zu analysieren.

 

Dieser praxisorientierte Kurs behandelt die Verarbeitung von großen Datenmengen mit Apache Spark und Python. Es werden grundlegende Konzepte von PySpark erläutert und die Integration des Python Date ... Mehr Informationen >>

Zielgruppen

Der Kurs wendet sich primär an Data Scientists und Data Analysts, die mit Hilfe von Python und Apache Spark (PySpark) große Datenmengen verarbeiten und analysieren möchten.

Termine und Orte

Datum Uhrzeit Dauer Preis
Düsseldorf, DE
03.11.2025 - 04.11.2025 09:00 - 17:00 Uhr 12 h Mehr Informationen > Jetzt buchen ›
München, DE
03.07.2025 - 04.07.2025 09:00 - 17:00 Uhr 12 h Mehr Informationen > Jetzt buchen ›

+++ Catalog API +++

SG-Seminar-Nr.: 7724886

Anbieter-Seminar-Nr.: 54450

Termine

  • 03.07.2025 - 04.07.2025

    München, DE

  • 03.11.2025 - 04.11.2025

    Düsseldorf, DE

Seminare mit Termin haben Plätze verfügbar. Rechnung erfolgt durch Veranstalter. Für MwSt. Angabe auf den Termin klicken.

Jetzt buchen ›
Seminar merken ›
Vergleichen

Semigator berücksichtigt

  • Frühbucher-Preise
  • Last-Minute-Preise
  • Gruppenkonditionen

und verfügt über Sonderkonditionen mit einigen Anbietern.

Der Anbieter ist für den Inhalt verantwortlich.

Veranstaltungsinformation

  • Seminar / Kurs
  • Deutsch
    • Teilnahmebestätigung
  • 12 h
  •  
  • Anbieterbewertung (290)

Ihre Vorteile mehr erfahren

  • Anbietervergleich von über 1.500 Seminaranbietern
  • Vollständige Veranstaltungsinformationen
  • Schnellbuchung
  • Persönlicher Service
Datum Uhrzeit Dauer Preis
Düsseldorf, DE
03.11.2025 - 04.11.2025 09:00 - 17:00 Uhr 12 h Mehr Informationen > Jetzt buchen ›
München, DE
03.07.2025 - 04.07.2025 09:00 - 17:00 Uhr 12 h Mehr Informationen > Jetzt buchen ›