Dieses Big Data Seminar legt einen großen Fokus auf praktische Anwendungen. Die Konzepte werden während der Schulung anhand von Folien erklärt und durch Beispiele veranschaulicht. In den Übungseinheiten haben die Teilnehmer die Möglichkeit, das Gelernte mithilfe der Programmiersprache Python in der Cloud mit Jupyter Notebooks umzusetzen. Der Trainer steht den Teilnehmern bei verschiedenen Aufgaben zur Seite und begleitet sie bei Fragen.
Der Kurs ist in drei thematische Bereiche unterteilt, um die Teilnehmer schrittweise an Apache Spark heranzuführen.Im ersten Teil wird ein knapper Überblick über aktuelle Technologien zur Speicherung und Verarbeitung großer Datenmengen (Hadoop und Kubernetes) gegeben und die Rolle von Spark als wichtiges Datenverarbeitungsframework erläutert.Der zweite Teil beinhaltet eine ausführliche Einführung in die Arbeit mit Apache Spark mit Python (PySpark). Dabei werden alle wichtigen Punkte behandelt, wie das Laden von Daten, die Datenaufbereitung (Transformation, Filtern, Joinen, Aggregation), die Anbindung verschiedener Datenquellen, die Ausführungsmodelle von Apache Spark sowie die Integration des Python Data Science Moduls Pandas und wichtige Unterschiede.Die Teilnehmer werden all diese Schritte direkt an praktischen Beispielen und Übungen durchführen. Es werden auch gängige Grundkonzepte zur Datenorganisation in Big Data Projekten besprochen.Im dritten Teil werden die Möglichkeiten von Spark zur Datenanalyse und zum maschinellen Lernen (ML) behandelt. Die grundlegenden Konzepte und Vorgehensweisen von ML werden kurz erläutert und anhand eines Beispiels mit PySpark praktisch angewendet.Der Fokus des Workshops liegt auf dem Umgang mit PySpark zur Verarbeitung und Analyse großer Datenmengen. Der Bereich "Machine Learning" wird ebenfalls behandelt, jedoch nur knapp theoretisch umrissen aufgrund seiner Komplexität. Vielmehr wird darauf eingegangen, welche Möglichkeiten Apache Spark in diesem Anwendungsgebiet bietet und unter welchen Bedingungen der Einsatz von PySpark anderen Alternativen vorzuziehen ist.Der Workshop ermöglicht es den Teilnehmern, eigenständig Daten mithilfe von Apache Spark zu transformieren und zu analysieren.
Datum | Uhrzeit | Dauer | Preis | ||
---|---|---|---|---|---|
München, DE | |||||
03.07.2025 - 04.07.2025 | 09:00 - 17:00 Uhr | 12 h | Mehr Informationen > | Jetzt buchen › |
Datum | Uhrzeit | Dauer | Preis | ||
---|---|---|---|---|---|
München, DE | |||||
03.07.2025 - 04.07.2025 | 09:00 - 17:00 Uhr | 12 h | Mehr Informationen > | Jetzt buchen › |