Apache Spark und Azure Databricks - Webinar von GEDOPLAN GmbH

Inhalte

Modul 1: Einführung in Apache Spark und Azure Databricks

  • Überblick über Apache Spark: Architektur, Kernkomponenten und Anwendungsfälle
  • Einführung in Azure Databricks: Integration mit Azure, Vorteile und Funktionen
  • Einrichtung eines Azure Databricks Clusters und erster Kontakt mit der Plattform

Modul 2: Apache Spark Grundkonzepte und Architektur

  • Spark-Architektur: Driver, Executors, Tasks und RDDs (Resilient Distributed Datasets)
  • Spark-Session und Spark-Kontext: Aufbau und Verwaltung von Spark-Anwendungen
  • DataFrames und Datasets: Strukturierte Datenverarbeitung und -Manipulation

Modul 3: Entwicklung von Spark-Anwendungen in Java

  • Einführung in Spark mit Java: Setup, Abhängigkeiten und Tools
  • Implementierung von ETL-Prozessen (Extract, Transform, Load) mit Spark
  • Nutzung von Spark SQL für komplexe Abfragen und Datenanalysen
  • Verarbeitung von unstrukturierten Daten: Text, JSON, Parquet und Avro

Modul 4: Fortgeschrittene Spark-Themen

  • Spark Streaming: Echtzeit-Datenverarbeitung und -Analyse
  • Spark MLlib: Maschinenlernen und Data Mining mit Spark
  • GraphX: Verarbeitung und Analyse von Graphdaten
  • Optimierung von Spark-Anwendungen: Caching, Partitionierung und Tuning

Modul 5: Azure Databricks in der Praxis

  • Azure Databricks Notebooks: Erstellen und Verwenden von interaktiven Notebooks
  • Integration mit Azure Data Lake Storage und Azure SQL Data Warehouse
  • Verwaltung von Clustern und Jobs in Azure Databricks
  • Sicherheits- und Governance-Funktionen in Azure Databricks

Modul 6: Datenintegration und -Management

  • Verbindung zu Datenquellen: Azure Blob Storage, SQL-Datenbanken und externe Datenquellen
  • Nutzung von Azure Databricks Delta Lake für Transaktionssicherheit und Echtzeit-Analysen
  • Schema Management und Datenqualität in der Delta Lake

Modul 7: Monitoring und Performance-Tuning

  • Überwachung von Spark-Anwendungen und Azure Databricks Clustern
  • Nutzung von Azure Monitor und Spark UI für Performance-Analyse
  • Best Practices für Fehlerbehebung und Optimierung von Spark-Jobs

Modul 8: Integration von Spark und Databricks in eine Cloud-Native Architektur

  • Cloud-Native Datenarchitekturen und deren Implementierung mit Spark und Databricks
  • Nutzung von Azure Data Factory für Orchestrierung und Datenpipeline-Management
  • Implementierung von CI/CD-Pipelines für Spark-Anwendungen mit Azure DevOps

Modul 9: Sicherheit und Compliance

  • Sicherheitskonzepte in Azure Databricks: Netzwerksicherheit, Identitäts- und Zugriffsmanagement
  • Datenverschlüsselung und Compliance-Vorgaben in Azure
  • Implementierung von Zugriffskontrollen und Audit-Protokollen

Modul 10: Alternativen und Erweiterungen

  • Vergleich von Apache Spark mit anderen Big Data-Technologien: Hadoop, Flink
  • Alternativen zu Azure Databricks: Amazon EMR, Google Dataproc
  • Erweiterungen und Tools für Spark: Zeppelin, Apache Livy

Modul 11: Praxisbeispiele und Best Practices

  • Fallstudien und Best Practices aus der Industrie: Erfolgreiche Implementierungen und Anwendungsfälle
  • Hands-on-Labs: Aufbau und Optimierung von Spark-Anwendungen, Nutzung von Azure Databricks Notebooks und Delta Lake

Modul 12: Zukunftsausblick und neue Entwicklungen

  • Neueste Entwicklungen in der Spark- und Databricks-Welt
  • Ausblick auf zukünftige Trends und Technologien in Big Data und Cloud Analytics

 

Beschreibung

Dieses Seminar bietet eine umfassende Einführung in Apache Spark und Azure Databricks, mit einem Fokus auf Big Data Verarbeitung, Analyse und Cloud-Integration. Die Teilnehmer lernen, wie man Spark-Anwendungen entwickelt, optimiert und in Azure Databricks bereitstellt, sowie Best Practices für die Integration und das Monitoring von Big Data-Anwendungen.

 

Teilnehmerkreis und Voraussetzungen

Es richtet sich an Entwickler, Datenwissenschaftler und Dateningenieure, die ein tiefes Verständnis der Spark-Architektur, der Nutzung von Azure Databricks und der Implementierung von Datenverarbeitungslösungen in Java erlangen möchten.

 

  • Das ist eine Online-Schulung
  • Uhrzeit: 09:00 Uhr bis 16:00 Uhr
  • der Trainer stellt wie üblich die neuen Themen vor
  • der Teilnehmer kann jederzeit Fragen stellen
  • Übungen werden mit Trainer-Unterstützung durchgeführt
  • bei Problemen klinkt sich der Trainer bei dem Teilnehmer auf den Rechner ein
  • die digitalen Seminarunterlagen erhalten die Teilnehmer im Vorfeld 
  • Voraussetzungen für eine Online-Schulung pro Teilnehmer:
  • stabiles Internet
  • Webcam und Lautsprecher
  • ein ruhiger Platz
  • Admin-Rechte
  • Empfehlung: 2 Bildschirme
  • Online-Schulung mit Zoom
  • nach weiterer Absprache kann auch ein anderes Tool oder Anbieter eingesetzt werden
  • Mindestanzahl Teilnehmende: 3 Personen

Modul 1: Einführung in Apache Spark und Azure Databricks

  • Überblick über Apache Spark: Architektur, Kernkomponenten und Anwendungsfälle
  • Einführung in Azure Databricks: Integration mit Azure, Vorte ...
Mehr Informationen >>

Termine und Orte

+++ Catalog API +++

SG-Seminar-Nr.: 7788894

Anbieter-Seminar-Nr.: product-0001

Termine

  • 08.09.2025 - 12.09.2025

    Webinar

  • 08.12.2025 - 12.12.2025

    Webinar

Seminare mit Termin haben Plätze verfügbar. Rechnung erfolgt durch Veranstalter. Für MwSt. Angabe auf den Termin klicken.

Jetzt buchen ›
Seminar merken ›
Vergleichen

Semigator berücksichtigt

  • Frühbucher-Preise
  • Last-Minute-Preise
  • Gruppenkonditionen

und verfügt über Sonderkonditionen mit einigen Anbietern.

Der Anbieter ist für den Inhalt verantwortlich.

Veranstaltungsinformation

  • Webinar
  • Deutsch
    • Keine
  • 37.5 h
  •  
  • Anbieterbewertung (10)

Ihre Vorteile mehr erfahren

  • Anbietervergleich von über 1.500 Seminaranbietern
  • Vollständige Veranstaltungsinformationen
  • Schnellbuchung
  • Persönlicher Service