training

Startgarantie

NL/EN

Apache Spark Fundamentals

Leer data te verwerken met PySpark op Apache Spark

8 september 2025

- Utrecht / Remote

- Bekijk meer data

2 dagen

1530 (ex BTW)

Meld je aan

Beschrijving

Met de opkomst van cloud computing, gedistribueerde opslag en (big) data verwerking, beginnen veel organisaties Apache Spark te gebruiken voor hun dataprocessen. Of het nu gaat om data science, data-analyse of data engineering, Apache Spark kan het juiste gereedschap zijn voor de klus. Het vormt een basis onder Azure Synapse Analytics, Microsoft Fabric en Databricks.

Deze training gaat je de grondbeginselen bijbrengen van het werken met Apache Spark, te beginnen met wat het is en hoe het werkt. Vervolgens ga je verder met het lezen, transformeren en schrijven van gegevens met behulp van PySpark.

Ten slotte zal er extra aandacht zijn voor het gebruik van development best practices om ervoor te zorgen dat je code veilig in productie kan worden genomen.

Benodigde voorkennis

Python development

Onderwerpen

1: About Spark

What is Spark, where did it come from, why was it created? And how does it work?

Lessons

History of Apache Spark
Technical Architecture (Driver, Cluster Manager, Executors)
RDD and Dataframe
Pyspark
Benefits of using Spark
Running Spark locally

After completing this module, students will be able to:

Explain how Spark works

2: Reading Data

To work with data, we first need to retrieve it from wherever it is located. This is done through spark.read.

Lessons

spark.read
read options
read modes
Using regex in the filepath(s)

Lab

Read your first files in Spark

After completing this module, students will be able to:

Read data using PySpark

3: Transforming Data

After retrieving our data we need to perform transformations on it. Operations such as joins, filters, grouping, aggregating, splitting and renaming are necessary in most data pipelines. How do they work in Spark?

Lessons

Filtering
Narrow and broad transformations
Column operations
JSON transformations
Window functions
UDF and Lambdas

Lab

Perform transformations with PySpark

After completing this module, students will be able to:

Transform data using PySpark

4: Writing Data

After completing the necessary transformations in memory, it is time to write our data to our target location. This may sound like a plain operation, but there are things to consider such as file formats and partitioning.

Lessons

Common file formats
Apache Parquet
Delta Lake
Data partitioning
Bucketing

Lab

Write data with PySpark, with partitions and buckets

After completing this module, students will be able to:

Write data using PySpark

5: Development Best Practices

All we need to do with data is reading, transforming and writing it. But the code we use to do that needs to be maintained. For this, we need to use development best practices. Some of them are general, others are specific to Apache Spark.

Lessons

Notebooks for Development, python files for production
Modularization
Logging
Error Handling
Testing
Continuous Integration

Lab

Read, clean, transform and write data using development best practices for production ready code

After completing this module, students will be able to:

Write PySpark code following development best practices

Lees meer

Codedocent

Bekijk alle afleveringen

Planning

Startdatum	Duur	Locatie
8 september 20259 september 2025 Startgarantie	2 dagen	Utrecht / Remote Dit is een hybride training die remote gevolgd kan worden. Meer informatie Utrecht / Remote Dit is een hybride training die remote gevolgd kan worden. Meer informatie	Inschrijven
13 november 202514 november 2025 Startgarantie	2 dagen	Veenendaal / Remote Dit is een hybride training die remote gevolgd kan worden. Meer informatie Veenendaal / Remote Dit is een hybride training die remote gevolgd kan worden. Meer informatie	Inschrijven

Incompany of persoonlijk advies nodig?

Onze opleidingsadviseurs denken graag met je mee om een persoonlijk advies te geven of een incompany training binnen jouw organisatie te vinden.

Trainers

Douwe van den Berg

Hallo! Ik ben Douwe van den Berg, trainer bij het Kenniscentrum van Info Support. In 2017 ben ik hier begonnen om trainingen te verzorgen op het gebied van data en artificial intelligence. Dat heb ik ondertussen uitgebreid met verantwoordelijkheid voor ons curriculum op dit gebied en meedenken over de toekomstige ontwikkelingen binnen onze technology area Data&AI. Ik vind het ontzettend waardevol dat ik binnen Info Support en helemaal binnen de technology area kan sparren met collega’s die gave projecten draaien bij onze klanten. Door die uitwisseling van kennis en ervaring worden we allemaal beter, ook onze trainingen. Het lijkt me duidelijk dat ik gelukkig word van data en alle oplossingen die we op basis daarvan kunnen maken. Dat mag zo ingewikkeld mogelijk, maar eigenlijk word ik bijvoorbeeld net zo blij van een eenvoudige grafiek die inzicht in seizoensgebonden effecten verschaft. Maar het allermooist is het wanneer de deelnemers van je training écht iets hebben geleerd en vooruit kunnen met de kennis die je ze hebt aangeboden. Ik geef trainingen op het gebied van SQL, SQL Server, Python, data modelleren, Power BI, Azure data en AI oplossingen, machine learning, Databricks en Spark. Naast mijn werk bij Info Support zit ik graag op de fiets en speel ik veel bord- en kaartspellen met mijn vrienden.

Voorkennis trainingen

training - PYTHONDEVStartgarantieNL/EN

Essentials of Python Development

Vorm een solide basis om software te ontwikkelen in Python

3 dagen
€ 2070
Klassikaal
17 september 2025

Python

Vervolgtrainingen

training - DP700StartgarantieNL/EN

Microsoft Fabric Data Engineer (DP-700)

Leer methoden en praktijkvoorbeelden voor het implementeren van data engineering oplossingen met behulp van Microsoft Fabric

4 dagen
€ 3060
Klassikaal
30 september 2025

Cloud

training - SPARKADVStartgarantieNL/EN

Advanced Apache Spark for Data Engineers

Verdiep je kennis van Apache Spark om je dataworkflow te optimaliseren.

2 dagen
€ 1530
Klassikaal
29 september 2025

Databases
Cloud

"Trainer die zijn vak kent!"

Marc

Hoge waardering
Praktijkgerichte trainingen
Gecertificeerde trainers
Eigen docenten

training

Apache Spark Fundamentals

Beschrijving

Benodigde voorkennis

Onderwerpen

1: About Spark

2: Reading Data

3: Transforming Data

4: Writing Data

5: Development Best Practices

Codedocent

Planning

Incompany of persoonlijk advies nodig?

Trainers

Douwe van den Berg

Voorkennis trainingen

Essentials of Python Development

Vervolgtrainingen

Microsoft Fabric Data Engineer (DP-700)

Advanced Apache Spark for Data Engineers

Blogs

Building a CLI with Quarkus, Kotlin and GraalVM

Hoe feature slicing en AI agents elkaar versterken

Coding, Thinking and Adapting: My Take-Aways from Devoxx Poland 2025