
Apprenez à manipuler vos données Big Data de manière efficace et distribuée en découvrant les concepts constituant le framework Spark avec le langage Python.
- Prise en main du framework Spark en Python
- Maîtriser les API courantes de Spark
- Connaître les bases du modèle d’exécution de Spark
- Connaître les bases de l’architecture d’un cluster Spark
- Être capable de déployer un cluster simple en local et y lancer des jobs Spark
- Découvrir les modules complémentaires de Spark
Introduction de Spark et du Big Data
- Historique
- Introduction du framework Spark
- Spark VS MapReduce
Spark Shell
- Introduction au code Spark
- Les bases: Actions et transformations
- Exercices
Projet Spark
- Initialisation d’un projet Spark
Spark SQL
- Introduction à Spark SQL
- Les dataframes + Exercices
- Spark et Cassandra + Exercices
Évaluation des acquis de la journée
RDDs
- Introduction aux RDDs
- Les différentes sources de données basiques
- Vision Débutante des Actions et transformations + Exercice
- Modèle d’exécution de Spark
- Persistance des données + Exercice
- Architecture de Spark
- Accumulateurs et Broadcasts + Exercice
- Les PairRDDs + Exercice
- Comparaison RDDs et DataFrames
Déploiement
- Les différents modes de déploiement
- Créer un cluster Standalone
- SparkUI
- Spark Shell
- Spark-submit
MLLib
- Introduction à MLLib
- Exemple
GraphX
- Introduction à GraphX
- Exemple
Spark Streaming
- Introduction à Spark Streaming
- Exemple
Spark 2.0
- Les objectifs
- Les nouveautés
Évaluation des acquis de la journée
La formation Spark Python vous intéresse ?