Spark Initiation
2 jours 820 Initiation
- Manipuler une session de travail Spark
- Créer et manipuler les éléments de programmation distribuée sur la plateforme Spark
- Mettre en oeuvre des composantes Spark pour l’analyse de données
La formation est consacrée à la présentation des fonctionnalités de base de la plateforme Spark et sa programmation distribuée,accompagnée d’exemples d’utilisations. Les stagiaires mettront en oeuvre le logiciel, sous la forme d’exercices d’application.
Généralités
- Présentation et installation de la plateforme Spark
- Introduction au langage Scala de Spark
Les concepts de base de Spark
- Les composants d’une exécution répartie. Exécution interactive et création d’applications autonomes
- L’unité de distribution : l’ensemble de données résilient distribué (Resilient Distributed Datasets- RDDs).
Programmation avec Rdds élémentaires
- Création de RDDs élémentaires
- Opérations : transformations, actions, évaluations faibles.
- Passage de fonctions vers Spark.
- Persistance d’un RDD.
Manipulation de Rdds clé/valeur
- Création de RDDs clé/valeur
- Transformations : agrégations, regroupement, jointures et ordonnancements
- Actions sur RDDs clé/valeur
Charge et sauvegarde de données
- Fichiers : texte, documents (JSON), valeurs séparées par virgules et par séparateurs tabulaires.
Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.