Spark Initiation

 
  Toutes les formations  Logiciels statistiques
  2 jours       820       Initiation    
  Prochaine session
23 et 24 novembre 2017
Objectifs
  • Manipuler une session de travail Spark
  • Créer et manipuler les éléments de programmation distribuée sur la plateforme Spark ;
  • Mettre en oeuvre des composantes Spark pour l’analyse de données

Contenu

La formation est consacrée à la présentation des fonctionnalités de base de la plateforme Spark et sa programmation distribuée,accompagnée d’exemples d’utilisations. Les stagiaires mettront en oeuvre le logiciel, sous la forme d’exercices d’application.

Généralités

  • Présentation et installation de la plateforme Spark
  • Introduction au langage Scala de Spark

Les concepts de base de Spark

  • Les composants d’une exécution répartie. Exécution interactive et création d’applications autonomes
  • L’unité de distribution : l’ensemble de données résilient distribué (Resilient Distributed Datasets- RDDs).

Programmation avec Rdds élémentaires

  • Création de RDDs élémentaires
  • Opérations : transformations, actions, évaluations faibles.
  • Passage de fonctions vers Spark.
  • Persistance d’un RDD.

Manipulation de Rdds clé/valeur

  • Création de RDDs clé/valeur
  • Transformations : agrégations, regroupement, jointures et ordonnancements
  • Actions sur RDDs clé/valeur

Charge et sauvegarde de données

  • Fichiers : texte, documents (JSON), valeurs séparées par virgules et par séparateurs tabulaires.

Modalités pédagogiques

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.