Spark Initiation

 
  Toutes les formations  Logiciels statistiques
  2 jours       820       Initiation    
  Prochaine session
23 et 24 novembre 2017
Objectifs
  • Manipuler une session de travail Spark
  • Créer et manipuler les éléments de programmation distribuée sur la plateforme Spark ;
  • Mettre en oeuvre des composantes Spark pour l’analyse de données

Contenu

La formation est consacrée à la présentation des fonctionnalités de base de la plateforme Spark et sa programmation distribuée,accompagnée d’exemples d’utilisations. Les stagiaires mettront en oeuvre le logiciel, sous la forme d’exercices d’application.

Généralités

  • Présentation et installation de la plateforme Spark
  • Introduction au langage Scala de Spark

Les concepts de base de Spark

  • Les composants d’une exécution répartie. Exécution interactive et création d’applications autonomes
  • L’unité de distribution : l’ensemble de données résilient distribué (Resilient Distributed Datasets- RDDs).

Programmation avec Rdds élémentaires

  • Création de RDDs élémentaires
  • Opérations : transformations, actions, évaluations faibles.
  • Passage de fonctions vers Spark.
  • Persistance d’un RDD.

Manipulation de Rdds clé/valeur

  • Création de RDDs clé/valeur
  • Transformations : agrégations, regroupement, jointures et ordonnancements
  • Actions sur RDDs clé/valeur

Charge et sauvegarde de données

  • Fichiers : texte, documents (JSON), valeurs séparées par virgules et par séparateurs tabulaires.