Spark pour la data science

 
  Toutes les formations  Big Data
  3 jours       2000       Avancé    
  Prochaine session
5, 6, 7 décembre 2017
Objectifs
  • Maîtriser les principes de traitement de Spark et son architecture
  • Développer des traitements distribués avec Spark
  • Connaître les techniques de modélisation distribuées de Spark et construire des pipeline d’apprentissage et de prédiction
  • Découvrir le traitement des données en flux avec Spark Streaming
  • Connaître les modes d’industrialisation des traitements Spark

Prérequis
  • Connaissance de base de la programmation
  • Connaissance de base de techniques de statistiques

Contenu

Découvrir Apache Spark et comprendre ses principes

  • Origine et évolution de Spark (v2+)
  • Principe de distribution, architecture
  • Introduction des modes de déploiement (standalone, en cluster avec ou sans Apache Hadoop, dans le Cloud)
  • Présentation des différents modules (Spark SLQ, MLlib, etc.)
  • Environnements pour utiliser Spark

Connaître et utiliser les différentes structures de données

  • Comparaison des RDD (Resilient Data Sets) et des DataFrames
  • Accumulateurs et variables diffusées (broadcast)
  • Gestion de la distribution des données (partitions)

Manipuler les données avec Spark SQL

  • Accès aux données, revue des différentes sources supportées
  • Revue des transformations types
  • Passage des dataframes aux RDD et inversement
  • Utilisation de la lignes de commande (CLI)

Modéliser avec Spark MLLib

  • Revue de l’apprentissage supervisé et non supervisé
  • Création de variables (feature engineering), recodage
  • Évaluation des modèles
  • Constitution de pipeline de traitement

Utiliser Spark depuis R

  • Découverte des packages R pour Spark : sparkr et sparklyr
  • Mise en œuvre d’exemples

Déployer des traitements en production

  • Revue des options pour l’industrialisation de traitement avec Spark