Spark pour la data science

 
  Toutes les formations  Big Data
  3 jours       2000       Avancé    
  Prochaine session
5, 6, 7 décembre 2017
Objectifs
  • Maîtriser les principes de traitement de Spark et son architecture
  • Développer des traitements distribués avec Spark
  • Connaître les techniques de modélisation distribuées de Spark et construire des pipeline d’apprentissage et de prédiction
  • Découvrir le traitement des données en flux avec Spark Streaming
  • Connaître les modes d’industrialisation des traitements Spark

Prérequis
  • Connaissance de base de la programmation
  • Connaissance de base de techniques de statistiques

Contenu

Découvrir Apache Spark et comprendre ses principes

  • Origine et évolution de Spark (v2+)
  • Principe de distribution, architecture
  • Introduction des modes de déploiement (standalone, en cluster avec ou sans Apache Hadoop, dans le Cloud)
  • Présentation des différents modules (Spark SLQ, MLlib, etc.)
  • Environnements pour utiliser Spark

Connaître et utiliser les différentes structures de données

  • Comparaison des RDD (Resilient Data Sets) et des DataFrames
  • Accumulateurs et variables diffusées (broadcast)
  • Gestion de la distribution des données (partitions)

Manipuler les données avec Spark SQL

  • Accès aux données, revue des différentes sources supportées
  • Revue des transformations types
  • Passage des dataframes aux RDD et inversement
  • Utilisation de la lignes de commande (CLI)

Modéliser avec Spark MLLib

  • Revue de l’apprentissage supervisé et non supervisé
  • Création de variables (feature engineering), recodage
  • Évaluation des modèles
  • Constitution de pipeline de traitement

Utiliser Spark depuis R

  • Découverte des packages R pour Spark : sparkr et sparklyr
  • Mise en œuvre d’exemples

Déployer des traitements en production

  • Revue des options pour l’industrialisation de traitement avec Spark

Modalités pédagogiques

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.