Spark pour la data science

 
  Toutes les formations  Data science
  3 jours       2000       Avancé    
  Prochaine session
23, 24, 25 janvier 2018
Objectifs
  • Maîtriser les principes de traitement de Spark et son architecture
  • Développer des traitements distribués avec Spark
  • Connaître les techniques de modélisation distribuées de Spark et construire des pipeline d’apprentissage et de prédiction
  • Découvrir le traitement des données en flux avec Spark Streaming
  • Connaître les modes d’industrialisation des traitements Spark

Prérequis
  • Principes généraux de l’informatique et expérience de la programmation, en Python ou en R, pratique de SQL

Contenu

Découvrir Apache Spark et comprendre ses principes

  • Origine et évolution de Spark (v2+)
  • Principe de distribution, architecture
  • Introduction des modes de déploiement (standalone, en cluster avec ou sans Apache Hadoop, dans le Cloud)
  • Présentation des différents modules (Spark SLQ, MLlib, etc.)
  • Environnements pour utiliser Spark

Connaître et utiliser les différentes structures de données

  • Comparaison des RDD (Resilient Data Sets) et des DataFrames
  • Accumulateurs et variables diffusées (broadcast)
  • Gestion de la distribution des données (partitions)

Manipuler les données avec Spark SQL

  • Accès aux données, revue des différentes sources supportées
  • Revue des transformations types
  • Passage des dataframes aux RDD et inversement
  • Utilisation de la lignes de commande (CLI)

Modéliser avec Spark MLLib

  • Revue de l’apprentissage supervisé et non supervisé
  • Création de variables (feature engineering), recodage
  • Évaluation des modèles
  • Constitution de pipeline de traitement

Présentation de l’utilisation de Spark depuis R

  • Découverte des packages R pour Spark : sparkr et sparklyr
  • Mise en œuvre d’exemples

Déployer des traitements en production

  • Revue des options pour l’industrialisation de traitement avec Spark

Modalités pédagogiques

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.