Spark pour la data science

 
  3 jours       2110       Avancé    
Formation Spark
Objectifs de la formation
  • Maîtriser les principes de traitement de Spark et son architecture
  • Développer des traitements distribués avec Spark
  • Connaître les techniques de modélisation distribuées de Spark et construire des pipeline d’apprentissage et de prédiction
  • Découvrir le traitement des données en flux avec Spark Streaming
  • Connaître les modes d’industrialisation des traitements Spark
Spark pour la data science
Prérequis

Principes généraux de l’informatique et expérience de la programmation, en Python ou en R, pratique de SQL


Public visé

Data analysts, data scientists.


Programme détaillé

Découvrir Apache Spark et comprendre ses principes

  • Origine et évolution de Spark (v2+)
  • Principe de distribution, architecture
  • Introduction des modes de déploiement (standalone, en cluster avec ou sans Apache Hadoop, dans le Cloud)
  • Présentation des différents modules (Spark SQL, MLlib, etc.)
  • Environnements pour utiliser Spark

Connaître et utiliser les différentes structures de données

  • Comparaison des RDD (Resilient Data Sets) et des DataFrames
  • Accumulateurs et variables diffusées (broadcast)
  • Gestion de la distribution des données (partitions)

Manipuler les données avec Spark SQL

  • Accès aux données, revue des différentes sources supportées
  • Revue des transformations types
  • Passage des dataframes aux RDD et inversement
  • Utilisation de la ligne de commande (CLI)

Modéliser avec Spark MLLib

  • Revue de l’apprentissage supervisé et non supervisé
  • Création de variables (feature engineering), recodage
  • Évaluation des modèles
  • Constitution de pipeline de traitement

Présentation de l’utilisation de Spark depuis R

  • Découverte des packages R pour Spark : sparkr et sparklyr
  • Mise en œuvre d’exemples

Déployer des traitements en production

  • Revue des options pour l’industrialisation de traitement avec Spark

Spark pour la data science ? Une bonne idée !

 

Spark est un système de traitement de données open source et distribué, conçu pour fournir une plateforme de calcul rapide et évolutive. Il a été initialement développé à l’Université de Californie à Berkeley et est maintenant maintenu par la fondation Apache. Tout comme Python, Spark est un excellent choix pour faire de la data science :

  • Vitesse de traitement élevée : Spark est conçu pour le traitement de données en mémoire, ce qui lui permet d’atteindre des performances élevées. Il effectue des opérations de transformation et d’analyse des données de manière très rapide, ce qui permet de réduire considérablement les temps de calcul par rapport à d’autres systèmes.

  • Capacité de traitement distribué : Spark utilise un modèle de traitement distribué, ce qui signifie qu’il peut répartir les tâches sur plusieurs nœuds d’un cluster. Cela permet de traiter de grands ensembles de données en parallèle, ce qui améliore les performances et permet de faire face à des charges de travail importantes.

  • Support de plusieurs langages : Spark offre des API dans plusieurs langages de programmation, notamment Scala, Python, Java et R. Cela permet aux utilisateurs de choisir le langage avec lequel ils sont le plus à l’aise et facilite l’intégration de Spark dans leurs workflows existants.

  • Richesse des fonctionnalités : Spark offre une large gamme de fonctionnalités pour le traitement et l’analyse des données. Il prend en charge le traitement de flux de données en temps réel, le traitement de graphes, l’apprentissage machine distribué, le traitement de données textuelles et bien plus encore. Il dispose également de bibliothèques complémentaires telles que Spark SQL, Spark Streaming, MLlib et GraphX, qui étendent encore ses capacités.

  • Intégration avec l’écosystème Hadoop : Spark s’intègre facilement avec l’écosystème Hadoop, ce qui permet d’utiliser des outils complémentaires tels que HDFS (Hadoop Distributed File System), Hive, HBase et d’autres. Cela facilite le travail avec des données stockées dans le cadre de l’écosystème Hadoop.

  • Facilité d’utilisation : Spark est conçu pour être convivial et offre une API simple et intuitive. Les utilisateurs peuvent écrire du code en utilisant des concepts familiers et des opérations de haut niveau, ce qui facilite le développement et la maintenance des applications Spark.

  • Évolutivité : Spark est conçu pour être hautement évolutif et peut facilement s’adapter à des volumes de données croissants. Il permet de scaler horizontalement en ajoutant simplement de nouveaux nœuds au cluster, ce qui garantit une bonne performance même avec des ensembles de données massifs.

Tout cela fait de Spark un choix populaire pour la data science. En 3 journées, cette formation vous permettra d’adopter Spark pour réaliser vos projets data en toute autonomie.