Spark pour la data science

Toutes les formations Data science

3 jours 2110 Avancé

Objectifs de la formation

Maîtriser les principes de traitement de Spark et son architecture
Développer des traitements distribués avec Spark
Connaître les techniques de modélisation distribuées de Spark et construire des pipeline d’apprentissage et de prédiction
Découvrir le traitement des données en flux avec Spark Streaming
Connaître les modes d’industrialisation des traitements Spark

Objectifs de la formation

Maîtriser les principes de traitement de Spark et son architecture
Développer des traitements distribués avec Spark
Connaître les techniques de modélisation distribuées de Spark et construire des pipeline d’apprentissage et de prédiction
Découvrir le traitement des données en flux avec Spark Streaming
Connaître les modes d’industrialisation des traitements Spark

Prérequis

Principes généraux de l’informatique et expérience de la programmation, en Python ou en R, pratique de SQL

Prérequis

Principes généraux de l’informatique et expérience de la programmation, en Python ou en R, pratique de SQL

Public visé

Data analysts, data scientists.

Public visé

Data analysts, data scientists.

Programme détaillé

Découvrir Apache Spark et comprendre ses principes (4h)

Origine et évolution de Spark (v2+)
Principe de distribution, architecture
Introduction des modes de déploiement (standalone, en cluster avec ou sans Apache Hadoop, dans le Cloud)
Présentation des différents modules (Spark SQL, MLlib, etc.)
Environnements pour utiliser Spark

Connaître et utiliser les différentes structures de données (2h)

Comparaison des RDD (Resilient Data Sets) et des DataFrames
Accumulateurs et variables diffusées (broadcast)
Gestion de la distribution des données (partitions)

Manipuler les données avec Spark SQL (4h)

Accès aux données, revue des différentes sources supportées
Revue des transformations types
Passage des dataframes aux RDD et inversement
Utilisation de la ligne de commande (CLI)

Modéliser avec Spark MLLib (4h)

Revue de l’apprentissage supervisé et non supervisé
Création de variables (feature engineering), recodage
Évaluation des modèles
Constitution de pipeline de traitement

Présentation de l’utilisation de Spark depuis R (2h)

Découverte des packages R pour Spark : sparkr et sparklyr
Mise en œuvre d’exemples

Déployer des traitements en production (1h)

Revue des options pour l’industrialisation de traitement avec Spark

Programme détaillé

Découvrir Apache Spark et comprendre ses principes (4h)

Origine et évolution de Spark (v2+)
Principe de distribution, architecture
Introduction des modes de déploiement (standalone, en cluster avec ou sans Apache Hadoop, dans le Cloud)
Présentation des différents modules (Spark SQL, MLlib, etc.)
Environnements pour utiliser Spark

Connaître et utiliser les différentes structures de données (2h)

Comparaison des RDD (Resilient Data Sets) et des DataFrames
Accumulateurs et variables diffusées (broadcast)
Gestion de la distribution des données (partitions)

Manipuler les données avec Spark SQL (4h)

Accès aux données, revue des différentes sources supportées
Revue des transformations types
Passage des dataframes aux RDD et inversement
Utilisation de la ligne de commande (CLI)

Modéliser avec Spark MLLib (4h)

Revue de l’apprentissage supervisé et non supervisé
Création de variables (feature engineering), recodage
Évaluation des modèles
Constitution de pipeline de traitement

Présentation de l’utilisation de Spark depuis R (2h)

Découverte des packages R pour Spark : sparkr et sparklyr
Mise en œuvre d’exemples

Déployer des traitements en production (1h)

Revue des options pour l’industrialisation de traitement avec Spark

Spark pour la data science ? Une bonne idée !

Spark est un système de traitement de données open source et distribué, conçu pour fournir une plateforme de calcul rapide et évolutive. Il a été initialement développé à l’Université de Californie à Berkeley et est maintenant maintenu par la fondation Apache. Tout comme Python, Spark est un excellent choix pour faire de la data science :

Vitesse de traitement élevée : Spark est conçu pour le traitement de données en mémoire, ce qui lui permet d’atteindre des performances élevées. Il effectue des opérations de transformation et d’analyse des données de manière très rapide, ce qui permet de réduire considérablement les temps de calcul par rapport à d’autres systèmes.
Capacité de traitement distribué : Spark utilise un modèle de traitement distribué, ce qui signifie qu’il peut répartir les tâches sur plusieurs nœuds d’un cluster. Cela permet de traiter de grands ensembles de données en parallèle, ce qui améliore les performances et permet de faire face à des charges de travail importantes.
Support de plusieurs langages : Spark offre des API dans plusieurs langages de programmation, notamment Scala, Python, Java et R. Cela permet aux utilisateurs de choisir le langage avec lequel ils sont le plus à l’aise et facilite l’intégration de Spark dans leurs workflows existants.
Richesse des fonctionnalités : Spark offre une large gamme de fonctionnalités pour le traitement et l’analyse des données. Il prend en charge le traitement de flux de données en temps réel, le traitement de graphes, l’apprentissage machine distribué, le traitement de données textuelles et bien plus encore. Il dispose également de bibliothèques complémentaires telles que Spark SQL, Spark Streaming, MLlib et GraphX, qui étendent encore ses capacités.
Intégration avec l’écosystème Hadoop : Spark s’intègre facilement avec l’écosystème Hadoop, ce qui permet d’utiliser des outils complémentaires tels que HDFS (Hadoop Distributed File System), Hive, HBase et d’autres. Cela facilite le travail avec des données stockées dans le cadre de l’écosystème Hadoop.
Facilité d’utilisation : Spark est conçu pour être convivial et offre une API simple et intuitive. Les utilisateurs peuvent écrire du code en utilisant des concepts familiers et des opérations de haut niveau, ce qui facilite le développement et la maintenance des applications Spark.
Évolutivité : Spark est conçu pour être hautement évolutif et peut facilement s’adapter à des volumes de données croissants. Il permet de scaler horizontalement en ajoutant simplement de nouveaux nœuds au cluster, ce qui garantit une bonne performance même avec des ensembles de données massifs.

Tout cela fait de Spark un choix populaire pour la data science. En 3 journées, cette formation vous permettra d’adopter Spark pour réaliser vos projets data en toute autonomie.

Spark pour la data science ? Une bonne idée !

Vitesse de traitement élevée : Spark est conçu pour le traitement de données en mémoire, ce qui lui permet d’atteindre des performances élevées. Il effectue des opérations de transformation et d’analyse des données de manière très rapide, ce qui permet de réduire considérablement les temps de calcul par rapport à d’autres systèmes.
Capacité de traitement distribué : Spark utilise un modèle de traitement distribué, ce qui signifie qu’il peut répartir les tâches sur plusieurs nœuds d’un cluster. Cela permet de traiter de grands ensembles de données en parallèle, ce qui améliore les performances et permet de faire face à des charges de travail importantes.
Support de plusieurs langages : Spark offre des API dans plusieurs langages de programmation, notamment Scala, Python, Java et R. Cela permet aux utilisateurs de choisir le langage avec lequel ils sont le plus à l’aise et facilite l’intégration de Spark dans leurs workflows existants.
Richesse des fonctionnalités : Spark offre une large gamme de fonctionnalités pour le traitement et l’analyse des données. Il prend en charge le traitement de flux de données en temps réel, le traitement de graphes, l’apprentissage machine distribué, le traitement de données textuelles et bien plus encore. Il dispose également de bibliothèques complémentaires telles que Spark SQL, Spark Streaming, MLlib et GraphX, qui étendent encore ses capacités.
Intégration avec l’écosystème Hadoop : Spark s’intègre facilement avec l’écosystème Hadoop, ce qui permet d’utiliser des outils complémentaires tels que HDFS (Hadoop Distributed File System), Hive, HBase et d’autres. Cela facilite le travail avec des données stockées dans le cadre de l’écosystème Hadoop.
Facilité d’utilisation : Spark est conçu pour être convivial et offre une API simple et intuitive. Les utilisateurs peuvent écrire du code en utilisant des concepts familiers et des opérations de haut niveau, ce qui facilite le développement et la maintenance des applications Spark.
Évolutivité : Spark est conçu pour être hautement évolutif et peut facilement s’adapter à des volumes de données croissants. Il permet de scaler horizontalement en ajoutant simplement de nouveaux nœuds au cluster, ce qui garantit une bonne performance même avec des ensembles de données massifs.

Tout cela fait de Spark un choix populaire pour la data science. En 3 journées, cette formation vous permettra d’adopter Spark pour réaliser vos projets data en toute autonomie.

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Etude de cas concrets
Échanges sur les pratiques et expériences des participants
Temps de questions / réponses

Méthodes pédagogiques

Méthode expositive
Méthode active

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique. Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO,...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller Pôle emploi validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur pole-emploi.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes