R expert — Passage à l'échelle

Objectifs de la formation

Traiter de larges jeux de données avec R
Paralléliser les traitements sous R

Traiter de larges jeux de données avec R
Paralléliser les traitements sous R

Prérequis

Parmi nos formations au langage R, cette formation est le niveau 3. Elle requiert une bonne maîtrise et une utilisation régulière de R (contenu des formations niveau 1 - R initiation et niveau 2 - R intermédiaire).

En vous inscrivant aux deux autres modules R expert (Programmation et Créer une application R Shiny), bénéficiez d’un tarif réduit sur le prix total des 3 modules : 4200€ au lieu de 4590€, pour 6 jours de formation.

Prérequis

Public visé

Toute personne souhaitant développer utiliser R dans un contexte « big data », notamment les data analysts et data scientists.

Public visé

Toute personne souhaitant développer utiliser R dans un contexte « big data », notamment les data analysts et data scientists.

Programme détaillé

Traitement de larges jeux de données avec R (1h)

Présentation et utilisation de datatable et de dplyr pour traiter de données volumineuses (2h)

Présentation du calcul parallèle (2h)

Passage à l’échelle (1h)

Connexion avec les différentes bases de données (SQL, NOSQL) (2h)

Présentation de l’environnement Hadoop, implémentations en R (2h)

Présentation d’Apache Spark et intégration avec R (2h)

Programme détaillé

Traitement de larges jeux de données avec R (1h)

Présentation et utilisation de datatable et de dplyr pour traiter de données volumineuses (2h)

Présentation du calcul parallèle (2h)

Passage à l’échelle (1h)

Connexion avec les différentes bases de données (SQL, NOSQL) (2h)

Présentation de l’environnement Hadoop, implémentations en R (2h)

Présentation d’Apache Spark et intégration avec R (2h)

Le passage à l'échelle en langage R

Voici quelques détails supplémentaires sur le passage à l’échelle en langage R qui seront abordés lors de cette formation :

Utilisation des packages datatable et dplyr

Ces deux packages sont couramment utilisés pour effectuer des opérations de manipulation de données de manière efficace et évolutive en R.

datatable : Ce package offre une alternative à la fonction data.frame de base de R. Il est optimisé pour la gestion de grands ensembles de données et propose des fonctionnalités avancées telles que le filtrage, le tri, l’agrégation et la jointure de données. Il peut être utilisé pour accélérer les opérations de manipulation de données sur de grandes tables.
dplyr : Ce package fournit une grammaire de manipulation de données cohérente et facile à utiliser. Il offre une syntaxe intuitive pour effectuer des opérations courantes telles que la sélection de colonnes, le filtrage, le regroupement, la jointure et la transformation de données. Bien que dplyr soit plus adapté aux ensembles de données de taille moyenne, il peut également être utilisé pour des tâches de grande envergure en combinaison avec d’autres techniques d’optimisation.

Connexion avec différentes bases de données (SQL, NoSQL)

R dispose de nombreux packages permettant de se connecter à des bases de données SQL et NoSQL, facilitant ainsi l’intégration avec des systèmes de gestion de bases de données (SGBD) populaires. Par exemple :

Pour les bases de données SQL : Les packages tels que DBI et RMySQL (pour MySQL) ou RPostgreSQL (pour PostgreSQL) permettent de se connecter et d’interagir avec des bases de données SQL en utilisant R.
Pour les bases de données NoSQL : Des packages tels que mongolite (pour MongoDB) ou elastic (pour Elasticsearch) offrent des fonctionnalités de connexion et de manipulation de données pour les bases de données NoSQL.

Ces packages permettent de récupérer, manipuler et stocker des données directement depuis R, en utilisant des requêtes SQL ou des méthodes spécifiques à chaque base de données.

Implémentation en R de l’environnement Hadoop

Hadoop est un framework open source conçu pour traiter de gros volumes de données sur des clusters de serveurs. Bien que R puisse être utilisé avec Hadoop, il est plus courant d’utiliser des langages tels que Java, Python ou Scala pour interagir directement avec l’écosystème Hadoop, notamment avec des outils comme HDFS (Hadoop Distributed File System) et MapReduce.

R propose néamoins des packages tels que rhdfs et rmr2 qui permettent d’intégrer des fonctions R dans le cadre du traitement distribué sur Hadoop. Ces packages permettent d’exécuter du code R sur les données stockées dans HDFS et de tirer parti du parallélisme offert par l’écosystème Hadoop.

Intégration de Apache Spark avec R

Apache Spark est un framework de traitement distribué et de calcul en mémoire. Spark fournit des API pour plusieurs langages, y compris R. L’intégration de R avec Spark permet d’exploiter les fonctionnalités de Spark, telles que le traitement en mémoire, le traitement par lots