R pour la data science
Prochaine session
6, 7, 8 décembre 2023
R s’impose comme un des langages outils pour la data science. Sa rigueur et sa capacité à s’intégrer à des infrastructures techniques robustes en font un choix de prédilection pour les big data.
Les objectifs sont de se familiariser avec les environnements de développement en R, acquérir les bases de la programmation en R pour traiter, visualiser et modéliser les données.
- Connaissance de base de la programmation
- Connaissance de base de techniques de statistiques
- Maîtrise de R
Les bases de R
- Manipulation des apply (apply, lapply, sapply…)
- Les bonnes pratiques de codages
- Principaux modules et fonctions
Préparation des données avec data.table et dplyr
- Lecture et écriture des données depuis et vers différentes sources (fichiers textes, Excel). Importation et connexion avec des bases de données
- Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples
La visualisation de données avec ggplot
- Revue des différents types de graphiques
Apprentissage et analyse statistique avec les packages adaptés
- Revue des techniques
- Gestion des ensembles d’apprentissage et de test
- Evaluation des modèles
Introduction à l’utilisation de spark avec R
Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.