R pour la data science

 
  Toutes les formations  Big Data
  3 jours       2000       Avancé    
  Prochaine session
25, 26, 27 septembre 2017
Objectifs

R s’impose comme un des langages outils pour la data science. sa rigueur et sa capacité à s’intégrer à des infrastructures techniques robustes en font un choix de prédilection pour les big data.

Les objectifs sont de se familiariser avec les environnements de développement en R, acquérir les bases de la programmation en R pour traiter, visualiser et modéliser les données.


Prérequis
  • Connaissance de base de la programmation
  • Connaissance de base de techniques de statistiques
  • Maîtrise de R

Contenu

Les bases de R

  • Manipulation des apply (apply, lapply, sapply…)
  • Les bonnes pratiques de codage
  • Principaux modules et fonctions

Préparation des données avec data.table et dplyr

  • Lecture et écriture des données depuis et vers différentes sources (fichiers textes, Excel). Importation et connexion avec des bases de données
  • Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples

La visualisation de données avec ggplot

  • Revue des différents types de graphiques

Apprentissage et analyse statistique avec les packages adaptés

  • Revue des techniques
  • Gestion des ensembles d’apprentissage et de test
  • Evaluation des modèles

Introduction à l’utilisation de spark avec R