Python pour la data science

 
  Toutes les formations  Big Data
  3 jours       2000       Avancé    
  Prochaine session
27, 28, 29 novembre 2017
Objectifs

Python s’impose comme un des langages outils pour la data science. Sa rigueur et sa capacité à s’intégrer à des infrastructures techniques robustes en font un choix de prédilection pour les big data.

Les objectifs sont de se familiariser avec les environnements de développement en Python, acquérir les bases de la programmation en Python pour traiter, visualiser et modéliser les données.


Prérequis
  • Connaissance de base de la programmation
  • Connaissance de base de techniques de statistiques

Contenu

Au travers d’IPython (version pour l’analyse interactive de Python)

  • Les différents environnements de développement
  • L’utilisation des notebooks

Les bases de Python

  • Organisation d’un programme
  • Types de données simples et complexes, List

Compréhension

  • Structures de contrôle
  • Gestion des fichiers
  • Principaux modules et fonctions

Préparation des données avec pandas

  • Lecture et écriture des données depuis et vers différentes sources (fichiers textes, Excel, bases de données, etc.)
  • Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples

La visualisation de données avec matplotlib & seaborn

  • Revue des différents types de graphiques

Apprentissage et analyse statistique avec sci-kit learn & statsmodels

  • Revue des techniques
  • Gestion des ensembles d’apprentissage et de test
  • Évaluation des modèles

Introduction à l’utilisation de Spark avec Python (pyspark)


Modalités pédagogiques

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.