Python pour la data science
Prochaine session
15, 16, 17 mars 2023
Python s’impose comme un des principaux langages pour la data science. Sa simplicité d’utilisation et sa capacité à s’intégrer à des infrastructures techniques robustes en font un choix de prédilection pour les big data.
Les objectifs sont de se familiariser avec les environnements de développement en Python, acquérir les bases de la programmation en Python pour traiter, visualiser et modéliser les données.
- Connaissance de base de la programmation
- Connaissance de base de techniques de statistiques
Au travers d’IPython (version pour l’analyse interactive de Python)
- Les différents environnements de développement
- L’utilisation des notebooks
Les bases de Python
- Organisation d’un programme
- Types de données simples et complexes, List
Compréhension
- Structures de contrôle
- Gestion des fichiers
- Principaux modules et fonctions
Préparation des données avec pandas
- Lecture et écriture des données depuis et vers différentes sources (fichiers textes, Excel, bases de données, etc.)
- Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples
La visualisation de données avec matplotlib & seaborn
- Revue des différents types de graphiques
Apprentissage et analyse statistique avec sci-kit learn & statsmodels
- Revue des techniques
- Gestion des ensembles d’apprentissage et de test
- Évaluation des modèles
Introduction à l’utilisation de Spark avec Python (pyspark)
Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.