Glossaire statistique & data science

ACM • ACP • AFC • Analyse exploratoire • Analyse factorielle • API • Arbres de régression ou de décision • Big Data • CAH • Classification supervisée • Clustering • Data analyst • Data engineer • Data scientist • Deep learning • Échantillonnage • Estimation • Gradient boosting • Graph mining • Hadoop • K-means • Langage R • LDA • Loi forte des grands nombres • Machine learning • Modèle de prévision • NLP • NoSQL • Pipeline de traitements • Python • Random forest • Régression • Régression linéaire • Régression logistique • RGPD • RShiny • SQL • Statistique inférentielle • SVM • SVR • Text mining • Théorème de la limite centrale • Validation croisée • Visualisation ou DataViz • Web scraping • Workflow

ACM

L’Analyse des Correspondances Multiples (ACM) est une méthode d’analyse factorielle applicable sur des jeux de données avec des variables qualitatives (catégorielles).

ACP

L’Analyse en Composantes Principales (ACP) est une méthode d’analyse factorielle applicable sur des jeux de données avec des variables quantitatives (numériques).

AFC

L’analyse factorielle des Correspondances (AFC) est une méthode d’analyse factorielle applicable sur des jeux de données avec deux variables qualitatives (catégorielles).

Analyse exploratoire

L’analyse exploratoire des données désigne un ensemble de méthodes à même d’analyser des jeux de données (individus/variables). A l’appui de résumés statistiques et de visualisations, elles identifient les relations potentielles entre variables (analyse factorielle) ou entre individus (clustering).

Analyse factorielle

L’analyse factorielle (dimension reduction) désigne un ensemble de méthodes d’analyse exploratoire permettant de réduire le nombre de variables d’un jeu de données à partir des corrélations. Parmi ces méthodes on trouve l’ACP, l’AFC et l’ACM.

API

Par le biais d’une interface de programmation applicative, une API (Application Programming Interface), un logiciel fournit un accès à des données ou des fonctionnalités en cachant les détails de leur mise en œuvre. L’API peut évoluer au cours du temps mais son interface utilisateur reste généralement invariante.

Arbres de régression ou de décision

L’algorithme des arbres de régression et de décision ou CART (Classification And Regression Tree) est une méthode de machine learning qui consiste à diviser de manière récursive l’échantillon (à la racine on trouve tout l’échantillon) en deux branches selon la covariable qui minimise l’hétérogénéité. Les nœuds terminaux sont appelés feuilles.

Big Data

Le terme Big data est communément employé pour désigner, à la fois, l’explosion de la volumétrie de données de natures très variées (quantitatives, qualitatives, textes, images, sons…) et les moyens permettant de les traiter (stockage, méthodes…).

CAH

La classification ascendante hiérarchique (CAH) est un algorithme de clustering qui produit une suite de partitions emboîtées par regroupements successifs à l’aide d’une stratégie d’agrégation.

Classification supervisée

En apprentissage supervisé, la classification supervisée (classification) permet de prévoir un label (ou étiquette, ou classe) d’un individu à partir de variables le caractérisant. L’apprentissage sur des données observées permet de définir une règle de prévision.

Clustering

Le clustering (ou classification non supervisée, ou classification automatique) désigne un ensemble de méthodes d’analyse exploratoire permettant de réduire le nombre d’individus d’un jeu de données. Le regroupement en classes (clusters) s’effectue à partir des distances. Parmi ces méthodes on trouve la CAH et les k-means.

Data analyst

Le Data analyste (Data analyst) est en charge de collecter, nettoyer, traiter et analyser des données massives. Le but de l’analyse est notamment d’y trouver des corrélations, motifs récurrents ou tendances puis de générer des rapports, souvent sous forme visuelle, afin d’en illustrer les résultats et de les partager de manière synthétique avec les départements métiers de l’entreprise. Pour en savoir plus, découvrez notre article sur le métier de Data Analyst.

Data engineer

Le Data ingénieur (Data engineer) est responsable du cycle de vie complet des algorithmes produits : en amont par la mise en place de l’architecture des données et la création d’entrepôts de données, en aval par la mise en œuvre des solutions logicielles (optimisation des modèles, mise en production...). Pour en savoir plus, découvrez notre article sur le métier de Data Engineer.

Data scientist

Le Data scientiste (Data scientist) s’appuie sur un large éventail de méthodes et d’algorithmes avancés (notamment en machine learning) pour produire des outils de modélisation et d’aide à la décision performants. Il travaille sur des données structurées ou non (textes, images) et possède de solides connaissances en informatique (bases de données, langages scientifiques comme python ou R). Pour en savoir plus, découvrez notre article sur le métier de Data Scientist.

Deep learning

Dans le machine learning, le deep learning (ou apprentissage profond) désigne l’apprentissage (ou entrainement) de réseaux de neurones organisés en couches connectées. Réputé performant pour de nombreux problèmes tels que le traitement d’images ou le traitement du langage naturel, il requiert de gros volumes de données pour l’apprentissage ainsi que d’importants moyens de calcul.

Échantillonnage

En statistique, l’échantillonnage (sampling) désigne les méthodes de sélection d’un sous-ensemble d’individus à l’intérieur d’une population globale. Le résultat obtenu par cette opération est nommé échantillon. Il existe différentes méthodes d’échantillonnage : aléatoire, systématique, par grappes…

Estimation

L’estimation (statistique) consiste à évaluer un paramètre (proportion, moyenne ou variance théoriques…) ou une fonction de lien/prévision entre variables à partir des données observées. On distingue l’estimation ponctuelle de l’estimation par intervalle de confiance qui fournit un encadrement avec une probabilité donnée.

Gradient boosting

Le gradient boosting est une méthode de machine learning qui consiste à agréger des prédicteurs dits faibles (weak learners), présentant une variance faible mais un biais élevé (des petits arbres par exemple). Parmi ces méthodes, on trouve AdaBoost, le L2-boosting, Xgboost.

Graph mining

L’objectif du graph mining est d’extraire de l’information pertinente au sein d’un ensemble de graphes ou d’un seul réseau de grande taille. Cela peut servir à déterminer des corrélations au sein d’un ensemble d’observations (sous-graphes), à comprendre comment évolue un réseau au cours du temps ou qui est central dans un réseau.

Hadoop

Hadoop est un framework open source dédié à la création d’applications distribuées aussi bien en termes de stockage que de traitement des données. Un de ses avantages est de permettre d’ajouter du hardware et des clusters pour faire face à l’explosion du volume de données sans passer par une reconfiguration ou l’achat de licences logicielles onéreuses.

K-means

K-means est un algorithme de clustering. Pour un nombre de classes fixé par l’utilisateur, il permet par itérations successives de minimiser l’inertie intra-classes, et ce de manière peu coûteuse algorithmiquement.

Langage R

Créé en 1993, R est un langage de programmation interprété distribué sous licence libre, facilement extensible et largement utilisé en statistique, data analyse et data science. Grâce à ses nombreux packages prédéfinis, il permet d’extraire, de traiter et d’ordonner de grands volumes de données, d’effectuer différents calculs ou tests statistiques et de représenter ces données sous forme graphique. En outre, il peut facilement s’interfacer avec différentes bases de données et dispose d’un environnement de développement puissant appelé R studio, libre, gratuit et multiplateforme.

LDA

L’analyse discriminante linéaire ou LDA (linear discriminant analysis) est une méthode de classification supervisée qui recherche les meilleures combinaisons linéaires des covariables pour séparer au mieux les classes.

Loi forte des grands nombres

La loi forte des grands nombres (LFGN) est une loi probabiliste qui indique que la moyenne empirique des n premiers termes d'une suite de variables aléatoires indépendantes et de même espérance converge, quand n tend vers l’infini, vers l’espérance de ces variables aléatoires.

Machine learning

Le machine learning (ou apprentissage automatique) consiste à faire découvrir à des programmes informatiques des motifs récurrents dans de gros jeux de données. On distingue plusieurs types d’apprentissage : supervisé (régression ou classification supervisée ), non supervisé (clustering) et par renforcement (basé sur un système de récompenses et de pénalités).

Modèle de prévision

Les techniques statistiques peuvent produire des modèles basés sur l’analyse de données historiques permettant de prévoir des valeurs futures (ou leur probabilité). On parle également d’inférence.

NLP

Le traitement du langage naturel ou NLP (Natural Language Processing) est une branche de l’intelligence artificielle, mêlant informatique et linguistique, basée sur le machine learning et le deep learning. Son but est de comprendre ou de générer du langage humain à l’écrit ou à l’oral.

NoSQL

NoSQL désigne une famille hétérogène de systèmes de gestion de bases de données qui s’écarte du modèle relationnel traditionnel pour accélérer les traitements. Il permet de stocker des données structurées, non structurées, semi-structurées ou polymorphiques.

Pipeline de traitements

Un pipeline de traitements représente les différentes étapes du parcours des données au sein de l’entreprise d’une source vers une ou plusieurs cibles. Il commence par l’extraction de données brutes, se poursuit par le nettoyage puis la transformation de celles-ci dans un format adéquat et s’achève par leur transfert vers une ou plusieurs cibles.

Python

Créé en 1991, Python est un langage de programmation sous licence libre, orienté objet et interprété. Il est utilisé dans une grande variété de contextes grâce à ses nombreuses bibliothèques spécialisées, mais également en raison de sa relative simplicité. Il est aussi bien employé comme langage de script et en développement web que pour développer une large palette d’applications pour ordinateurs ou mobiles. Il est notamment communément adopté en data science pour extraire des données depuis le web, nettoyer et traiter ces données ou les représenter sous forme graphique.

Random forest

L’algorithme des forêts aléatoires (random forest) est une méthode de machine learning qui consiste à agréger des arbres de régression ou de décision (CART) présentant un biais faible mais une variance élevée.

Régression

En apprentissage supervisé, la régression (classification) permet de prévoir une caractéristique quantitative d’un individu à partir de variables le caractérisant. L’apprentissage sur des données observées permet de définir une règle de prévision.

Régression linéaire

La régression linéaire est une méthode de régression qui suppose que la relation entre la variable d’intérêt et les covariables est linéaire. Sa résolution s’effectue à l’aide de l’algorithme des moindres carrés ordinaires (MCO).

Régression logistique

La régression logistique est une méthode de classification supervisée qui suppose que la relation entre la probabilité conditionnelle d’appartenance à une classe et les covariables est linéaire.

RGPD

Le règlement général sur la protection des données (RGPD), entré en vigueur en 2018, constitue le texte de référence en matière de protection de données à caractère personnel à l’échelle de l’Union européenne. Le RGPD confère aux responsables de la collecte de données un large éventail d’obligations, notamment en termes de finalité, de proportionnalité, de durée de conservation, de confidentialité et de sécurité.

RShiny

RShiny est un package du Langage R développé par RStudio qui permet de créer facilement des applications web interactives.

SQL

SQL (Structured Query Language.) est un langage informatique créé dans les années 1970 pour exploiter des bases de données relationnelles. Il permet de manipuler les données, de gérer les transactions et les droits d’accès mais aussi de créer et d’administrer la structure de la base. Il peut être utilisé via une interface de commandes en ligne, intégré à un programme écrit dans autre langage de programmation (« embedded SQL ») ou dans des procédures stockées.

Statistique inférentielle

La statistique inférentielle (ou décisionnelle) permet de prendre des décisions pour une population sur la base d’un échantillon, en considérant un modèle probabiliste. Elle inclut estimation ponctuelle, estimation par intervalle de confiance et tests d’hypothèses statistiques.

SVM

L’algorithme SVM (Support Vector Machine) est une méthode de machine learning pour la classification supervisée binaire qui consiste à séparer via un hyperplan les données avec des étiquettes différentes. L’intégration de variables ressorts (slack variables) et l’astuce du noyau (kernel trick) sont utilisés pour faciliter cette séparation.

SVR

L’algorithme SVR (Support Vector Regression) est une méthode de machine learning pour la régression , analogue à l’algorithme SVM en classification supervisée .

Text mining

Le text mining recouvre un ensemble de techniques qui visent à créer de l’information à partir d’un corpus de textes. Il fonctionne en deux étapes : tout d’abord l’analyse du corpus de textes pour reconnaître les mots, phrases, rôles grammaticaux, puis dans un second temps l’interprétation de cette analyse. Contrairement au NLP, il ne permet pas de comprendre un texte mais fournit des informations statistiques essentielles sur celui-ci.

Théorème de la limite centrale

Le théorème de la limite centrale (TCL : Theorem Central Limit) est une loi probabiliste qui indique que la loi moyenne empirique des n premiers termes d'une suite de variables aléatoires indépendantes et de mêmes espérance et variance, converge, quand n tend vers l’infini, vers une variable aléatoire gaussienne.

Validation croisée

La validation croisée (cross validation) est une méthode permettant d’estimer la performance d’un modèle de prévision et d’optimiser les hyperparamètres. La validation croisée à k blocs divise l’échantillon en k morceaux et considère alternativement chacun des blocs comme l’échantillon test et les (k-1) autres blocs comme l’échantillon d’apprentissage.

Visualisation ou DataViz

La visualisation de données ou DataViz recouvre l’ensemble des techniques qui consistent à représenter graphiquement (sous forme de points, barres, courbes, cartes…) des données statistiques brutes. En plus d’être un moyen de communication puissant à la base du data storytelling, synthétiser les données de manière visuelle vise à rendre leur analyse plus rapide et plus aisée pour une prise de décision plus facile.

Web scraping

Le web scraping (ou web harvesting) désigne le processus d’extraction et d’exportation, généralement de manière automatique, des données d’un site web dans le but de les réutiliser sous une autre forme et pour un autre usage. Le web scraping est légal lorsque les données extraites sont librement accessibles sur le web. Il doit donc respecter notamment les droits d’auteur.

Workflow

Le workflow (ou flux de travaux) représente la modélisation d’un processus opérationnel, c’est-à-dire la suite des opérations liées aux traitements des données qu’elles soient effectuées par des acteurs humains ou non. Il permet le pilotage et le suivi de ces traitements et garantit à la fois transparence et reproductibilité.