Méthodes statistiques
Autres thèmes de formation

 

En complément des formations inter-entreprises de notre catalogue Méthodes statistiques, nous vous proposons les thèmes de formation suivants. N'hésitez pas à nous contacter à l'adresse conseil@ensae.fr pour organiser une formation sur mesure en intra-entreprise sur l'un de ces thèmes.


Durée indicative : 2 jours


OBJECTIFS

Savoir bien utiliser des indices existants.

Savoir construire des indices correspondant aux besoins propres de l’utilisateur.

Thèmes abordés

Les instituts de statistique diffusent régulièrement une batterie importante d’indices économiques comme l’indice des prix à la consommation ou l’indice de la production industrielle. Par ailleurs, chacun peut être amené à construire des indices qui lui sont propres de façon à synthétiser une information foisonnante. Cette formation vise à fournir une vision d’ensemble des principales questions méthodologiques liées à la construction des indices statistiques. Elle s’appuie sur des exemples concrets pour montrer le type de questions qui se posent, en les replaçant dans une problématique plus générale. Des applications simples sur tableur complètent la formation.

  • Pourquoi et pour qui construit-on des indices ?

  • Les indices classiques

  • Différentes approches des indices: statistiques, axiomatiques ou économiques

  • Le chaînage des indices, les changements de base

  • Quelques problèmes particuliers : données collectées, évolution des produits, données manquantes, méthodes hédoniques…

  • Présentation de différents indices existants

Durée indicative : 2 jours


OBJECTIFS

Acquérir les méthodes de détection des évènements rares et surtout techniques probabilistes de la théorie des valeurs extrêmes, ainsi que ses avancées actuelles, qui sont de plus en plus nécessaires et touchent des domaines variés.

Thèmes abordés

La présence de valeurs extrêmes (outliers) dans une distribution détériore la précision et la robustesse des estimations. A côté des méthodes déterministes de détection des valeurs extrêmes, la théorie des valeurs extrêmes, développée pour l’estimation de la probabilité d’occurrence d’événements rares, permet d’obtenir des seuils au-delà desquels des valeurs sont considérées comme extrêmes, pour une probabilité donnée. La théorie des valeurs extrêmes repose sur les convergences en loi des maxima ou des minima de variables aléatoires indépendantes convenablement re-normalisées.

Présentation des méthodes déterministes algébriques et graphiques de détection des valeurs extrêmes et traitement de celles-ci

Présentation de la théorie des valeurs extrêmes :

Lois du maximum, Méthodes classiques (valeurs record, moyenne des excès, approximation par la loi de Pareto généralisée) pour la détermination d’un seuil au-delà duquel un événement est considéré comme atypique. Elles permettent de prévoir des évènements graves (rares) pour une probabilité d’occurrence donnée (très faible) et un intervalle de confiance fixé.

Présentation d’une approche locale :

En assurance, la présence de sinistres graves vient perturber l’hypothèse de différenciation du risque collectif d’une classe à l’autre et la stabilité temporelle de l’indicateur de prime pure. Una approche locale (inliers) basée sur une estimation de la variance de l’indicateur de prime pure sera présentée.

Durée indicative : 3 jours


OBJECTIFS

Donner les outils théoriques et logiciels de premier niveau utiles pour l’analyse statistique des données de santé (médecine, pharmacie…)

Thèmes abordés

La formation présente les aspects théoriques et pratiques des analyses des données de santé. Les aspects règlementaires de l’analyse de ces données sur la personne humaine seront abordés. Les méthodes statistiques seront présentées et des applications seront systématiquement faites à l’aide du logiciel R.

Seront abordés les tests statistiques paramétriques et non paramétriques, la régression linéaire, la régression logistique, l’ANOVA, les méthodes diagnostiques, l’analyse des données censurées, la classification supervisée et non supervisée. Chaque méthode sera présentée de manière théorique mais une large place aux applications sera faite pour chacune.

Durée indicative : 2 jours


OBJECTIFS

Comprendre la logique de la statistique non paramétrique et mettre en œuvre des tests et des méthodes d’estimation non paramétriques.

Thèmes abordés

La statistique paramétrique est le cadre standard de la statistique. Les modèles statistiques sont alors décrits par un nombre fini de paramètres. En statistique non paramétrique, aucune hypothèse n’est faite a priori sur la loi sous-jacente.

Nous pouvons par exemple faire un test statistique sans spécifier de loi a priori sur la ou les variable(s) utilisée(s). Il en est de même si on veut examiner une liaison entre variables sans hypothèse sur les lois de celles-ci. Les copules modélisent la dépendance. Le bootstrap permet d’évaluer la sensibilité de ces estimateurs par rééchantillonnage.

Nous finirons par une brève description de l’estimation non paramétrique pour grands échantillons.

Tests non paramétriques :

Petits échantillons, lois non gaussiennes

Mesures de liaisons non paramétriques

Bootstrap et applications :

Estimation ponctuelle et calcul d’intervalles de confiances sur petits échantillons

Estimation non paramétrique :

Histogramme, méthodes à noyau

Durée indicative : 2 jours


OBJECTIFS

Comprendre les mécanismes de correction de la non-réponse les plus utilisés, être en mesure d’apprécier la qualité des estimations en contexte de non-réponse.

Thèmes abordés

Cette formation propose des compléments aux techniques présentées dans Sondages 1 et Sondages 2. Elle est adaptée au contexte de l’estimation en présence de non-réponse dans les enquêtes par sondage.

Elle propose en premier lieu d’éclairer les fondements des méthodes de repondération les plus fréquemment mises en œuvre pour corriger la non-réponse totale. On insiste en particulier sur les techniques de calage, qui dans certaines circonstances permettent de traiter le cas des mécanismes de réponse dits ‘non-ignorables’, pour lesquels le comportement de réponse est directement dépendant de la question posée.

On aborde également les principales méthodes d’imputation, utilisées plutôt pour corriger la non-réponse partielle, soit dans une approche classique où les aléas restent de la nature d’un échantillonnage, soit en utilisant des modèles de comportement qui considèrent les variables d’intérêt comme aléatoires.

Généralités sur le traitement de la non-réponse

Les méthodes de repondération

  • La non-réponse totale : conséquences en matière de biais et de variance
  • Mécanisme de réponse ignorable
  • Les principaux modèles d’estimation de la probabilité de réponse
  • Calcul d’erreur en présence de non-réponse totale
  • Les techniques de calage appliquées à la correction de la non-réponse ; calage dit « en une étape » ; macro Calmar2 (traitement de la non-réponse non-ignorable)

Méthode d‘imputation

  • Les principales méthodes d’imputation (imputation par la moyenne, par le ratio, par la régression, hot-deck, méthode du plus proche voisin)
  • Conséquences sur l’estimation des paramètres de dispersion ou d’association
  • Calcul d’erreur lorsque l’aléa est un aléa d’échantillonnage en population finie
  • Calcul d’erreur lorsque la variable d’intérêt est modélisée ; mécanisme de réponse ignorable

Durée indicative : 2 jours


OBJECTIFS

Savoir utiliser le logiciel SAS pour sélectionner un échantillon selon un plan de sondage usuel (stratifié, à probabilités inégales, à plusieurs degrés), estimer la variance d’un total, d’une moyenne ou d’un ratio estimé dans un échantillon aléatoire et apprécier la pertinence d’une corrélation entre deux caractères dans un tableau de fréquence.

Thèmes abordés

Depuis la version 8, le logiciel SAS met à disposition des responsables d’enquêtes des procédures statistiques leur permettant de tirer un échantillon aléatoire et d’estimer des paramètres à partir d’une enquête par sondage. La formation présente principalement les procédures SURVEYSELECT et SURVEYMEANS : fonctionnalités, éléments de syntaxe, exemples d’utilisation, mise en œuvre par les stagiaires. Elle est complétée par un aperçu des procédures permettant l’analyse de données d’enquête.

La formation constitue pour les utilisateurs de Sas un complément à la formation Sondages 1, dont le contenu est supposé connu ; elle n’aborde pas les méthodes de redressement, qui ne font pas l’objet de procédures dans le logiciel.

La procédure SURVEYSELECT

Panorama des principales méthodes probabilistes proposées par le logiciel pour sélectionner un échantillon dans une base de sondage organisée sous forme d’une table SAS : sondage aléatoire simple, stratifié, systématique, à probabilités proportionnelles à la taille…

La procédure SURVEYMEANS

Estimation du total, d’une moyenne, d’une proportion à partir de données d’échantillon ; estimation d’un ratio, estimation sur un domaine. Calcul de la précision des estimations en tenant compte du plan de sondage, comparaison avec la procédure MEANS de calcul de statistiques descriptives

Brève présentation de la procédure SURVEYFREQ

La procédure SURVEYFREQ produit des tableaux à plusieurs dimensions, des indicateurs de liaison et les tests associés

Durée indicative : 2 jours


OBJECTIFS

Acquérir les notions théoriques et pratiques nécessaires à la mise en œuvre des principales méthodes d’estimation sur petits domaines.

Thèmes abordés

Lorsque l’on veut publier des résultats d’une enquête sur des domaines trop “petits”, par exemple des zones géographiques restreintes ou des sous-populations peu nombreuses, les faibles effectifs de ces échantillons dans ces domaines peuvent conduire à des estimations “habituelles” imprécises. Il faut faire alors appel à des techniques d’estimation spécifiques, fondées sur l’utilisation d’information auxiliaire et sur des modèles plus ou moins complexes. La formation présente un certain nombre de ces méthodes, encore assez peu utilisées en France, ainsi que plusieurs exemples.

La problématique de l’estimation sur petits domaines

Les estimateurs directs

  • L’estimateur par calage sur une structure locale

Les estimateurs reposant sur des modèles implicites

  • Les estimateurs synthétiques
  • Les estimateurs composites

Les méthodes reposant sur des modèles explicites (modèle linéaire mixte, modèle linéaire mixte généralisé)

  • Les estimateurs adaptés aux variables quantitatives
  • Les estimateurs adaptés aux variables qualitatives

Durée indicative : 2 jours


OBJECTIFS

Connaître les méthodes de rééchantillonnage et leurs applications classiques pour l’inférence statistique.

Thèmes abordés

Cette formation a pour objectif de dresser un panorama des méthodes de rééchantillonnage et de leurs applications classiques pour l’inférence statistique : estimation du biais, de la variance d’un estimateur, construction d’intervalles de confiance, construction de tests d’hypothèses. Une attention particulière sera portée au bon usage du rééchantillonnage en pratique, en s’appuyant sur des cas typiques d’échec du bootstrap « naïf » : valeurs extrêmes, régression, discrimination, séries temporelles, U statistiques, pour lesquels des remèdes seront proposés. Enfin, les méthodes récentes d’agrégation basées sur le rééchantillonnage (bagging, forêts aléatoires, boosting) seront évoquées.

Méthodes de rééchantillonnage et applications à l’inférence statistique

  • Introduction, principe du plug in
  • Bootstrap et rééchantillonnage : jackknife, bootstrap dit « naïf », bootstrap à poids
  • Propriétés d’un estimateur : estimation bootstrap du biais, de la variance, de l’erreur quadratique moyenne
  • Intervalles de confiance : bootstrap-t, percentile bootstrap, BC-percentile bootstrap, Bca-percentile bootstrap
  • Tests d’hypothèses : tests de permutation, tests bootstrap

Quelques échecs du boostrap naïf et remèdes

  • Valeurs extrêmes
  • Régression
  • Discrimination
  • Séries temporelles
  • U statistiques

Méthodes d’agrégation basées sur le bootstrap

  • Bagging
  • Forêts aléatoires
  • Boosting

Durée indicative : 4 jours (2+2)


OBJECTIFS

Cette formation permet de modéliser et prévoir des séries temporelles multivariées, notamment dans le domaine économique.

Thèmes abordés

La modélisation vectorielle ou multivariée permet d’étudier la dynamique jointe de plusieurs séries : Lorsque les séries sont stationnaires, il s’agit d’une généralisation de l’étude des processus AR. La popularité des modèles vectoriels autorégressifs (VAR) est liée à leur souplesse d’utilisation et à leur capacité à tester des hypothèses économiques. Lorsque les séries ne sont pas stationnaires mais cointégrées, les modèles vectoriels à correction d’erreur (VECM) permettent de spécifier des relations stables à long terme tout en analysant dans le même temps la dynamique de court terme des variables considérées. Les modèles VAR structurels (SVAR) complètent cette approche multivariée.

Les cas pratiques seront idéalement traités sous R, mais pourront également être mis en œuvre sous SAS.

Généralités sur les séries temporelles multivariées.

Modèles vectoriels autorégressifs (VAR).

Tests de stationarité.

Analyse de la dynamique des modèles VAR.

Tests de Causalité.

Modèles vectoriels à correction d’erreur (VECM).

Tests de cointégration.

Compléments sur les modèles VAR structurels (SVAR).

Durée indicative : 3 jours


OBJECTIFS

Cette formation permet de modéliser et prévoir une série temporelle à l’aide de méthodes d’apprentissages statistique : régression régularisée, GAM, MARS, arbres, SVR, etc. qu’il sera possible d’agréger.

Thèmes abordés

De nombreuses séries temporelles doivent être modélisées avec conjointement des variables retards et des variables exogènes. Si les modèles ARMAX constituent une alternative réaliste, ces modèles peuvent largement être complétés avec d’autres méthodes de régression issues en partie du monde de l’apprentissage.

Les cas pratiques seront idéalement traités sous R, mais pourront également être mis en œuvre sous Python.

Régression régularisée (Ridge, Lasso, Lars)

Modèle GAM

Modèle MARS

Méthodes locales : k-plus proches voisins et noyau de lissage.

Modèle SVR

Agrégation de modèles.

Durée indicative : 4 jours (2+2)


OBJECTIFS

Cette formation propose de modéliser et prévoir une série temporelle à l’aide des modèles élaborés par Box et Jenkins : la famille ARMA.

Thèmes abordés

Les modèles ARMA permettent de modéliser des séries temporelles pour lesquelles la seule dynamique passée permet de les appréhender. Ces modèles linéaires sont encore très utilisés en pratique. En présence de variables exogènes, les modèles ARMAX constituent une alternative intéressante. Un complément sur les modèles ARCH-GARCH, directement issus du monde financier, permettent d’élargir le domaine d’applicabilité des modèles ARMA, notamment lorsque les résidus ne peuvent pas être considérés comme gaussiens.

Les cas pratiques seront idéalement traités sous R, mais pourront également être mis en œuvre sous SAS.

Stationnarité et autocorrélogrammes (simples et partiels).

Modèles ARMA : identification, estimation et prévision.

Traitement de la non-stationnarité : modèles ARIMA et SARIMA.

Pratique de la modélisation ARMA.

Compléments sur les modèles ARMAX.

Compléments sur les modèles ARCH-GARCH.

Durée indicative : 3 jours


OBJECTIFS

Comprendre les problématiques propres aux données de durée, en particulier concernant l’échantillonnage et la sélection dynamique. Donner les outils permettant d’analyser les données de durée et de mener une démarche de modélisation adéquate.

Thèmes abordés

Les variables de durée sont fréquemment soumises à des phénomènes de censure, troncatures ou biais de sélection. La formation fournit des outils méthodologiques pour les analyser, et estimer les points de sortie. Plusieurs modèles sont proposés, se rapportant à des analyses paramétriques, semi-paramétriques ou non paramétriques, tenant compte de variables omises dans le temps, ou lorsque le point de sortie est attribuable à des événements de différents types (modèles à risques concurrents).

Rappels des différents concepts de statistique sur données de durée

  • Censure et troncature
  • Types d’échantillonnage (flux, stock, censure par intervalle)
  • Densité, survie, hasard et hasard intégré

Estimation non-paramétrique

  • Estimateurs de Kaplan-Meier et de Nelson-Aalen
  • Test de comparaison log-rank
  • Application Stata : déclaration de données (-stset-) pour différentes structures d’échantillonnage,
  • Estimateurs de Kaplan-Meier et de Nelson-Aalen, tests de comparaisons

Modèles paramétriques

  • Hasard proportionnel et temps accéléré : estimation et utilisation
  • Applications Stata : -streg-, -stcurve-, -predict-
  • Régresseurs variant avec le temps : principe et implémentation Stata (-stsplit-)

Estimation semi-paramétrique

  • Modèles semi-paramétriques (1) : constant par morceaux
  • Modèles semi-paramétriques (2) : Cox
  • Applications Stata : -stcox-
  • Censure par intervalle (-cloglog-)

Hétérogénéité inobservée : le problème de la sélection dynamique

  • Correction de l’hétérogénéité inobservée : Loi Gamma
  • Application Stata

Durée indicative : 2 jours


OBJECTIFS

Face à des données « multi-indicées », savoir choisir la modélisation le plus pertinente en fonction de ses besoins, connaitre les avantages et limites des différents modèles statistiques classiquement utilisés.

Thèmes abordés

La formation a pour but de présenter différents types de modèles permettant de prendre en compte l’hétérogénéité inobservée en présence de “données à indice multiple”. Il peut par exemple s’agir de données sur des élèves dans des classes, de données sur les consultations de médecins auprès de différents patients, de données concernant différents médecins dans des établissements des soins, des salariés dans des entreprises, etc. Aussi bien les modèles dits “multi-niveaux” que les “modèles mixtes” ou “modèles hiérarchiques” relèvent de cette logique.

Rappel sur le modèle linéaire :

existence de l’estimateur des moindres carrés ordinaires (MCO), absence de biais, convergence, estimation de variance, efficacité.

Présentation du modèle à effet fixe :

propriétés, méthodes d’estimation.

Présentation du modèle à effet aléatoire :

propriétés, méthodes d’estimation

Discussion des deux types de modèle dans le cadre linéaire, présentation d’une procédure simple de test de modèle

Le cas des modèles binaires :

  • Rappel sur l’économétrie des modèles à variables qualitatives en coupe,
  • Présentation du problème des paramètres incidents,
  • Le modèle logit-conditionnel,
  • Les modèles logit et probit à effet aléatoire.

Exercices de programmation des différents modèles sur ordinateur