Méthodes statistiques
Autres thèmes de formation

 

En complément des formations inter-entreprises de notre catalogue Méthodes statistiques, nous vous proposons les thèmes de formation suivants. N'hésitez pas à nous contacter à l'adresse conseil@ensae.fr pour organiser une formation sur mesure en intra-entreprise sur l'un de ces thèmes.


Durée indicative : 2 jours


OBJECTIFS

Acquérir les méthodes de détection des évènements rares et surtout techniques probabilistes de la théorie des valeurs extrêmes, ainsi que ses avancées actuelles, qui sont de plus en plus nécessaires et touchent des domaines variés.

Thèmes abordés

La présence de valeurs extrêmes (outliers) dans une distribution détériore la précision et la robustesse des estimations. A côté des méthodes déterministes de détection des valeurs extrêmes, la théorie des valeurs extrêmes, développée pour l’estimation de la probabilité d’occurrence d’événements rares, permet d’obtenir des seuils au-delà desquels des valeurs sont considérées comme extrêmes, pour une probabilité donnée. La théorie des valeurs extrêmes repose sur les convergences en loi des maxima ou des minima de variables aléatoires indépendantes convenablement re-normalisées.

Présentation des méthodes déterministes algébriques et graphiques de détection des valeurs extrêmes et traitement de celles-ci

Présentation de la théorie des valeurs extrêmes :

Lois du maximum, Méthodes classiques (valeurs record, moyenne des excès, approximation par la loi de Pareto généralisée) pour la détermination d’un seuil au-delà duquel un événement est considéré comme atypique. Elles permettent de prévoir des évènements graves (rares) pour une probabilité d’occurrence donnée (très faible) et un intervalle de confiance fixé.

Présentation d’une approche locale :

En assurance, la présence de sinistres graves vient perturber l’hypothèse de différenciation du risque collectif d’une classe à l’autre et la stabilité temporelle de l’indicateur de prime pure. Una approche locale (inliers) basée sur une estimation de la variance de l’indicateur de prime pure sera présentée.

Durée indicative : 2 jours


OBJECTIFS

Comprendre la logique de la statistique non paramétrique et mettre en œuvre des tests et des méthodes d’estimation non paramétriques.

Thèmes abordés

La statistique paramétrique est le cadre standard de la statistique. Les modèles statistiques sont alors décrits par un nombre fini de paramètres. En statistique non paramétrique, aucune hypothèse n’est faite a priori sur la loi sous-jacente.

Nous pouvons par exemple faire un test statistique sans spécifier de loi a priori sur la ou les variable(s) utilisée(s). Il en est de même si on veut examiner une liaison entre variables sans hypothèse sur les lois de celles-ci. Les copules modélisent la dépendance. Le bootstrap permet d’évaluer la sensibilité de ces estimateurs par rééchantillonnage.

Nous finirons par une brève description de l’estimation non paramétrique pour grands échantillons.

Tests non paramétriques :

Petits échantillons, lois non gaussiennes

Mesures de liaisons non paramétriques

Bootstrap et applications :

Estimation ponctuelle et calcul d’intervalles de confiances sur petits échantillons

Estimation non paramétrique :

Histogramme, méthodes à noyau

Durée indicative : 3 jours


OBJECTIFS

Etre capable de construire et analyser les plans d’expérience usuels pour facteurs quantitatifs.

Thèmes abordés

Introduction à la méthode

Objectifs, présentations d’exemples, première mise en oeuvre très simple.

Outils mathématiques

Rappels de modélisation linéaire et de calcul matriciel.

Plans factoriels complets pour modèles d’ordre un

Première approche via les plans les plans simples, exemples d’études sur machines avec R ou SAS,

Plans factoriels fractionnaires pour modèles d’ordre un

Présentation de la théorie des fractions régulières, notion de résolution, utilisation des fractions régulières de résolution III et applications.

Plans factoriels pour modèles à effets d’interactions

Introduction d’effets d’interactions, utilisation des fractions régulières de résolution V et applications.

Plans pour surfaces de réponse

Utilisation d’un modèle polynomial d’ordre deux complet et ajustement via des plans composites centrés, des plans de Box et Behnken, des plans hybrides, etc.

Durée indicative : 3 jours


OBJECTIFS

Donner les outils théoriques et logiciels de premier niveau utiles pour l’analyse statistique des données de santé (médecine, pharmacie…)

Thèmes abordés

La formation présente les aspects théoriques et pratiques des analyses des données de santé. Les aspects règlementaires de l’analyse de ces données sur la personne humaine seront abordés. Les méthodes statistiques seront présentées et des applications seront systématiquement faites à l’aide du logiciel R.

Seront abordés les tests statistiques paramétriques et non paramétriques, la régression linéaire, la régression logistique, l’ANOVA, les méthodes diagnostiques, l’analyse des données censurées, la classification supervisée et non supervisée. Chaque méthode sera présentée de manière théorique mais une large place aux applications sera faite pour chacune.

Durée indicative : 1 jour


OBJECTIFS

Avoir les connaissances légales en matière de gestion du secret statistique.

Savoir prendre en compte le secret statistique lors de l’élaboration et lors de la diffusion de toutes les informations statistiques mises à disposition sous forme de tableaux de données agrégées.

Thèmes abordés

La gestion du secret en matière de statistique est un souci de plus en plus présent ces dernières années. D’un côté, les organismes producteurs de statistiques sont poussés à publier des données toujours plus détaillées ; de l’autre, ces mêmes organismes ont l’obligation légale et morale de garantir la confidentialité des informations qui leur ont été confiées par les personnes ou entreprises. Cette confidentialité est vitale pour obtenir une bonne coopération des répondants et maintenir la meilleure qualité possible des informations collectées.

Par application de la loi de 1951 sur l’obligation, la coordination et le secret en matière de statistiques, les organismes du Système Statistique Public français ont notamment l’obligation de contrôler la divulgation statistique dans les informations qu’ils mettent à disposition, en minimisant le risque que des informations sensibles sur des individus ou des entreprises puissent être divulguées à partir des données diffusées.

La loi du 7 juin 1951 :

  • données sur les ménages et individus ; données sur les entreprises

Problèmes et critères dans …

  • Les tableaux de fréquence, aussi appelés tableaux de comptage
  • Les tableaux de volume : ventilation d’une variable telle que le chiffre d’affaires ou le revenu
  • Les tableaux issus d’enquête : prise en compte des poids
  • Les tableaux liés par une des variables de ventilation
  • Les tableaux hiérarchisés : exemple de la NAF, variable possédant une structure emboîtée.

Les méthodes de gestion du secret statistique

  • La restructuration des tableaux
  • La suppressions des cases sous secret

Gestion du secret statistique via le logiciel Argus

  • Présentation du logiciel

Durée indicative : 2 jours


OBJECTIFS

  • Pouvoir définir l’échantillonnage et la pondération les mieux adaptés à une problématique d’estimation longitudinale et/ou transversale en présence de données longitudinales.
  • Être en mesure d’appliquer la méthode de partage des poids dans divers contextes.
Thèmes abordés

Cette formation propose des compléments aux techniques présentées dans Sondages 1 et Sondages 2 qui se recoupent assez largement.

Tout d’abord, il s’agit d’étudier le sondage indirect de manière assez large, lequel permet par définition d’échantillonner une population au travers d’une autre. On trouve de nombreuses applications à cette méthode, dont le traitement des pondérations en présence de bases de sondage multiples, en présence de bases de sondage incomplètes, ou lorsqu’on souhaite échantillonner des populations rares, ou encore quand on traite des enquêtes répétées dans le temps (en particulier les systèmes d’enquête avec échantillonnage rotatif).

En second lieu, on aborde la problématique des enquêtes répétées dans le temps – panels et échantillons rotatifs – afin de préciser les cas d’utilisation et la pondération à mettre en œuvre.

Sondage indirect (échantillonnage d’une population au travers d’une autre)

  • Pondération par la méthode de partage des poids ; pondération optimale ; système optimum de liens
  • Application à la pondération en cas de bases de sondages multiples
  • Application à la pondération en cas de base de sondage incomplète
  • Redressements et traitement de la non-réponse lorsque l’échantillonnage est indirect

Enquêtes répétées dans le temps

  • Les différentes formes d’enquêtes répétées dans le temps : population et paramètres concernés, avantages, inconvénients
  • Le cas des panels
  • L’échantillonnage rotatif : avantages, pondération en approche longitudinale, pondération en approche transversale.

Durée indicative : 2 jours


OBJECTIFS

Comprendre les mécanismes de correction de la non-réponse les plus utilisés, être en mesure d’apprécier la qualité des estimations en contexte de non-réponse.

Thèmes abordés

Cette formation propose des compléments aux techniques présentées dans Sondages 1 et Sondages 2. Elle est adaptée au contexte de l’estimation en présence de non-réponse dans les enquêtes par sondage.

Elle propose en premier lieu d’éclairer les fondements des méthodes de repondération les plus fréquemment mises en œuvre pour corriger la non-réponse totale. On insiste en particulier sur les techniques de calage, qui dans certaines circonstances permettent de traiter le cas des mécanismes de réponse dits ‘non-ignorables’, pour lesquels le comportement de réponse est directement dépendant de la question posée.

On aborde également les principales méthodes d’imputation, utilisées plutôt pour corriger la non-réponse partielle, soit dans une approche classique où les aléas restent de la nature d’un échantillonnage, soit en utilisant des modèles de comportement qui considèrent les variables d’intérêt comme aléatoires.

Généralités sur le traitement de la non-réponse

Les méthodes de repondération

  • La non-réponse totale : conséquences en matière de biais et de variance
  • Mécanisme de réponse ignorable
  • Les principaux modèles d’estimation de la probabilité de réponse
  • Calcul d’erreur en présence de non-réponse totale
  • Les techniques de calage appliquées à la correction de la non-réponse ; calage dit « en une étape » ; macro Calmar2 (traitement de la non-réponse non-ignorable)

Méthode d‘imputation

  • Les principales méthodes d’imputation (imputation par la moyenne, par le ratio, par la régression, hot-deck, méthode du plus proche voisin)
  • Conséquences sur l’estimation des paramètres de dispersion ou d’association
  • Calcul d’erreur lorsque l’aléa est un aléa d’échantillonnage en population finie
  • Calcul d’erreur lorsque la variable d’intérêt est modélisée ; mécanisme de réponse ignorable

Durée indicative : 2 jours


OBJECTIFS

Savoir utiliser le logiciel SAS pour sélectionner un échantillon selon un plan de sondage usuel (stratifié, à probabilités inégales, à plusieurs degrés), estimer la variance d’un total, d’une moyenne ou d’un ratio estimé dans un échantillon aléatoire et apprécier la pertinence d’une corrélation entre deux caractères dans un tableau de fréquence.

Thèmes abordés

Depuis la version 8, le logiciel SAS met à disposition des responsables d’enquêtes des procédures statistiques leur permettant de tirer un échantillon aléatoire et d’estimer des paramètres à partir d’une enquête par sondage. La formation présente principalement les procédures SURVEYSELECT et SURVEYMEANS : fonctionnalités, éléments de syntaxe, exemples d’utilisation, mise en œuvre par les stagiaires. Elle est complétée par un aperçu des procédures permettant l’analyse de données d’enquête.

La formation constitue pour les utilisateurs de Sas un complément à la formation Sondages 1, dont le contenu est supposé connu ; elle n’aborde pas les méthodes de redressement, qui ne font pas l’objet de procédures dans le logiciel.

La procédure SURVEYSELECT

Panorama des principales méthodes probabilistes proposées par le logiciel pour sélectionner un échantillon dans une base de sondage organisée sous forme d’une table SAS : sondage aléatoire simple, stratifié, systématique, à probabilités proportionnelles à la taille…

La procédure SURVEYMEANS

Estimation du total, d’une moyenne, d’une proportion à partir de données d’échantillon ; estimation d’un ratio, estimation sur un domaine. Calcul de la précision des estimations en tenant compte du plan de sondage, comparaison avec la procédure MEANS de calcul de statistiques descriptives

Brève présentation de la procédure SURVEYFREQ

La procédure SURVEYFREQ produit des tableaux à plusieurs dimensions, des indicateurs de liaison et les tests associés

Durée indicative : 2 jours


OBJECTIFS

Acquérir les notions théoriques et pratiques nécessaires à la mise en œuvre des principales méthodes d’estimation sur petits domaines.

Thèmes abordés

Lorsque l’on veut publier des résultats d’une enquête sur des domaines trop “petits”, par exemple des zones géographiques restreintes ou des sous-populations peu nombreuses, les faibles effectifs de ces échantillons dans ces domaines peuvent conduire à des estimations “habituelles” imprécises. Il faut faire alors appel à des techniques d’estimation spécifiques, fondées sur l’utilisation d’information auxiliaire et sur des modèles plus ou moins complexes. La formation présente un certain nombre de ces méthodes, encore assez peu utilisées en France, ainsi que plusieurs exemples.

La problématique de l’estimation sur petits domaines

Les estimateurs directs

  • L’estimateur par calage sur une structure locale

Les estimateurs reposant sur des modèles implicites

  • Les estimateurs synthétiques
  • Les estimateurs composites

Les méthodes reposant sur des modèles explicites (modèle linéaire mixte, modèle linéaire mixte généralisé)

  • Les estimateurs adaptés aux variables quantitatives
  • Les estimateurs adaptés aux variables qualitatives

Durée indicative : 2 jours


OBJECTIFS

Connaître les méthodes de rééchantillonnage et leurs applications classiques pour l’inférence statistique.

Thèmes abordés

Cette formation a pour objectif de dresser un panorama des méthodes de rééchantillonnage et de leurs applications classiques pour l’inférence statistique : estimation du biais, de la variance d’un estimateur, construction d’intervalles de confiance, construction de tests d’hypothèses. Une attention particulière sera portée au bon usage du rééchantillonnage en pratique, en s’appuyant sur des cas typiques d’échec du bootstrap « naïf » : valeurs extrêmes, régression, discrimination, séries temporelles, U statistiques, pour lesquels des remèdes seront proposés. Enfin, les méthodes récentes d’agrégation basées sur le rééchantillonnage (bagging, forêts aléatoires, boosting) seront évoquées.

Méthodes de rééchantillonnage et applications à l’inférence statistique

  • Introduction, principe du plug in
  • Bootstrap et rééchantillonnage : jackknife, bootstrap dit « naïf », bootstrap à poids
  • Propriétés d’un estimateur : estimation bootstrap du biais, de la variance, de l’erreur quadratique moyenne
  • Intervalles de confiance : bootstrap-t, percentile bootstrap, BC-percentile bootstrap, Bca-percentile bootstrap
  • Tests d’hypothèses : tests de permutation, tests bootstrap

Quelques échecs du boostrap naïf et remèdes

  • Valeurs extrêmes
  • Régression
  • Discrimination
  • Séries temporelles
  • U statistiques

Méthodes d’agrégation basées sur le bootstrap

  • Bagging
  • Forêts aléatoires
  • Boosting

Durée indicative : 2 jours


OBJECTIFS

Être en mesure d’analyser et de faire des prévisions sur des séries temporelles univariées. Une introduction sur l’étude de séries temporelles multivariées sera également proposée. Alternance d’exposés théoriques et d’exercices pratiques avec l’utilisation permanente du logiciel SAS pour mettre en pratique les notions théoriques abordées.

Thèmes abordés

Description d’une série temporelle

  • Les données et représentations graphiques (proc Expand, % graphics)
  • Composantes et schémas
  • Problèmes et modèles
  • Les outils

Lissage et désaisonnalisation

  • Les moyennes mobiles de Henderson
  • La désaisonnalisation (proc X11)
  • Un lissage robuste (proc Loess)

Méthodes de prévision des séries temporelles linéaires univariées

  • Objectifs, difficultés et pratique
  • Les méthodes de « lissage exponentiel » (proc ESM, proc Forecast)
  • Autocorrélations et Stationnarité
  • Les modèles auto projectifs (AR,…, SARIMA)
  • La méthode de Box et Jenkins : identification, estimations, tests, validité et choix d’un modèle, prévisions) (proc ARIMA)
  • Retour sur la désaisonnalisation (proc X12)
  • Compléments (proc Autoreg)

Séries temporelles multivariées

  • Généralités et définitions
  • Modèles à correction d’erreur
  • Modèles VAR
  • Applications (proc Varmax)

Durée indicative : 4 jours (2+2)


OBJECTIFS

Cette formation permet de modéliser et prévoir des séries temporelles multivariées, notamment dans le domaine économique.

Thèmes abordés

La modélisation vectorielle ou multivariée permet d’étudier la dynamique jointe de plusieurs séries : Lorsque les séries sont stationnaires, il s’agit d’une généralisation de l’étude des processus AR. La popularité des modèles vectoriels autorégressifs (VAR) est liée à leur souplesse d’utilisation et à leur capacité à tester des hypothèses économiques. Lorsque les séries ne sont pas stationnaires mais cointégrées, les modèles vectoriels à correction d’erreur (VECM) permettent de spécifier des relations stables à long terme tout en analysant dans le même temps la dynamique de court terme des variables considérées. Les modèles VAR structurels (SVAR) complètent cette approche multivariée.

Les cas pratiques seront idéalement traités sous R, mais pourront également être mis en œuvre sous SAS.

Généralités sur les séries temporelles multivariées.

Modèles vectoriels autorégressifs (VAR).

Tests de stationarité.

Analyse de la dynamique des modèles VAR.

Tests de Causalité.

Modèles vectoriels à correction d’erreur (VECM).

Tests de cointégration.

Compléments sur les modèles VAR structurels (SVAR).

Durée indicative : 3 jours


OBJECTIFS

Cette formation permet de modéliser et prévoir une série temporelle à l’aide de méthodes d’apprentissages statistique : régression régularisée, GAM, MARS, arbres, SVR, etc. qu’il sera possible d’agréger.

Thèmes abordés

De nombreuses séries temporelles doivent être modélisées avec conjointement des variables retards et des variables exogènes. Si les modèles ARMAX constituent une alternative réaliste, ces modèles peuvent largement être complétés avec d’autres méthodes de régression issues en partie du monde de l’apprentissage.

Les cas pratiques seront idéalement traités sous R, mais pourront également être mis en œuvre sous Python.

Régression régularisée (Ridge, Lasso, Lars)

Modèle GAM

Modèle MARS

Méthodes locales : k-plus proches voisins et noyau de lissage.

Modèle SVR

Agrégation de modèles.

Durée indicative : 4 jours (2+2)


OBJECTIFS

Cette formation propose de modéliser et prévoir une série temporelle à l’aide des modèles élaborés par Box et Jenkins : la famille ARMA.

Thèmes abordés

Les modèles ARMA permettent de modéliser des séries temporelles pour lesquelles la seule dynamique passée permet de les appréhender. Ces modèles linéaires sont encore très utilisés en pratique. En présence de variables exogènes, les modèles ARMAX constituent une alternative intéressante. Un complément sur les modèles ARCH-GARCH, directement issus du monde financier, permettent d’élargir le domaine d’applicabilité des modèles ARMA, notamment lorsque les résidus ne peuvent pas être considérés comme gaussiens.

Les cas pratiques seront idéalement traités sous R, mais pourront également être mis en œuvre sous SAS.

Stationnarité et autocorrélogrammes (simples et partiels).

Modèles ARMA : identification, estimation et prévision.

Traitement de la non-stationnarité : modèles ARIMA et SARIMA.

Pratique de la modélisation ARMA.

Compléments sur les modèles ARMAX.

Compléments sur les modèles ARCH-GARCH.

Durée indicative : 3 jours


OBJECTIFS

Comprendre les problématiques propres aux données de durée, en particulier concernant l’échantillonnage et la sélection dynamique. Donner les outils permettant d’analyser les données de durée et de mener une démarche de modélisation adéquate.

Thèmes abordés

Les variables de durée sont fréquemment soumises à des phénomènes de censure, troncatures ou biais de sélection. La formation fournit des outils méthodologiques pour les analyser, et estimer les points de sortie. Plusieurs modèles sont proposés, se rapportant à des analyses paramétriques, semi-paramétriques ou non paramétriques, tenant compte de variables omises dans le temps, ou lorsque le point de sortie est attribuable à des événements de différents types (modèles à risques concurrents).

Rappels des différents concepts de statistique sur données de durée

  • Censure et troncature
  • Types d’échantillonnage (flux, stock, censure par intervalle)
  • Densité, survie, hasard et hasard intégré

Estimation non-paramétrique

  • Estimateurs de Kaplan-Meier et de Nelson-Aalen
  • Test de comparaison log-rank
  • Application Stata : déclaration de données (-stset-) pour différentes structures d’échantillonnage,
  • Estimateurs de Kaplan-Meier et de Nelson-Aalen, tests de comparaisons

Modèles paramétriques

  • Hasard proportionnel et temps accéléré : estimation et utilisation
  • Applications Stata : -streg-, -stcurve-, -predict-
  • Régresseurs variant avec le temps : principe et implémentation Stata (-stsplit-)

Estimation semi-paramétrique

  • Modèles semi-paramétriques (1) : constant par morceaux
  • Modèles semi-paramétriques (2) : Cox
  • Applications Stata : -stcox-
  • Censure par intervalle (-cloglog-)

Hétérogénéité inobservée : le problème de la sélection dynamique

  • Correction de l’hétérogénéité inobservée : Loi Gamma
  • Application Stata

Durée indicative : 2 jours


OBJECTIFS

Face à des données « multi-indicées », savoir choisir la modélisation le plus pertinente en fonction de ses besoins, connaitre les avantages et limites des différents modèles statistiques classiquement utilisés.

Thèmes abordés

La formation a pour but de présenter différents types de modèles permettant de prendre en compte l’hétérogénéité inobservée en présence de “données à indice multiple”. Il peut par exemple s’agir de données sur des élèves dans des classes, de données sur les consultations de médecins auprès de différents patients, de données concernant différents médecins dans des établissements des soins, des salariés dans des entreprises, etc. Aussi bien les modèles dits “multi-niveaux” que les “modèles mixtes” ou “modèles hiérarchiques” relèvent de cette logique.

Rappel sur le modèle linéaire :

existence de l’estimateur des moindres carrés ordinaires (MCO), absence de biais, convergence, estimation de variance, efficacité.

Présentation du modèle à effet fixe :

propriétés, méthodes d’estimation.

Présentation du modèle à effet aléatoire :

propriétés, méthodes d’estimation

Discussion des deux types de modèle dans le cadre linéaire, présentation d’une procédure simple de test de modèle

Le cas des modèles binaires :

  • Rappel sur l’économétrie des modèles à variables qualitatives en coupe,
  • Présentation du problème des paramètres incidents,
  • Le modèle logit-conditionnel,
  • Les modèles logit et probit à effet aléatoire.

Exercices de programmation des différents modèles sur ordinateur