Statistique bayésienne

Objectifs de la formation

Comprendre la construction de modèle par assemblage hiérarchique de modules conditionnellement liés sous l’approche bayésienne.
Réaliser une inférence bayésienne, notamment par des méthodes de simulation de type Monte-Carlo, et si besoin par des algorithmes Monte Carlo par chaînes de Markov. En faire le scientific reporting.
Présenter l’articulation entre la théorie de la décision statistique et l’analyse bayésienne des données.
Donner un point de vue critique de l’approche classique des statistiques qui se focalise sur la situation d’information parfaite.

Comprendre la construction de modèle par assemblage hiérarchique de modules conditionnellement liés sous l’approche bayésienne.
Réaliser une inférence bayésienne, notamment par des méthodes de simulation de type Monte-Carlo, et si besoin par des algorithmes Monte Carlo par chaînes de Markov. En faire le scientific reporting.
Présenter l’articulation entre la théorie de la décision statistique et l’analyse bayésienne des données.
Donner un point de vue critique de l’approche classique des statistiques qui se focalise sur la situation d’information parfaite.

Prérequis

Bonne connaissance du formalisme des probabilités et de l’inférence statistique (formation De l’échantillon à la population, estimation et tests). Connaissance du logiciel R (formation R Initiation).

Prérequis

Public visé

Le cours cherche à dégager les éléments clés de la statistique bayésienne, en faisant l’hypothèse que le lecteur possède les bases de la théorie des probabilités et s’est déjà trouvé confronté à des problèmes ordinaires d’analyse statistique classique. Il s’adresse aux utilisateurs de traitements de données désireux de s’assurer de la pertinence des méthodes qu’ils emploient.

Le débutant, au prix d’un investissement intellectuel acceptable, aussi bien que le spécialiste, pourront y trouver les informations fondamentales pour comprendre et mettre en oeuvre des modèles répondant à leurs besoins spécifiques.

Public visé

Programme détaillé

L’approche bayésienne de la statistique connaît à l’heure actuelle un essor considérable notamment grâce aux progrès de l’informatique et des méthodes numériques de type MCMC. Lorsque l’on réalise une étude en data science on a souvent des informations a priori, provenant d’études antérieures ou d’avis d’expert.

La statistique bayésienne permet d’utiliser ces connaissances a priori et de les combiner avec l’information apportée par les données pour obtenir une information a posteriori. La statistique bayésienne est également très utilisée dans les méta-analyses, c’est à dire les analyses qui mettent ensemble plusieurs études réalisées dans des conditions parfois différentes pour en extraire de l’information avec une meilleure précision. Au cours de la formation nous nous efforcerons de comparer les avantages et les inconvénients de l’approche bayésienne par rapport à l’approche classique (ou fréquentiste).

Une probabilité à interpréter comme un pari personnel et conditionnel (1 journée)

Modèle statistique à une inconnue. Rappels de lois de probabilité utiles
La formule du révérend Thomas Bayes : un processeur d’assimilation de l’information pour une mise à jour séquentielle de la connaissance
La formule de Tom Bayes et le langage du Bayésien: intérêt théorique et limites pratiques.
Etablir la connaissance initiale : le problème de la loi a priori. Que faire lorsque l’on ne dispose pas d’un expert?
Un miracle mathématique : la conjugaison. Que faire lorsqu’il n’a pas lieu?
Loi prédictive : la seconde formule de Bayes
Théorie de la décision en situation d’information imparfaite

Exemples d’application : performances binomiales les joueurs de baseball de Stein / contrôle de la qualité par attribut.

Le succès des méthodes computationnelles pour évaluer la loi a posteriori (1 journée)

Un algorithme ? Chaînes de Markov!
Eviter une intégrale incalculable: les méthodes Monte-Carlo et Monte-Carlo par chaînes de Markov
Les graphes acycliques orientés et le langage BUGS.
Mise en oeuvre du moteur d’inférence Jags sous R.
Un jeu de Lego pour la modélisation hiérarchique.
Modèle à plusieurs inconnues. Retrouver et étendre les modèles classiques.

Exemples d’application : performances binomiales les joueurs de baseball de Stein / la loi de Poisson pour la prévision des résultats d’un tournoi de football.

Aller plus loin grâce à la vision conditionnelle du paradigme bayésien (1 journée)

Vérification et validation de modèles
Facteur de Bayes et Comparaison de modèles
Le prior pour aider à la sélection de variables pertinentes
Typologie des sources d’incertitudes et constructions hiérarchiques non standards
Mise en oeuvre du moteur d’inférence STAN sous R.
Questions de modélisation des participants issues de leur champ d’intérêt professionnel

Exemples d’application : méta-analyse avancée pour le comparaisons de traitement médicaux / modèle dynamique de biomasse et analyse prédictive des stratégies de gestion de la ressource.

Programme détaillé

Une probabilité à interpréter comme un pari personnel et conditionnel (1 journée)

Modèle statistique à une inconnue. Rappels de lois de probabilité utiles
La formule du révérend Thomas Bayes : un processeur d’assimilation de l’information pour une mise à jour séquentielle de la connaissance
La formule de Tom Bayes et le langage du Bayésien: intérêt théorique et limites pratiques.
Etablir la connaissance initiale : le problème de la loi a priori. Que faire lorsque l’on ne dispose pas d’un expert?
Un miracle mathématique : la conjugaison. Que faire lorsqu’il n’a pas lieu?
Loi prédictive : la seconde formule de Bayes
Théorie de la décision en situation d’information imparfaite

Exemples d’application : performances binomiales les joueurs de baseball de Stein / contrôle de la qualité par attribut.

Le succès des méthodes computationnelles pour évaluer la loi a posteriori (1 journée)

Un algorithme ? Chaînes de Markov!
Eviter une intégrale incalculable: les méthodes Monte-Carlo et Monte-Carlo par chaînes de Markov
Les graphes acycliques orientés et le langage BUGS.
Mise en oeuvre du moteur d’inférence Jags sous R.
Un jeu de Lego pour la modélisation hiérarchique.
Modèle à plusieurs inconnues. Retrouver et étendre les modèles classiques.

Exemples d’application : performances binomiales les joueurs de baseball de Stein / la loi de Poisson pour la prévision des résultats d’un tournoi de football.

Aller plus loin grâce à la vision conditionnelle du paradigme bayésien (1 journée)

Vérification et validation de modèles
Facteur de Bayes et Comparaison de modèles
Le prior pour aider à la sélection de variables pertinentes
Typologie des sources d’incertitudes et constructions hiérarchiques non standards
Mise en oeuvre du moteur d’inférence STAN sous R.
Questions de modélisation des participants issues de leur champ d’intérêt professionnel

Exemples d’application : méta-analyse avancée pour le comparaisons de traitement médicaux / modèle dynamique de biomasse et analyse prédictive des stratégies de gestion de la ressource.

En quoi la statistique bayésienne différe-t-elle de la statistique inférentielle classique ?

La statistique bayésienne diffère de la statistique inférentielle classique (ou fréquentiste) principalement par sa philosophie et son approche de l’inférence statistique. Voici quelques différences clés entre la statistique bayésienne et la statistique inférentielle classique :

Interprétation des probabilités : En statistique classique, la probabilité est interprétée comme une fréquence relative basée sur des répétitions hypothétiques de l’expérience. En revanche, en statistique bayésienne, la probabilité est interprétée comme une mesure de la connaissance ou de l’incertitude subjective sur une proposition donnée. Elle reflète les croyances préalables (ou “a priori”) et est mise à jour à l’aide des données observées pour obtenir les probabilités “a posteriori”.
Utilisation de distributions a priori : En statistique bayésienne, on spécifie des distributions a priori sur les paramètres inconnus avant d’observer les données. Ces distributions expriment les connaissances ou les croyances initiales sur les valeurs possibles des paramètres. En statistique classique, les paramètres sont généralement considérés comme des valeurs fixes et inconnues, sans spécification de distributions a priori.
Mise à jour des probabilités : En statistique bayésienne, les probabilités a posteriori sont obtenues en combinant les probabilités a priori avec les données observées à l’aide du théorème de Bayes. Cela permet d’obtenir une estimation de la distribution complète des paramètres inconnus, plutôt qu’une simple estimation ponctuelle. En statistique classique, les estimations des paramètres sont généralement basées sur des méthodes d’estimation ponctuelle telles que la méthode des moindres carrés.
Utilisation de la distribution a posteriori : En statistique bayésienne, la distribution a posteriori complète est utilisée pour l’inférence statistique. Cela signifie que l’on peut estimer les paramètres inconnus, construire des intervalles de crédibilité pour les estimations, effectuer des tests d’hypothèses bayésiens, etc. En statistique classique, les estimations sont souvent basées sur des intervalles de confiance fréquentistes et des tests d’hypothèses basés sur des valeurs critiques.
Flexibilité dans l’incorporation des informations supplémentaires : La statistique bayésienne permet d’incorporer des informations supplémentaires, telles que des connaissances expertes ou des résultats d’études antérieures, sous forme de distributions a priori. Cela permet d’utiliser de manière formelle et systématique ces informations dans l’analyse statistique. En statistique classique, l’incorporation d’informations supplémentaires est souvent plus limitée et se fait généralement par des méthodes ad hoc, telles que la pondération des données.

Mais soyons clairs, la statistique bayésienne et la statistique classique ne sont pas mutuellement exclusives, et chacune a ses avantages et ses limitations. Le choix entre les deux dépendra avant tout du contexte !

En quoi la statistique bayésienne différe-t-elle de la statistique inférentielle classique ?

Interprétation des probabilités : En statistique classique, la probabilité est interprétée comme une fréquence relative basée sur des répétitions hypothétiques de l’expérience. En revanche, en statistique bayésienne, la probabilité est interprétée comme une mesure de la connaissance ou de l’incertitude subjective sur une proposition donnée. Elle reflète les croyances préalables (ou “a priori”) et est mise à jour à l’aide des données observées pour obtenir les probabilités “a posteriori”.
Utilisation de distributions a priori : En statistique bayésienne, on spécifie des distributions a priori sur les paramètres inconnus avant d’observer les données. Ces distributions expriment les connaissances ou les croyances initiales sur les valeurs possibles des paramètres. En statistique classique, les paramètres sont généralement considérés comme des valeurs fixes et inconnues, sans spécification de distributions a priori.
Mise à jour des probabilités : En statistique bayésienne, les probabilités a posteriori sont obtenues en combinant les probabilités a priori avec les données observées à l’aide du théorème de Bayes. Cela permet d’obtenir une estimation de la distribution complète des paramètres inconnus, plutôt qu’une simple estimation ponctuelle. En statistique classique, les estimations des paramètres sont généralement basées sur des méthodes d’estimation ponctuelle telles que la méthode des moindres carrés.
Utilisation de la distribution a posteriori : En statistique bayésienne, la distribution a posteriori complète est utilisée pour l’inférence statistique. Cela signifie que l’on peut estimer les paramètres inconnus, construire des intervalles de crédibilité pour les estimations, effectuer des tests d’hypothèses bayésiens, etc. En statistique classique, les estimations sont souvent basées sur des intervalles de confiance fréquentistes et des tests d’hypothèses basés sur des valeurs critiques.
Flexibilité dans l’incorporation des informations supplémentaires : La statistique bayésienne permet d’incorporer des informations supplémentaires, telles que des connaissances expertes ou des résultats d’études antérieures, sous forme de distributions a priori. Cela permet d’utiliser de manière formelle et systématique ces informations dans l’analyse statistique. En statistique classique, l’incorporation d’informations supplémentaires est souvent plus limitée et se fait généralement par des méthodes ad hoc, telles que la pondération des données.

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Applications pratiques sur ordinateur
Etude de cas concrets
Échanges sur les pratiques et expériences des participants
Suivi pédagogique individualisé
Temps de questions / réponses

Méthodes pédagogiques

Méthode démonstrative
Méthode active

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique. Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO,...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller Pôle emploi validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur pole-emploi.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes