Statistique textuelle pour le Text Mining

Toutes les formations Data science

2 jours 1530 Avancé

Prochaine session
16 et 17 septembre 2024

Objectifs de la formation

Explorer des corpus de nature différente (questions ouvertes, entretiens, mots associés, titres d’articles, etc.) au moyen de la statistique textuelle.
Repérer des structures, des spécificités, des thématiques puis valoriser les résultats.

Objectifs de la formation

Explorer des corpus de nature différente (questions ouvertes, entretiens, mots associés, titres d’articles, etc.) au moyen de la statistique textuelle.
Repérer des structures, des spécificités, des thématiques puis valoriser les résultats.

Statistique textuelle pour le Text Mining

Prérequis

Connaissance de base en statistique descriptive (formations Statistique 1 et Statistique 2) et en statistique multivariée (AFC).

Prérequis

Connaissance de base en statistique descriptive (formations Statistique 1 et Statistique 2) et en statistique multivariée (AFC).

Public visé

Chargés d’étude souhaitant comprendre et appliquer les concepts de la statistique textuelle au cœur des pratiques de Text mining.

Public visé

Chargés d’étude souhaitant comprendre et appliquer les concepts de la statistique textuelle au cœur des pratiques de Text mining.

Programme détaillé

Origine et développement des méthodes d’analyse « automatique » de textes (1h)

Apports de la statistique textuelle et intérêt par rapport à l’analyse qualitative et au text mining

Les données textuelles, données plus ou moins structurées et métadonnées associés (2h)

Préparer les données en corpus analysable (textes et métadonnées) avec un tableur ou un éditeur de texte pour pouvoir les traiter avec les logiciels de statistique textuelle (la mise en forme pourra différer selon la taille des textes).

Mettre en œuvre les méthodes de statistique textuelle (5h)

Créer un tableau lexical et lemmatiser
Calculer les occurrences des mots et les visualiser sur un nuage de mots
Repérer et visualiser des cooccurrences
Identifier des spécificités à l’aide des métadonnées. Les analyses seront faites avec les logiciels d’analyse textuelle
Choisir la méthode et l’outil le plus adapté à sa problématique et ses données à analyser.

Interpréter et présenter les résultats (4h)

Lecture des concordances, des mots spécifiques, des aides à l’interprétation des analyses factorielles et des classifications
Valoriser les résultats dans une publication : présenter les tableaux statistiques et graphiques pertinents

Atelier : utiliser le logiciel adapté au corpus et à une problématique et en faire une restitution devant un public (les participants sont invités à venir avec des données qu’ils souhaitent exploiter)

Programme détaillé

Origine et développement des méthodes d’analyse « automatique » de textes (1h)

Apports de la statistique textuelle et intérêt par rapport à l’analyse qualitative et au text mining

Les données textuelles, données plus ou moins structurées et métadonnées associés (2h)

Préparer les données en corpus analysable (textes et métadonnées) avec un tableur ou un éditeur de texte pour pouvoir les traiter avec les logiciels de statistique textuelle (la mise en forme pourra différer selon la taille des textes).

Mettre en œuvre les méthodes de statistique textuelle (5h)

Créer un tableau lexical et lemmatiser
Calculer les occurrences des mots et les visualiser sur un nuage de mots
Repérer et visualiser des cooccurrences
Identifier des spécificités à l’aide des métadonnées. Les analyses seront faites avec les logiciels d’analyse textuelle
Choisir la méthode et l’outil le plus adapté à sa problématique et ses données à analyser.

Interpréter et présenter les résultats (4h)

Lecture des concordances, des mots spécifiques, des aides à l’interprétation des analyses factorielles et des classifications
Valoriser les résultats dans une publication : présenter les tableaux statistiques et graphiques pertinents

Atelier : utiliser le logiciel adapté au corpus et à une problématique et en faire une restitution devant un public (les participants sont invités à venir avec des données qu’ils souhaitent exploiter)

Le text mining : pour quoi faire ?

Le text mining, également connu sous le nom d’exploration de texte ou d’analyse de texte, est le processus d’extraction de connaissances et d’informations significatives à partir de textes non structurés. Il s’agit d’une discipline interdisciplinaire qui combine des techniques de linguistique, de statistique, d’apprentissage automatique et de traitement du langage naturel pour analyser et comprendre des ensembles de textes volumineux.

Le text mining vise à découvrir des motifs, des tendances, des relations et des informations cachées dans les textes. Il peut être utilisé dans de nombreux domaines, tels que :

Exploration de données : Le text mining permet d’explorer de vastes ensembles de textes pour découvrir des informations utiles et des tendances. Par exemple, dans le domaine de la veille concurrentielle, il peut être utilisé pour extraire des informations sur les produits, les services et les opinions des clients à partir de commentaires en ligne, d’avis d’utilisateurs, d’articles de presse, etc.
Classification et catégorisation : Le text mining permet de classer automatiquement des documents textuels dans des catégories prédéfinies. Par exemple, il peut être utilisé pour classer des e-mails en spams et courriers légitimes, pour catégoriser des articles de presse en fonction de leur sujet, ou pour identifier des plaintes clients dans un ensemble de commentaires.
Analyse de sentiment : Le text mining permet d’analyser l’orientation émotionnelle des textes, qu’il s’agisse de commentaires de clients, de messages sur les réseaux sociaux ou de revues de produits. Il peut aider à comprendre les opinions des utilisateurs, à évaluer la satisfaction des clients et à détecter les tendances positives ou négatives.
Extraction d’informations : Le text mining permet d’extraire des informations spécifiques et structurées à partir de textes non structurés. Par exemple, il peut être utilisé pour extraire des entités nommées telles que les noms de personnes, les lieux, les dates, ou pour extraire des informations telles que les montants financiers, les numéros de téléphone, etc.
Résumé automatique : Le text mining peut être utilisé pour générer automatiquement des résumés de textes volumineux, tels que des articles de presse, des rapports ou des documents juridiques. Cela peut aider à parcourir rapidement de grandes quantités d’informations et à extraire les points clés.
Détection de fraude : Le text mining peut être utilisé pour détecter des schémas suspects ou des comportements anormaux à partir de textes. Par exemple, il peut être utilisé pour détecter des fraudes financières, des activités criminelles ou des tentatives de phishing en analysant des e-mails, des messages en ligne ou des transactions.

Le text mining : pour quoi faire ?

Le text mining vise à découvrir des motifs, des tendances, des relations et des informations cachées dans les textes. Il peut être utilisé dans de nombreux domaines, tels que :

Exploration de données : Le text mining permet d’explorer de vastes ensembles de textes pour découvrir des informations utiles et des tendances. Par exemple, dans le domaine de la veille concurrentielle, il peut être utilisé pour extraire des informations sur les produits, les services et les opinions des clients à partir de commentaires en ligne, d’avis d’utilisateurs, d’articles de presse, etc.
Classification et catégorisation : Le text mining permet de classer automatiquement des documents textuels dans des catégories prédéfinies. Par exemple, il peut être utilisé pour classer des e-mails en spams et courriers légitimes, pour catégoriser des articles de presse en fonction de leur sujet, ou pour identifier des plaintes clients dans un ensemble de commentaires.
Analyse de sentiment : Le text mining permet d’analyser l’orientation émotionnelle des textes, qu’il s’agisse de commentaires de clients, de messages sur les réseaux sociaux ou de revues de produits. Il peut aider à comprendre les opinions des utilisateurs, à évaluer la satisfaction des clients et à détecter les tendances positives ou négatives.
Extraction d’informations : Le text mining permet d’extraire des informations spécifiques et structurées à partir de textes non structurés. Par exemple, il peut être utilisé pour extraire des entités nommées telles que les noms de personnes, les lieux, les dates, ou pour extraire des informations telles que les montants financiers, les numéros de téléphone, etc.
Résumé automatique : Le text mining peut être utilisé pour générer automatiquement des résumés de textes volumineux, tels que des articles de presse, des rapports ou des documents juridiques. Cela peut aider à parcourir rapidement de grandes quantités d’informations et à extraire les points clés.
Détection de fraude : Le text mining peut être utilisé pour détecter des schémas suspects ou des comportements anormaux à partir de textes. Par exemple, il peut être utilisé pour détecter des fraudes financières, des activités criminelles ou des tentatives de phishing en analysant des e-mails, des messages en ligne ou des transactions.

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Démonstration
Expérimentation
Applications pratiques sur ordinateur
Etude de cas concrets
Échanges sur les pratiques et expériences des participants
Suivi pédagogique individualisé
Temps de questions / réponses
Exercices, quiz, forum etc.

Méthodes pédagogiques

Méthode expositive
Méthode démonstrative
Méthode interrogative
Méthode active

Les participants sont invités à venir avec un jeu de données lié à leur activité professionnelle afin qu’ils les exploitent et présentent les résultats obtenus lors de la dernière partie de la formation.

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique. Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO,...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller Pôle emploi validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur pole-emploi.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes