Statistique textuelle pour le Text Mining

 
  2 jours       1530       Avancé    
  Prochaine session
16 et 17 septembre 2024
Objectifs de la formation
  • Explorer des corpus de nature différente (questions ouvertes, entretiens, mots associés, titres d’articles, etc.) au moyen de la statistique textuelle.
  • Repérer des structures, des spécificités, des thématiques puis valoriser les résultats.
Statistique textuelle pour le Text Mining
Prérequis

Connaissance de base en statistique descriptive (formations Statistique 1 et Statistique 2) et en statistique multivariée (AFC).


Public visé

Chargés d’étude souhaitant comprendre et appliquer les concepts de la statistique textuelle au cœur des pratiques de Text mining.


Programme détaillé

Origine et développement des méthodes d’analyse « automatique » de textes

  • Apports de la statistique textuelle et intérêt par rapport à l’analyse qualitative et au text mining

Les données textuelles, données plus ou moins structurées et métadonnées associés

  • Préparer les données en corpus analysable (textes et métadonnées) avec un tableur ou un éditeur de texte pour pouvoir les traiter avec les logiciels de statistique textuelle (la mise en forme pourra différer selon la taille des textes).

Mettre en œuvre les méthodes de statistique textuelle

  • Créer un tableau lexical et lemmatiser
  • Calculer les occurrences des mots et les visualiser sur un nuage de mots
  • Repérer et visualiser des cooccurrences
  • Identifier des spécificités à l’aide des métadonnées. Les analyses seront faites avec les logiciels d’analyse textuelle
  • Choisir la méthode et l’outil le plus adapté à sa problématique et ses données à analyser.

Interpréter et présenter les résultats

  • Lecture des concordances, des mots spécifiques, des aides à l’interprétation des analyses factorielles et des classifications
  • Valoriser les résultats dans une publication : présenter les tableaux statistiques et graphiques pertinents

Atelier : utiliser le logiciel adapté au corpus et à une problématique et en faire une restitution devant un public (les participants sont invités à venir avec des données qu’ils souhaitent exploiter)


Le text mining : pour quoi faire ?

 

Le text mining, également connu sous le nom d’exploration de texte ou d’analyse de texte, est le processus d’extraction de connaissances et d’informations significatives à partir de textes non structurés. Il s’agit d’une discipline interdisciplinaire qui combine des techniques de linguistique, de statistique, d’apprentissage automatique et de traitement du langage naturel pour analyser et comprendre des ensembles de textes volumineux.

Le text mining vise à découvrir des motifs, des tendances, des relations et des informations cachées dans les textes. Il peut être utilisé dans de nombreux domaines, tels que :

  • Exploration de données : Le text mining permet d’explorer de vastes ensembles de textes pour découvrir des informations utiles et des tendances. Par exemple, dans le domaine de la veille concurrentielle, il peut être utilisé pour extraire des informations sur les produits, les services et les opinions des clients à partir de commentaires en ligne, d’avis d’utilisateurs, d’articles de presse, etc.

  • Classification et catégorisation : Le text mining permet de classer automatiquement des documents textuels dans des catégories prédéfinies. Par exemple, il peut être utilisé pour classer des e-mails en spams et courriers légitimes, pour catégoriser des articles de presse en fonction de leur sujet, ou pour identifier des plaintes clients dans un ensemble de commentaires.

  • Analyse de sentiment : Le text mining permet d’analyser l’orientation émotionnelle des textes, qu’il s’agisse de commentaires de clients, de messages sur les réseaux sociaux ou de revues de produits. Il peut aider à comprendre les opinions des utilisateurs, à évaluer la satisfaction des clients et à détecter les tendances positives ou négatives.

  • Extraction d’informations : Le text mining permet d’extraire des informations spécifiques et structurées à partir de textes non structurés. Par exemple, il peut être utilisé pour extraire des entités nommées telles que les noms de personnes, les lieux, les dates, ou pour extraire des informations telles que les montants financiers, les numéros de téléphone, etc.

  • Résumé automatique : Le text mining peut être utilisé pour générer automatiquement des résumés de textes volumineux, tels que des articles de presse, des rapports ou des documents juridiques. Cela peut aider à parcourir rapidement de grandes quantités d’informations et à extraire les points clés.

  • Détection de fraude : Le text mining peut être utilisé pour détecter des schémas suspects ou des comportements anormaux à partir de textes. Par exemple, il peut être utilisé pour détecter des fraudes financières, des activités criminelles ou des tentatives de phishing en analysant des e-mails, des messages en ligne ou des transactions.