Statistique textuelle pour le Text Mining

 
  Toutes les formations  Big Data
  2 jours       1420 710       Avancé    
  Prochaine session
22 et 23 novembre 2017
Objectifs

Mettre en œuvre les méthodes de la statistique textuelle sur des corpus de nature différente (questions ouvertes, entretiens, mots associés, articles de presse, pages Web, etc.) à l’aide de logiciels spécifiques (IraMuTeQ, SpadT, R.TeMiS. Interpréter, présenter et valoriser les résultats.


Prérequis

Connaissance de base en statistique descriptive (formations Statistique 1 et Statistique 2) et en analyse des données (formation Analyse factorielle et classification).


Contenu

Origine et développement des méthodes de la statistique textuelle. Place de ces méthodes dans la mise en œuvre du Text Mining. Apports de la statistique textuelle et intérêt par rapport à des logiciels d’aide à la lecture de textes (NVivo, Sonal). Présentation de différents types de corpus de textes. Constitution du corpus et mise en forme.

Différentes étapes de traitement d’un corpus de texte :

construction du lexique associé, lemmatisation (manuelle ou automatique), réduction du vocabulaire, construction des tableaux lexicaux, et traitements statistiques.

Résultats et aides à l’interprétation :

vocabulaire spécifique, contexte d’utilisation des mots, plans factoriels et arbres de classification.

Présentation d’exemples de traitement de corpus.

Mise en œuvre d’une analyse avec les logiciels et restitution par les stagiaires.


Modalités pédagogiques

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.