Web-Scraping : Méthodes d'extraction de données sur le web

 
  Toutes les formations  Big Data
  3 jours       2000 1000       Avancé    
  Prochaine session
20, 21, 22 novembre 2017
Objectifs

Acquérir les notions théoriques et pratiques nécessaires à la mise en œuvre des techniques d’acquisition automatisées de données sur le web.


Prérequis

Connaissances de base en traitement de données, programmation (idéalement en python), formation Les données structurées sur le web ou connaissances de HTTP, HTML, CSS, XML, JSON, XPath, CSS selectors, regex.


Contenu

La formation se concentre sur les méthodes d’extraction de données structurées ou semi-structurées depuis une page web (“web scraping”) ou une interface de programmation. Chaque méthode fait l’objet d’une présentation théorique et d’exemples pratiques de programmation. La formation nécessite une connaisse de base en programmation.

Les droits d’utilisation des données disponibles sur le web

Présentation des concepts de licences sur les données, du mouvement OpenData et des principales licences.

Récupérer des données fournies par une interface de programmation (API)

Définition d’une API, requêtage, exemples pratiques avec Python.

Récupérer des données d’un site web

Définition du web scraping, parcours de pages web, exemples pratiques avec Python et R, utilisation des Apis Web (Google, Twitter…)

Exemples d’outils pour faciliter le web scraping

Outils pour extraire depuis des sites statiques ou sites fortement dynamiques (ajax): Scrapy, PhantomJS, etc.

Problèmes avancés d’extractions de données

Ordonnancement, proxy, authentification, erreurs HTTP.


Modalités pédagogiques

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.