Web-Scraping : méthodes d'extraction de données sur le web

Objectifs de la formation

Acquérir les notions théoriques et pratiques nécessaires à la mise en œuvre des techniques d’acquisition automatisées de données sur le web.

Objectifs de la formation

Acquérir les notions théoriques et pratiques nécessaires à la mise en œuvre des techniques d’acquisition automatisées de données sur le web.

Prérequis

Connaissances de base en traitement de données, programmation (idéalement en Python), notions de HTTP, HTML, CSS, XML, JSON, XPath, CSS selectors, regex.

Prérequis

Connaissances de base en traitement de données, programmation (idéalement en Python), notions de HTTP, HTML, CSS, XML, JSON, XPath, CSS selectors, regex.

Public visé

Data analysts, data scientists.

Public visé

Data analysts, data scientists.

Programme détaillé

La formation se concentre sur les méthodes d’extraction de données structurées ou semi-structurées depuis une page web (“web scraping”) ou une interface de programmation. Chaque méthode fait l’objet d’une présentation théorique et d’exemples pratiques de programmation. La formation nécessite une connaissance de base en programmation.

Les droits d’utilisation des données disponibles sur le web (3h)

Présentation des concepts de licences sur les données, du mouvement OpenData et des principales licences.

Récupérer des données fournies par une interface de programmation (API) (3h)

Définition d’une API, requêtage, exemples pratiques avec Python et R.

Récupérer des données d’un site web (3h)

Définition du web scraping, parcours de pages web, exemples pratiques avec Python et R, utilisation des Apis Web (Google, Twitter…)

Exemples d’outils pour faciliter le web scraping (1h)

Outils pour extraire depuis des sites statiques ou sites fortement dynamiques (ajax): Scrapy, PhantomJS, etc.

Problèmes avancés d’extractions de données (2h)

Ordonnancement, proxy, authentification, erreurs HTTP.

Programme détaillé

Les droits d’utilisation des données disponibles sur le web (3h)

Présentation des concepts de licences sur les données, du mouvement OpenData et des principales licences.

Récupérer des données fournies par une interface de programmation (API) (3h)

Définition d’une API, requêtage, exemples pratiques avec Python et R.

Récupérer des données d’un site web (3h)

Définition du web scraping, parcours de pages web, exemples pratiques avec Python et R, utilisation des Apis Web (Google, Twitter…)

Exemples d’outils pour faciliter le web scraping (1h)

Outils pour extraire depuis des sites statiques ou sites fortement dynamiques (ajax): Scrapy, PhantomJS, etc.

Problèmes avancés d’extractions de données (2h)

Ordonnancement, proxy, authentification, erreurs HTTP.

Les principales utilisations du web-scraping

Le web scraping, également connu sous le nom d’extraction de données web, est le processus d’automatisation de l’extraction d’informations à partir de sites web. Il permet de collecter des données structurées à partir de pages web et de les transformer en formats exploitables pour l’analyse et d’autres utilisations.

Voici quelques utilisations courantes du web scraping :

Collecte de données : Le web scraping permet de collecter des données à grande échelle à partir de sites web. Cela peut inclure des informations telles que des prix de produits, des avis clients, des données financières, des listes d’entreprises, des données météorologiques, etc. Ces données peuvent être utilisées pour la recherche, l’analyse de marché, la prise de décision commerciale ou d’autres applications.
Suivi des prix et de la concurrence : Le web scraping est souvent utilisé pour surveiller les prix des produits sur des sites de commerce électronique. Cela permet de suivre les variations de prix, d’identifier les offres concurrentielles et de prendre des décisions d’achat ou de tarification. Il peut également être utilisé pour surveiller les activités de la concurrence, telles que les lancements de produits ou les changements de stratégie.
Veille et analyse de marché : Le web scraping est utilisé pour collecter des informations sur les tendances du marché, les actualités, les opinions des clients et d’autres données pertinentes. Cela permet de suivre les développements du marché, d’analyser les comportements des consommateurs, de surveiller les réactions aux produits et services, et de prendre des décisions stratégiques basées sur des informations actuelles.
Extraction de contenu : Le web scraping permet d’extraire des articles, des blogs, des commentaires, des avis ou d’autres types de contenu à partir de sites web. Cela peut être utile pour agréger des informations à partir de plusieurs sources, créer des bases de données de connaissances, générer du contenu pour des applications, ou effectuer des analyses textuelles.
Recherche scientifique et académique : Le web scraping est utilisé dans la recherche scientifique pour collecter des données provenant de publications, de bases de données en ligne, de sites gouvernementaux, etc. Cela permet aux chercheurs d’accéder à un large éventail de données pour leurs études, leurs analyses et leurs modèles.

Les principales utilisations du web-scraping

Voici quelques utilisations courantes du web scraping :

Collecte de données : Le web scraping permet de collecter des données à grande échelle à partir de sites web. Cela peut inclure des informations telles que des prix de produits, des avis clients, des données financières, des listes d’entreprises, des données météorologiques, etc. Ces données peuvent être utilisées pour la recherche, l’analyse de marché, la prise de décision commerciale ou d’autres applications.
Suivi des prix et de la concurrence : Le web scraping est souvent utilisé pour surveiller les prix des produits sur des sites de commerce électronique. Cela permet de suivre les variations de prix, d’identifier les offres concurrentielles et de prendre des décisions d’achat ou de tarification. Il peut également être utilisé pour surveiller les activités de la concurrence, telles que les lancements de produits ou les changements de stratégie.
Veille et analyse de marché : Le web scraping est utilisé pour collecter des informations sur les tendances du marché, les actualités, les opinions des clients et d’autres données pertinentes. Cela permet de suivre les développements du marché, d’analyser les comportements des consommateurs, de surveiller les réactions aux produits et services, et de prendre des décisions stratégiques basées sur des informations actuelles.
Extraction de contenu : Le web scraping permet d’extraire des articles, des blogs, des commentaires, des avis ou d’autres types de contenu à partir de sites web. Cela peut être utile pour agréger des informations à partir de plusieurs sources, créer des bases de données de connaissances, générer du contenu pour des applications, ou effectuer des analyses textuelles.
Recherche scientifique et académique : Le web scraping est utilisé dans la recherche scientifique pour collecter des données provenant de publications, de bases de données en ligne, de sites gouvernementaux, etc. Cela permet aux chercheurs d’accéder à un large éventail de données pour leurs études, leurs analyses et leurs modèles.

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Etude de cas concrets
Échanges sur les pratiques et expériences des participants
Temps de questions / réponses

Méthodes pédagogiques

Méthode expositive
Méthode active

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique. Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO,...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller Pôle emploi validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur pole-emploi.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes