Dans le cadre du cycle d’ateliers Migrations et Big Data, le département Dynamics vous propose une formation intitulée « Web Scraping avec Python »
Intervenant : Thomas Renault, maître de conférences à l’Université Paris 1 Panthéon-Sorbonne
Objectif : Introduction aux outils et méthodes pour l’extraction automatique de données en ligne (web scraping)
Descriptif : A travers cette formation, nous verrons comment constituer des bases de données à partir de contenu publié sur Internet et comment ce contenu peut être analysé afin de répondre à des questions de SHS.
Nous apprendrons à utiliser une méthode de web scraping afin d’extraire de manière automatique le contenu d’une page Web. Nous réaliserons un exercice pour extraire le contenu d’une page Wikipédia et d’une page d’un média en ligne (Le Monde).
Cette formation sera centrée sur la transmission de savoir-faire pratiques – les participant-es seront invité-es à manipuler les données, à coder – et sur l’utilisation du langage de programmation Python et une librairie de web scraping (BeautifulSoup).
[NB : L’analyse des données extraites à l’aide d’outils de traitement automatique des langues sera traitée dans une autre formation]
Public et pré-requis : chercheur-euses en Sciences humaines et sociales – ayant si possible des bases en programmation informatique - souhaitant intégrer de nouvelles données issues du web scraping à leurs propres protocoles de recherches.
Durée : 4 heures
Date et lieu de la formation : Mercredi 11 mai 2022 de 14h à 18h, site Ulm du Collège de France, Paris 5ème
Inscriptions obligatoires : Vous pouvez vous inscrire via ce formulaire. Le nombre de places étant limité, seront inscrits en priorité à cette formation les fellows Dynamics et les doctorants de l’ICM.
Notes : Les participant-e‑s devront venir avec leur ordinateur portable et avoir préalablement téléchargé et installé Python.
Cette formation aura lieu en présentiel. Il vous sera précisé ultérieurement s’il sera possible de suivre la formation à distance en cas d’impossibilité d’être présent.
Si vous avez des questions sur le contenu de la formation, n’hésitez pas à me contacter (audrey.lenoel@college-de-france.fr).