Module BeautifulSoup & Scrapping Web

1 - Qu'est-ce que BeautifulSoup ?

BeautifulSoup est une bibliothèque python qui permet d'extraire des informations d'un site web, ou d'un document XML, avec quelques lignes de code. Le module BeautifulSoup fonctionne généralement avec le module Request, à cet effet on doit préalablement installer ce dernier via la commande pip:

2 - Comment installer BeatifulSoup ?

L'installation de beautifulsoup est une opération assez simple, il suffit d'utiliser l'utilitaire de ligne de commande pip et de taper :



Vous devez aussi installer d'autres modules importants qui sont nécessaires au bon fonctionnement de beatifulsoup :



Installez le module lxml :

Installez le module html5lib :

3 -Extraire des informations d'un site Web avec BeautifulSoup

3.1 - Extraire des données avec la méthode find_all()

Nous allons voir par exemple comment récupérer le contenu de toutes les balises h2 à partir d'une adresse url donnée:

Exemple: obtenir les textes avec des liens




3.2 Extraire des données de balises selon des attributs spécifiques

Avec la méthode find_all() on peut aussi recherche le contenu des balise ayant un attribut spécifique:

Syntaxe:

Exemple (recherche de contenu des balises div ayant la classe "menuSD")

3.3 Extraire des données à l'aide de la méthode find()

Nous avons vue dans le paragraphe précédent la méthode find_all() qui permet d'extraire la liste des contenus selon la requête utilisée. La méthode find() est semblable à la méthode find_all() à la différence qu'elle extrait seulement le contenu de la première balise rencontrée.

Exemple

 

Younes Derfoufi
CRMEF OUJDA

Leave a Reply