Scrapping web avec la bibliothèque beautifulSoup Python

Contenu du cours

Description de la bibliothèque BeautifulSoup
Prérequis
Installation de la bibliothèque beautifulSoup et des packages dépendants
Extraire des informations d'un site Web avec BeautifulSoup
Liste des méthodes associées à un objet BeautifulSoup

1. Description de la bibliothèque BeautifulSoup

BeautifulSoup est une bibliothèque python très populaire qui permet d'extraire des données à partir de fichiers HTML et XML. Elle est souvent utilisée pour le web scraping, qui est le processus d'extraction d'informations à partir de pages web.
BeautifulSoup crée un arbre de syntaxe qui représente le document HTML ou XML et fournit ensuite des méthodes pour parcourir cet arbre et extraire des données spécifiques. Elle permet ainsi d'extraire facilement du texte, des liens, des images, des tableaux, etc. à partir d'une page web.
Pour utiliser BeautifulSoup dans python, il est nécessaire d'importer la bibliothèque dans le programme. Cela peut se faire en utilisant la commande suivante :
from bs4 import BeautifulSoup

1

from bs4 import BeautifulSoup
Une fois que la bibliothèque est importée, il est possible de charger un fichier HTML ou XML dans BeautifulSoup. Cela peut se faire à partir d'un fichier local ou à partir d'une URL en ligne.
Une fois le document chargé dans BeautifulSoup, il est possible de naviguer dans l'arbre de syntaxe à l'aide des méthodes fournies par la bibliothèque. Les méthodes de recherche permettent de trouver des balises spécifiques en fonction de leur nom, de leurs attributs ou de leur contenu.
Il est également possible de modifier le document HTML ou XML à l'aide de BeautifulSoup. Par exemple, il est possible de supprimer des balises, de modifier leur contenu ou de leur ajouter des attributs.
En résumé, BeautifulSoup est une bibliothèque python puissante et facile à utiliser pour l'extraction d'informations à partir de pages web. Elle permet de naviguer dans un document HTML ou XML et d'extraire des données spécifiques à l'aide de méthodes simples et efficaces.

2. Prérequis

Pour utiliser Beautiful Soup en python, il est nécessaire d'avoir une compréhension de base de la syntaxe HTML et XML. Il est également recommandé de connaître les concepts de base de la programmation python, tels que les variables, les boucles, les fonctions et les structures de données.
En outre, il est nécessaire d'installer la bibliothèque Beautiful Soup dans l'environnement python. Cela peut être fait en utilisant le gestionnaire de paquets pip en exécutant la commande suivante dans la ligne de commande :

pip install beautifulSoup4

1	pip install beautifulSoup4

Remarque

Afin de pouvoir utiliser Beautiful Soup avec des pages web, il est nécessaire d'avoir une connexion Internet active pour accéder aux pages web et extraire les données souhaitées.

3. Installation de la bibliothèque beautifulSoup et des packages dépendants

3.1 Installation de beautiful soup

Pour installer beautiful soup, il suffit d'utiliser l'invite de commande cmd et d'exécuter la commande:

pip install beautifulSoup4

1	pip install beautifulSoup4

3.2 Installation des dépendances

BeautifulSoup est une bibliothèque python open-source qui dépend de la bibliothèque standard python, ainsi que d'autres bibliothèques tierces.
La bibliothèque standard python inclut des modules pour la gestion de fichiers, l'encodage de caractères, les expressions régulières, la manipulation de chaînes, etc. Tous ces modules sont nécessaires pour exécuter Beautiful Soup.
En plus des modules standard python, Beautiful Soup dépend de la bibliothèque tierce "lxml". Cette bibliothèque fournit une implémentation rapide et efficace de la syntaxe XML et est utilisée par Beautiful Soup pour analyser les documents XML.

pip install lxml

1	pip install lxml

BeautifulSoup peut également utiliser la bibliothèque "html5lib" comme alternative à "lxml". Cette bibliothèque est utilisée pour l'analyse de documents HTML et offre une prise en charge complète de la spécification HTML5.

pip install html5lib

1	pip install html5lib

En résumé, les dépendances de BeautifulSoup sont la bibliothèque standard python, la bibliothèque tierce "lxml" pour l'analyse XML et la bibliothèque tierce "html5lib" pour l'analyse HTML.

4. Extraire des informations d'un site Web avec BeautifulSoup

4.1 Extraire des données avec la méthode find_all()

Nous allons voir par exemple comment récupérer le contenu de toutes les balises h2 à partir d'une adresse url donnée:

#coding: utf-8
import requests
from bs4 import BeautifulSoup

req = requests.get('https://www.tresfacile.net/')
soup = BeautifulSoup(req.text, "lxml")
for h2_tag in soup.find_all('h2'):
    print(h2_tag.text)
"""
Ce qui affiche la liste des textes écrits en h2:

Rechercher
Cours Python – Django
Exercices & Projets En Python
Réseaux Informatiques
Dart & Flutter
Cours Java
Développement Web
Bases de données
Utilisateurs En Ligne !
Se connecter
"""

#coding: utf-8

import requests

from bs4 import BeautifulSoup

req = requests.get('https://www.tresfacile.net/')

soup = BeautifulSoup(req.text, "lxml")

for h2_tag in soup.find_all('h2'):

print(h2_tag.text)

"""

Ce qui affiche la liste des textes écrits en h2:

Rechercher

Cours Python – Django

Exercices & Projets En Python

Réseaux Informatiques

Dart & Flutter

Cours Java

Développement Web

Bases de données

Utilisateurs En Ligne !

Se connecter

"""

Exemple: obtenir les textes avec des liens

import requests
from bs4 import BeautifulSoup as bs

req = requests.get('https://www.tresfacile.net/')
soup = bs(req.text, "lxml")

for link in soup.find_all('a'):
    print(link.text)

# affiche tous les textes ayant des liens

import requests

from bs4 import BeautifulSoup as bs

req = requests.get('https://www.tresfacile.net/')

soup = bs(req.text, "lxml")

for link in soup.find_all('a'):

print(link.text)

# affiche tous les textes ayant des liens

4.2 Extraire des données de balises selon des attributs spécifiques

Avec la méthode find_all() on peut aussi recherche le contenu des balise ayant un attribut spécifique:

Syntaxe:

.find( tag_name , attribut = "valeur")

1	.find( tag_name , attribut = "valeur")

Exemple (recherche de contenu des balises div ayant la classe "menuSD")

#coding: utf-8
import requests
from bs4 import BeautifulSoup

req = requests.get('https://www.tresfacile.net/')
soup = BeautifulSoup(req.text, "lxml")

tag = soup.find_all('div' , class_ ="menuSD")
print(tag) # affiche la totalité des balises <div> avec leurs contenus complets
print(tag[0].text  # affiche le contenu de la première balise <div> ayant la classe "menuSD"

#coding: utf-8

import requests

from bs4 import BeautifulSoup

req = requests.get('https://www.tresfacile.net/')

soup = BeautifulSoup(req.text, "lxml")

tag = soup.find_all('div' , class_ ="menuSD")

print(tag) # affiche la totalité des balises <div> avec leurs contenus complets

print(tag[0].text # affiche le contenu de la première balise <div> ayant la classe "menuSD"

4.3 Extraire des données à l'aide de la méthode find()

Nous avons vue dans le paragraphe précédent la méthode find_all() qui permet d'extraire la liste des contenus selon la requête utilisée. La méthode find() est semblable à la méthode find_all() à la différence qu'elle extrait seulement le contenu de la première balise rencontrée.

Exemple

#coding: utf-8
import requests
from bs4 import BeautifulSoup

req = requests.get('https://www.tresfacile.net/')
soup = BeautifulSoup(req.text, "lxml")
a = soup.find('a')
b = soup.find('a')["href"]
print('b  = ' , b) # affiche le lien hypertexte de la première balise de lien <a href="">
print(a) # affiche la première balise de lien <a href="">
print(a.text)# affiche le contenu texte de la première balise de lien <a href="">
# recherche par attribut class_ =  , id="" ...
tag = soup.find(class_ ="menuSD")
print(tag) # affiche la première balise <div> ayant la classe "menuSD" avec contenu
print(tag.text) # affiche le contenu de la première balise <div> ayant la classe "menuSD"

#coding: utf-8

import requests

from bs4 import BeautifulSoup

req = requests.get('https://www.tresfacile.net/')

soup = BeautifulSoup(req.text, "lxml")

a = soup.find('a')

b = soup.find('a')["href"]

print('b = ' , b) # affiche le lien hypertexte de la première balise de lien <a href="">

print(a) # affiche la première balise de lien <a href="">

print(a.text)# affiche le contenu texte de la première balise de lien <a href="">

# recherche par attribut class_ = , id="" ...

tag = soup.find(class_ ="menuSD")

print(tag) # affiche la première balise <div> ayant la classe "menuSD" avec contenu

print(tag.text) # affiche le contenu de la première balise <div> ayant la classe "menuSD"

5. Liste des méthodes associées à un objet BeautifulSoup

Voici une liste de méthodes les plus utilisées associées à un objet BeautifulSoup :

find_all(name, attrs, recursive, string, **kwargs) : trouve toutes les balises qui correspondent aux critères spécifiés et renvoie une liste de ces balises.
find(name, attrs, recursive, string, **kwargs) : trouve la première balise qui correspond aux critères spécifiés et renvoie cette balise.
select(selector) : trouve toutes les balises qui correspondent au sélecteur CSS spécifié et renvoie une liste de ces balises.
prettify() : renvoie une version formatée et lisible du document HTML ou XML.
get_text() : renvoie tout le texte contenu dans l'objet BeautifulSoup, y compris le texte contenu dans les balises enfants.
contents : renvoie une liste de toutes les balises enfants et de tout le texte contenu dans l'objet BeautifulSoup.
parent : renvoie la balise parent de l'objet BeautifulSoup.
next_sibling : renvoie la balise suivante après l'objet BeautifulSoup.
previous_sibling : renvoie la balise précédente avant l'objet BeautifulSoup.
attrs : renvoie un dictionnaire des attributs de la balise.
name : renvoie le nom de la balise.
new_tag(name, attrs={}, **kwargs) : crée une nouvelle balise avec le nom et les attributs spécifiés.
insert(position, tag) : insère la balise spécifiée à la position spécifiée dans la liste des balises enfants de l'objet BeautifulSoup.
replace_with(tag) : remplace l'objet BeautifulSoup par la balise spécifiée.
decompose() : supprime l'objet BeautifulSoup et tous ses descendants du document.
has_attr(name) : renvoie True si la balise a un attribut avec le nom spécifié, sinon False.
has_class(name) : renvoie True si la balise a la classe CSS spécifiée, sinon False.
get(name, default=None) : renvoie la valeur de l'attribut avec le nom spécifié, ou la valeur par défaut si l'attribut n'existe pas.
get_attribute_list(name) : renvoie une liste des valeurs des attributs avec le nom spécifié.
unwrap() : supprime la balise spécifiée de l'objet BeautifulSoup, en fusionnant ses enfants avec l'objet BeautifulSoup.
encode(formatter=None, encoding=None, errors='xmlcharrefreplace') : encode l'objet BeautifulSoup en une chaîne binaire, en utilisant le format et l'encodage spécifiés.

Ces méthodes ne sont que quelques exemples parmi les nombreuses méthodes disponibles dans BeautifulSoup. La documentation officielle de BeautifulSoup fournit une liste complète des méthodes et de leurs paramètres : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Younes Derfoufi
CRMEF OUJDA

Post Views: 3 088

1 thought on “Scrapping web avec la bibliothèque beautifulSoup Python”

Scrapping web avec la bibliothèque beautifulSoup Python

1. Description de la bibliothèque BeautifulSoup

2. Prérequis

Remarque

3. Installation de la bibliothèque beautifulSoup et des packages dépendants

3.1 Installation de beautiful soup

3.2 Installation des dépendances

4. Extraire des informations d'un site Web avec BeautifulSoup

4.1 Extraire des données avec la méthode find_all()

Exemple: obtenir les textes avec des liens

4.2 Extraire des données de balises selon des attributs spécifiques

Syntaxe:

Exemple (recherche de contenu des balises div ayant la classe "menuSD")

4.3 Extraire des données à l'aide de la méthode find()

Exemple

5. Liste des méthodes associées à un objet BeautifulSoup

Apprentissage de la machine: La révolution des neurones artificiels et de l'apprentissage profond

Python par la pratique

Maîtriser la Programmation Python pour le Machine Learning

1 thought on “Scrapping web avec la bibliothèque beautifulSoup Python”

Leave a Reply Cancel reply

Apprentissage de la machine: La révolution des neurones artificiels et de l'apprentissage profond

Python par la pratique

Maîtriser la Programmation Python pour le Machine Learning