Comment extraire un tableau d’un site web en une seule ligne de code Python ? C’est facile avec cette fonction Pandas !
Si vous travaillez dans la Data Science, vous êtes forcément passé par la librairie Pandas !
C’est la base quand on travaille dans le Big Data. Pandas permet de manipuler facilement des grands ensemble de données.
Mais saviez-vous qu’on pouvait aussi extraire des tableaux directement d’une page web ?
Extraire un tableau d’un site
Pandas n’est pas qu’une simple libraire de manipulation de données.
Effectivement, elle permet aussi de faire du Web Scraping : extraire des informations sur des pages web.
Comment faire ?
Il faut simplement utiliser la fonction read_html() en indiquant l’url de la page web ciblée.
Cette fonction cherche tous les tableaux dans une page, puis créé un DataFrame pour chacun d’entre eux.
Dans l’exemple ci-dessous, on extrait des informations relatifs à l’économie des États-Unis sur Wikipédia :
import pandas as pd
df = pd.read_html("https://en.wikipedia.org/wiki/Economy_of_the_United_States")
Ensuite on peut afficher le résultat :
LA MÉTHODE PARÉ POUR FAIRE DU DEEP LEARNING !
Reçois tes 7 JOURS De Formation GRATUITE Pour Apprendre À Créer TA PREMIÈRE INTELLIGENCE ARTIFICIELLE !
Pendant les 7 prochains jours je vais te montrer comment utiliser les Réseaux de neurones.
Tu vas comprendre ce qu'est le Deep Learning avec des exemples concrets qui vont te rester dans la tête.
ATTENTION, cette série d’email ne s’adresse pas à tout le monde. Si tu es du genre à aimer les cours théoriques et scolaires tu peux passer ta route.
Mais si tu souhaite apprendre la méthode PARÉ pour faire du Deep Learning, clique ici :
df[3]

On a bien directement un DataFrame contenant le tableau de la page Wikipédia !
À savoir
Remarquez qu’on a indiqué l’index ‘3’ pour afficher le DataFrame.
Effectivement la fonction read_html() cherche tous les tags html <table> et en extrait les informations.
Ainsi, on récupère non pas seulement un tableau, mais bien tous les tableaux contenu dans la page.
Dans notre cas, le tableau qui nous intéressé se trouve à l’index ‘3’.
N’hésitez donc pas à parcourir les DataFrames retourner par la fonction read_html pour comprendre où se situe votre tableau !
Parfois, il arrive que les pages web ne soient pas aux normes ou que les données extraites soient corrompues. Attendez vous donc à faire du nettoyage de données une fois que vous appelez cette fonction.
Heureusement pour nous, dans notre exemple les données était déjà conforme !
C’est parce que dans les sites piliers d’internet, comme Wikipédia, les pages sont pleinement structurés.
La librairie pandas n’est pas la seule qui permet de faire du Web Scraping.
BeautifulSoup est une librairie spécialiseé dans ce domaine et permet d’extraire tout type d’informations sur une page web. Des tableaux, aux données non structurées !
On l’utilise en détail dans cet article où l’on analyse de tweets d’Elon Musk par Intelligence Artificielle.
sources :
- Pandas : read_html()
LA MÉTHODE PARÉ POUR FAIRE DU DEEP LEARNING !
Reçois tes 7 JOURS De Formation GRATUITE Pour Apprendre À Créer TA PREMIÈRE INTELLIGENCE ARTIFICIELLE !
Pendant les 7 prochains jours je vais te montrer comment utiliser les Réseaux de neurones.
Tu vas comprendre ce qu'est le Deep Learning avec des exemples concrets qui vont te rester dans la tête.
ATTENTION, cette série d’email ne s’adresse pas à tout le monde. Si tu es du genre à aimer les cours théoriques et scolaires tu peux passer ta route.
Mais si tu souhaite apprendre la méthode PARÉ pour faire du Deep Learning, clique ici :