Extraire un tableau d’un site rapidement en Python avec Pandas

Comment extraire un tableau d’un site web en une seule ligne de code Python ? C’est facile avec cette fonction Pandas !

Si vous travaillez dans la Data Science, vous êtes forcément passé par la librairie Pandas !

C’est la base quand on travaille dans le Big Data. Pandas permet de manipuler facilement des grands ensemble de données.

Mais saviez-vous qu’on pouvait aussi extraire des tableaux directement d’une page web ?

Extraire un tableau d’un site

Pandas n’est pas qu’une simple libraire de manipulation de données.

Effectivement, elle permet aussi de faire du Web Scraping : extraire des informations sur des pages web.

Comment faire ?

Il faut simplement utiliser la fonction read_html() en indiquant l’url de la page web ciblée.

Cette fonction cherche tous les tableaux dans une page, puis créé un DataFrame pour chacun d’entre eux.

Dans l’exemple ci-dessous, on extrait des informations relatifs à l’économie des États-Unis sur Wikipédia :

import pandas as pd

df = pd.read_html("https://en.wikipedia.org/wiki/Economy_of_the_United_States")

Ensuite on peut afficher le résultat :


CRÉER TON APPLICATION IA !


Reçois tes 5 JOURS De Formation GRATUITE Pour Apprendre À Créer Ton APPLICATION d’INTELLIGENCE ARTIFICIELLE !


Tous les fondamentaux de la création d’Application IA : les approches, les outils et techniques, les librairies et framework, et bien d'autres !

Découvres étape par étape la création d’application de Deep Learning (tu apprendras même à trouver des idées d’appli !).

En bonus, tu recevras notre Guide Ultime du Deep Learning !


df[3]

On a bien directement un DataFrame contenant le tableau de la page Wikipédia !

À savoir

Remarquez qu’on a indiqué l’index ‘3’ pour afficher le DataFrame.

Effectivement la fonction read_html() cherche tous les tags html <table> et en extrait les informations.

Ainsi, on récupère non pas seulement un tableau, mais bien tous les tableaux contenu dans la page.

Dans notre cas, le tableau qui nous intéressé se trouve à l’index ‘3’.

N’hésitez donc pas à parcourir les DataFrames retourner par la fonction read_html pour comprendre où se situe votre tableau !

Parfois, il arrive que les pages web ne soient pas aux normes ou que les données extraites soient corrompues. Attendez vous donc à faire du nettoyage de données une fois que vous appelez cette fonction.

Heureusement pour nous, dans notre exemple les données était déjà conforme !

C’est parce que dans les sites piliers d’internet, comme Wikipédia, les pages sont pleinement structurés.

La librairie pandas n’est pas la seule qui permet de faire du Web Scraping.

BeautifulSoup est une librairie spécialiseé dans ce domaine et permet d’extraire tout type d’informations sur une page web. Des tableaux, aux données non structurées !

On l’utilise en détail dans cet article où l’on analyse de tweets d’Elon Musk par Intelligence Artificielle.

sources :


CRÉER TON APPLICATION IA !


Reçois tes 5 JOURS De Formation GRATUITE Pour Apprendre À Créer Ton APPLICATION d’INTELLIGENCE ARTIFICIELLE !


Tous les fondamentaux de la création d’Application IA : les approches, les outils et techniques, les librairies et framework, et bien d'autres !

Découvres étape par étape la création d’application de Deep Learning (tu apprendras même à trouver des idées d’appli !).

En bonus, tu recevras notre Guide Ultime du Deep Learning !


Tom Keldenich
Tom Keldenich

Data Engineer & passionné d'Intelligence Artificielle !

Fondateur du site Inside Machine Learning

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.