Extraire un tableau d’un site rapidement en Python avec Pandas

Comment extraire un tableau d’un site web en une seule ligne de code Python ? C’est facile avec cette fonction Pandas !

Si vous travaillez dans la Data Science, vous êtes forcément passé par la librairie Pandas !

C’est la base quand on travaille dans le Big Data. Pandas permet de manipuler facilement des grands ensemble de données.

Mais saviez-vous qu’on pouvait aussi extraire des tableaux directement d’une page web ?

Extraire un tableau d’un site

Pandas n’est pas qu’une simple libraire de manipulation de données.

Effectivement, elle permet aussi de faire du Web Scraping : extraire des informations sur des pages web.

Comment faire ?

Il faut simplement utiliser la fonction read_html() en indiquant l’url de la page web ciblée.

Cette fonction cherche tous les tableaux dans une page, puis créé un DataFrame pour chacun d’entre eux.

Dans l’exemple ci-dessous, on extrait des informations relatifs à l’économie des États-Unis sur Wikipédia :

import pandas as pd

df = pd.read_html("https://en.wikipedia.org/wiki/Economy_of_the_United_States")

Ensuite on peut afficher le résultat :

LA MÉTHODE PARÉ POUR FAIRE DU DEEP LEARNING !

Reçois tes 7 JOURS De Formation GRATUITE Pour Apprendre À Créer TA PREMIÈRE INTELLIGENCE ARTIFICIELLE !

Pendant les 7 prochains jours je vais te montrer comment utiliser les Réseaux de neurones.

Tu vas comprendre ce qu'est le Deep Learning avec des exemples concrets qui vont te rester dans la tête.

ATTENTION, cette série d’email ne s’adresse pas à tout le monde. Si tu es du genre à aimer les cours théoriques et scolaires tu peux passer ta route.

Mais si tu souhaite apprendre la méthode PARÉ pour faire du Deep Learning, clique ici :

df[3]

On a bien directement un DataFrame contenant le tableau de la page Wikipédia !

À savoir

Remarquez qu’on a indiqué l’index ‘3’ pour afficher le DataFrame.

Effectivement la fonction read_html() cherche tous les tags html <table> et en extrait les informations.

Ainsi, on récupère non pas seulement un tableau, mais bien tous les tableaux contenu dans la page.

Dans notre cas, le tableau qui nous intéressé se trouve à l’index ‘3’.

N’hésitez donc pas à parcourir les DataFrames retourner par la fonction read_html pour comprendre où se situe votre tableau !

Parfois, il arrive que les pages web ne soient pas aux normes ou que les données extraites soient corrompues. Attendez vous donc à faire du nettoyage de données une fois que vous appelez cette fonction.

Heureusement pour nous, dans notre exemple les données était déjà conforme !

C’est parce que dans les sites piliers d’internet, comme Wikipédia, les pages sont pleinement structurés.

La librairie pandas n’est pas la seule qui permet de faire du Web Scraping.

BeautifulSoup est une librairie spécialiseé dans ce domaine et permet d’extraire tout type d’informations sur une page web. Des tableaux, aux données non structurées !

On l’utilise en détail dans cet article où l’on analyse de tweets d’Elon Musk par Intelligence Artificielle.

sources :

LA MÉTHODE PARÉ POUR FAIRE DU DEEP LEARNING !

Reçois tes 7 JOURS De Formation GRATUITE Pour Apprendre À Créer TA PREMIÈRE INTELLIGENCE ARTIFICIELLE !

Pendant les 7 prochains jours je vais te montrer comment utiliser les Réseaux de neurones.

Tu vas comprendre ce qu'est le Deep Learning avec des exemples concrets qui vont te rester dans la tête.

ATTENTION, cette série d’email ne s’adresse pas à tout le monde. Si tu es du genre à aimer les cours théoriques et scolaires tu peux passer ta route.

Mais si tu souhaite apprendre la méthode PARÉ pour faire du Deep Learning, clique ici :

Tom Keldenich
Tom Keldenich

Data Engineer & passionné d'Intelligence Artificielle !

Fondateur du site Inside Machine Learning

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

This page will not stay online forever

Enter your email to receive for free

The PANE method for Deep Learning

* indicates required

 

You will receive one email per day for 7 days – then you will receive my newsletter.
Your information will never be given to third parties.

You can unsubscribe in 1 click from any of my emails.

Cette page ne restera pas en ligne éternellement


Entre ton email pour recevoir gratuitement
la méthode PARÉ pour faire du Deep Learning


Tu recevras un email par jour pendant 7 jours - puis tu recevras ma newsletter.
Tes informations ne seront jamais cédées à des tiers.

Tu peux te désinscrire en 1 clic depuis n'importe lequel de mes emails.