Extraire rapidement Tableau d’un PDF vers Excel avec Python

Dans cet article nous allons voir comment extraire rapidement un tableau d’un PDF vers Excel.

Pour ce tutoriel vous aurez besoin de deux librairies Python:

  • tabula-py
  • pandas

Pour les installer, allez sur votre terminal/shell et taper ces lignes de codes:

pip install tabula-py
pip install pandas

Si vous utilisez Google Colab, vous pouvez installer ces librairies directement dessus. Il suffit de rajouter un point d’exclamation« ! » devant, comme suit:

!pip install tabula-py
!pip install pandas
Photo by Aurelien Romain on Unsplash

PDF vers Excel (un seul tableau)

On charge tout d’abord les bibliothèques dans notre éditeur de texte :

import tabula
import pandas as pd

Puis, on va lire le pdf avec la fonction read_pdf() de la libraire tabula.

Cette fonction détecte automatique les tableaux dans un pdf pour les convertir en DataFrames. Idéal pour les convertir ensuite en fichier Excel !

df = tabula.read_pdf('chemin_du_fichier/fichier.pdf', pages = 'all')[0]

On peut ensuite vérifier que le tableau a bien la forme attendu.

df.head()

Puis le convertir en fichier Excel !

df.to_excel('chemin_du_fichier/fichier.xlsx')

Le code en entier :


CRÉER TON APPLICATION IA !

Reçois tes 5 JOURS De Formation GRATUITE Pour Apprendre À Créer Ton APPLICATION d’INTELLIGENCE ARTIFICIELLE !

Tous les fondamentaux de la création d’Application IA : les approches, les outils et techniques, les librairies et framework, et bien d'autres ! Découvres étape par étape la création d’application de Deep Learning (tu apprendras même à trouver des idées d’appli !). En bonus, tu recevras notre Guide Ultime du Deep Learning !


import tabula
import pandas as pd

df = tabula.read_pdf('chemin_du_fichier/fichier.pdf', pages = 'all')[0]

df.to_excel('chemin_du_fichier/fichier.xlsx')
Photo by Darius Cotoi on Unsplash

PDF contenant plusieurs tableaux

On charge les bibliothèques dans notre éditeur de texte :

import tabula
import pandas as pd

Puis, on va lire le pdf avec la fonction read_pdf() de la librairie tabula.

Cette fonction détecte automatique les tableaux dans un pdf pour les convertir en DataFrames. Idéal pour les convertir ensuite en fichier Excel !

Ici, la variable ‘df’ sera en fait une liste de DataFrame. Le premier élément correspond au premier tableau, le deuxième au deuxième tableau, etc.

df = tabula.read_pdf('chemin_du_fichier/fichier.pdf', pages = 'all')

Pour enregistrer ces tableaux séparément, il faudra utiliser une boucle for qui va enregistrer chaque tableau dans un fichier Excel.

for i in range(len(df)):
 df[i].to_excel('fichier_'+str(i)+'.xlsx')

Le code en entier :

import tabula
import pandas as pd

df = tabula.read_pdf('chemin_du_fichier/fichier.pdf', pages = 'all')

for i in range(len(df)):
 df[i].to_excel('fichier_'+str(i)+'.xlsx')
inside-machinelearning

sources:


CRÉER TON APPLICATION IA !

Reçois tes 5 JOURS De Formation GRATUITE Pour Apprendre À Créer Ton APPLICATION d’INTELLIGENCE ARTIFICIELLE !

Tous les fondamentaux de la création d’Application IA : les approches, les outils et techniques, les librairies et framework, et bien d'autres ! Découvres étape par étape la création d’application de Deep Learning (tu apprendras même à trouver des idées d’appli !). En bonus, tu recevras notre Guide Ultime du Deep Learning !


Tom Keldenich
Tom Keldenich

Data Engineer & passionné d'Intelligence Artificielle !

Fondateur du site Inside Machine Learning

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.