Extraire Tableau PDF vers Excel - Meilleur Tutoriel Python

Dans cet article nous allons voir comment extraire rapidement un tableau d’un PDF vers Excel grâce au language Python.

Pour ce tutoriel vous aurez besoin de deux librairies Python:

tabula-py
pandas

Pour les installer, allez sur votre terminal/shell et taper ces lignes de codes:

pip install tabula-py
pip install pandas

Si vous utilisez Google Colab, vous pouvez installer ces librairies directement dessus. Il suffit de rajouter un point d’exclamation« ! » devant, comme suit:

!pip install tabula-py
!pip install pandas

PDF vers Excel (un seul tableau)

PDF contenant plusieurs tableaux

PDF vers Excel (un seul tableau)

On charge tout d’abord les bibliothèques dans notre éditeur de texte :

import tabula
import pandas as pd

Puis, on va lire le pdf avec la fonction read_pdf() de la libraire tabula.

Cette fonction détecte automatique les tableaux dans un pdf pour les convertir en DataFrames. Idéal pour les convertir ensuite en fichier Excel !

df = tabula.read_pdf('chemin_du_fichier/fichier.pdf', pages = 'all')[0]

On peut ensuite vérifier que le tableau a bien la forme attendu.

df.head()

Puis le convertir en fichier Excel !

df.to_excel('chemin_du_fichier/fichier.xlsx')

Le code en entier :

Au fait, si ton objectif est d'apprendre le Deep Learning - j’ai préparé pour toi le Plan d’action pour Maîtriser les Réseaux de neurones.

7 jours de conseils gratuits d’un ingénieur spécialisé en Intelligence Artificielle pour apprendre à maîtriser les réseaux de neurones à partir de zéro :

Planifie ton apprentissage
Structure tes projets
Développe tes algorithmes d’Intelligence Artificielle

J’ai basé ce programme sur des faits scientifiques, des approches éprouvées par des chercheurs mais également mes propres techniques que j'ai conçues au fil de mes expériences dans le domaine du Deep Learning.

Pour y accéder, clique ici :

RECEVOIR MON PLAN D'ACTION

À présent, on peut revenir à ce que je mentionnais précédemment.

import tabula
import pandas as pd

df = tabula.read_pdf('chemin_du_fichier/fichier.pdf', pages = 'all')[0]

df.to_excel('chemin_du_fichier/fichier.xlsx')

PDF contenant plusieurs tableaux

On charge les bibliothèques dans notre éditeur de texte :

import tabula
import pandas as pd

Puis, on va lire le pdf avec la fonction read_pdf() de la librairie tabula.

Cette fonction détecte automatique les tableaux dans un pdf pour les convertir en DataFrames. Idéal pour les convertir ensuite en fichier Excel !

Ici, la variable ‘df’ sera en fait une liste de DataFrame. Le premier élément correspond au premier tableau, le deuxième au deuxième tableau, etc.

df = tabula.read_pdf('chemin_du_fichier/fichier.pdf', pages = 'all')

Pour enregistrer ces tableaux séparément, il faudra utiliser une boucle for qui va enregistrer chaque tableau dans un fichier Excel.

for i in range(len(df)):
 df[i].to_excel('fichier_'+str(i)+'.xlsx')

Le code en entier :

import tabula
import pandas as pd

df = tabula.read_pdf('chemin_du_fichier/fichier.pdf', pages = 'all')

for i in range(len(df)):
 df[i].to_excel('fichier_'+str(i)+'.xlsx')

Grâce à l’Intelligence Artificielle, tu as réussi à extraire un tableau d’un PDF vers Excel.

Mais cette prouesse ne représente qu’un centième de ce que cette technologie peut accomplir !

Aujourd’hui, c’est grâce au Deep Learning que les leaders de la tech peuvent créer les IA les plus puissantes.

Si tu veux approfondir tes connaissances dans le domaine, tu peux accéder à mon Plan d’action pour Maîtriser les Réseaux de neurones.

Un programme de 7 cours gratuits que j’ai préparé pour te guider dans ton parcours pour apprendre le Deep Learning.

Si ça t’intéresse, clique ici :

RECEVOIR MON PLAN D’ACTION

sources: