13 librairies Python à savoir pour un Data Scientist – Rapide

Les 13 librairies Python essentielles à connaître pour faire de la Data Science, mais surtout le code pour les utiliser directement !

La Data Science est le domaine qui rassemble la manipulation, l’analyse et la compréhension des données.

Python est le langage le plus utilisé dans ce domaine. Mais quelles sont les librairies de Data Science à connaître absolument ?

C’est ce qu’on voit dans cet article !

Pandas

On ne la présente plus !

La bibliothèque Pandas est la base pour tout Data Scientist.

Elle permet de manipuler facilement les données. De les extraire d’un fichier excel, csv, txt, et même d’une page web !

Mais aussi de faire des opérations entre colonnes, lignes et cellules d’un DataFrame.

C’est l’idéal pour travailler avec tout type de données : entier, float, texte, date, etc.

Pour l’utiliser :

pip install pandas
import pandas as pd

Numpy

Numpy permet de travailler facilement avec des Array (tableau).

Il rentre facile la réalisation d’opérations mathématiques complexes grâce à son set de fonctions.

En plus de cela, son temps de calcul est faible ce qui te permet d’exécuter rapidement ton code.

Pour l’utiliser :

pip install numpy
import numpy as np

Scipy

Scipy est une extension de Numpy.

Il permet de pousser encore plus loin les calculs notamment pour faire :

  • de l’optimisation
  • des statistiques
  • du traitement de signal
  • de l’algèbre linéaire

Pour l’utiliser :

pip install scipy
import scipy

Matplotlib

Tu veux afficher des graphiques sans prise de tête ?

Matplotlib est la librairie qu’il vous faut !

Elle permet de faire des graphiques simples mais performant. Que ce soit via des DataFrame Pandas ou des Array Numpy.

Avec Matplotlib tu peux faire des :

  • graphiques à intervalles continues
  • graphiques à intervalles discontinues
  • nuages de points
  • boîtes de Tukey
  • diagrammes en bâton
  • diagrammes circulaire (camembert)
  • volumes 3D
  • heatmap
  • visualisations de séries temporelles

… et bien d’autres ! Je te laisse explorer la documentation pour voir l’étendu de Matplotlib.

Pour l’utiliser :

pip install matplotlib
import matplotlib.pyplot as plt

Seaborn

Comme Scipy est une extension de Numpy, Seaborn est une extension de Matplotlib

Son apport majeur ?

Une utilisation plus agréable de Matlpotlib. Seaborn à des fonctions pré-implémenter permettant de tracer des graphes stylisés en une seule ligne de code.

Exemple en image :

Librairie Seaborn

Et la ligne de code les trois lignes de code pour reproduire l’exemple:

import seaborn as sns
sns.set_theme(style="white")
# Load the example mpg dataset
mpg = sns.load_dataset("mpg")
# Plot miles per gallon against horsepower with other semantics
sns.relplot(x="horsepower", y="mpg", hue="origin", size="weight",
            sizes=(40, 400), alpha=.5, palette="muted",
            height=6, data=mpg)

Pour l’utiliser :

pip install seaborn
import seaborn as sns

Plotly

Plotly est une librairie plus avancée que matplotlib pour la visualisation de données.

Les développeurs de la librairie revendiquent pouvoir faire des « publication-quality graphs », des graphiques de qualité professionnelle notamment pour les publications scientifiques.

Personnellement, j’aime le fait d’avoir des graphes interactifs avec Plotly dans lesquels on peut zoomer et naviguer facilement. Mais pour des graphes simples d’analyse, tu peux rester sur Matplotlib.

Pour l’utiliser :

pip install plotly
import plotly.express as px

Statsmodels

Statsmodels est une librairie Python permettant de faire des statistiques, des estimations et de la Data Exploration.


CRÉER TON APPLICATION IA !


Reçois tes 5 JOURS De Formation GRATUITE Pour Apprendre À Créer Ton APPLICATION d’INTELLIGENCE ARTIFICIELLE !


Tous les fondamentaux de la création d’Application IA : les approches, les outils et techniques, les librairies et framework, et bien d'autres !

Découvres étape par étape la création d’application de Deep Learning (tu apprendras même à trouver des idées d’appli !).

En bonus, tu recevras notre Guide Ultime du Deep Learning !


Tu as à disposition plusieurs modèles permettant de mieux comprendre tes données. Ainsi tu peux faire de la régression linéaire, de l’analyse de séries temporelles ou encore implémenter des Modèles Additifs Généralisés (MAG).

Pour l’utiliser :

pip install statsmodels
import statsmodels.api as sm

Scikit-learn

Scikit-learn est LA bibliothèque la plus utilisées en Data Science pour faire du Machine Learning.

Elle vous permet de faire de l’apprentissage automatique de manière simple en vous permettant d’utiliser des algorithmes ready-to-use !

Cela en fait une base essentielle pour faire de la Data Science mais aussi une bonne porte d’entrée au Machine Learning.

Pour l’utiliser :

pip install scikit-learn
import scikit-learn as sklearn

NLTK

NLTK est le leader pour faire du Natural Language Processing (traitement des données textes).

Cette librairie propose des fonctions pour une grande variété d’opération :

  • tokenization
  • lemmatization
  • stemmatization
  • détection des entités et des noms propres
  • suppression de stopwords
  • analyse de sentiments (et leur intensité)

La liste est trop longue pour être exhaustif mais tu peux voir nos autres articles de la catégorie NLP si le sujet t’intéresse !

Pour l’utiliser :

pip install nltk
import nltk

Gensim

Gensim est utilisé pour faire une tâche bien précise de NLP : la représentation sous forme vectorielle.

Effectivement avec Gensim tu peux représenter du texte sous forme de vecteur. Et ça marche pour n’importe quel type de texte, que ce soit un document scientifique, un bouquin ou un article de presse !

Une fois qu’un texte est représenté sous forme vectorielle, il y a tout un tas d’analyse sympa à faire. Par exemple, tu peux calculer la similarité entre deux textes, même s’ils n’on aucun mots en commun :

Gensim – Word Mover’s Distance

Pour l’utiliser :

pip install gensim
import gensim

Spacy

Spacy est la dernière librairie NLP de ce top.

Elle partage la plupart des fonctionnalités de NLTK mais ici, la librairie se spécialise dans les applications en production.

On utilisera Spacy non pas pour de l’analyse pure en Python mais plutôt pour intégrer des outils d’analyse de texte dans des web app.

À noter que Spacy est particulièrement efficace dans la compréhension de texte long et détaillé.

Pour l’utiliser :

pip install spacy
import spacy

BeautifulSoup

BeautifulSoup est une librairie pour extraire des données de fichiers HTML.

Dis plus simplement, BeautifulSoup permet de récupérer des données d’autres sites web. Cette technique est appelé le Web Scraping.

Cette librairie propose en plus de cela un moyen simple de naviguer à travers ce fichier HTML. Par exemple pour afficher les titres, on utilisera fichier.title.

Et pour ceux ayant un peu moins de prise avec HTML, une fonction est proposé pour converter le HTML en texte. Idéal si tu veux lui appliquer du NLP !

Pour l’utiliser :

pip install beautifulsoup4
from bs4 import BeautifulSoup

NetworkX

NetworkX est une librairie de niche. Seulement une partie des Data Scientist en auront besoin.

C’est une libraire qui offre une classe pour manipuler des Graphs et tous types de fonctions associées à ces objets.

Les Graphs sont des objets particulièrement utile pour représenter des relations entre des individus (personnes, entreprises, …).

Attention ici on ne parle pas de graphique mais bien de Graph.

Pour l’utiliser :

pip install pandas
import pandas as pd

C’est la fin de cet article sur les librairies en Data Science !

Si tu es débutant et que tu souhaites en savoir plus sur la Data et le Machine Learning, c’est par ici 😉


CRÉER TON APPLICATION IA !


Reçois tes 5 JOURS De Formation GRATUITE Pour Apprendre À Créer Ton APPLICATION d’INTELLIGENCE ARTIFICIELLE !


Tous les fondamentaux de la création d’Application IA : les approches, les outils et techniques, les librairies et framework, et bien d'autres !

Découvres étape par étape la création d’application de Deep Learning (tu apprendras même à trouver des idées d’appli !).

En bonus, tu recevras notre Guide Ultime du Deep Learning !


Tom Keldenich
Tom Keldenich

Data Engineer & passionné d'Intelligence Artificielle !

Fondateur du site Inside Machine Learning

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.