13 Librairies Data Science à Connaître Maintenant

Les 13 librairies Data Science essentielles à connaître pour faire de l’analyse de données et comprendre son dataset.

La Data Science est le domaine qui rassemble la manipulation, l’analyse et la compréhension des données.

Python est le langage le plus utilisé dans ce domaine. Mais quelles sont les librairies de Data Science à connaître absolument ?

C’est ce qu’on voit dans cet article !

Pandas – Librairies Data Sciences

On ne la présente plus !

La bibliothèque Pandas est la base pour tout Data Scientist.

Elle permet de manipuler facilement les données. De les extraire d’un fichier excel, csv, txt, et même d’une page web !

Mais aussi de faire des opérations entre colonnes, lignes et cellules d’un DataFrame.

C’est l’idéal pour travailler avec tout type de données : entier, float, texte, date, etc.

Pour l’utiliser :

pip install pandas

import pandas as pd

Numpy – Librairies Data Sciences

Numpy permet de travailler facilement avec des Array (tableau).

Il rentre facile la réalisation d’opérations mathématiques complexes grâce à son set de fonctions.

En plus de cela, son temps de calcul est faible ce qui te permet d’exécuter rapidement ton code.

Pour l’utiliser :

pip install numpy

import numpy as np

Scipy – Librairies Data Sciences

Scipy est une extension de Numpy.

Il permet de pousser encore plus loin les calculs notamment pour faire :

de l’optimisation
des statistiques
du traitement de signal
de l’algèbre linéaire

Pour l’utiliser :

pip install scipy

import scipy

Matplotlib – Librairies Data Sciences

Tu veux afficher des graphiques sans prise de tête ?

Matplotlib est la librairie qu’il vous faut !

Elle permet de faire des graphiques simples mais performant. Que ce soit via des DataFrame Pandas ou des Array Numpy.

Avec Matplotlib tu peux faire des :

graphiques à intervalles continues
graphiques à intervalles discontinues
nuages de points
boîtes de Tukey
diagrammes en bâton
diagrammes circulaire (camembert)
volumes 3D
heatmap
visualisations de séries temporelles

… et bien d’autres ! Je te laisse explorer la documentation pour voir l’étendu de Matplotlib.

Pour l’utiliser :

pip install matplotlib

import matplotlib.pyplot as plt

Seaborn – Librairies Data Sciences

Comme Scipy est une extension de Numpy, Seaborn est une extension de Matplotlib

Son apport majeur ?

Une utilisation plus agréable de Matlpotlib. Seaborn à des fonctions pré-implémenter permettant de tracer des graphes stylisés en une seule ligne de code.

Exemple en image :

Et ~~la ligne de code~~ les trois lignes de code pour reproduire l’exemple:

import seaborn as sns
sns.set_theme(style="white")
# Load the example mpg dataset
mpg = sns.load_dataset("mpg")
# Plot miles per gallon against horsepower with other semantics
sns.relplot(x="horsepower", y="mpg", hue="origin", size="weight",
            sizes=(40, 400), alpha=.5, palette="muted",
            height=6, data=mpg)

Pour l’utiliser :

pip install seaborn

import seaborn as sns

Plotly – Librairies Data Sciences

Plotly est une librairie plus avancée que matplotlib pour la visualisation de données.

Les développeurs de la librairie revendiquent pouvoir faire des « publication-quality graphs », des graphiques de qualité professionnelle notamment pour les publications scientifiques.

Personnellement, j’aime le fait d’avoir des graphes interactifs avec Plotly dans lesquels on peut zoomer et naviguer facilement. Mais pour des graphes simples d’analyse, tu peux rester sur Matplotlib.

Pour l’utiliser :

pip install plotly

import plotly.express as px

Statsmodels – Librairies Data Sciences

Statsmodels est une librairie Python permettant de faire des statistiques, des estimations et de la Data Exploration.

Au fait, si ton objectif est d'apprendre le Deep Learning - j’ai préparé pour toi le Plan d’action pour Maîtriser les Réseaux de neurones.

7 jours de conseils gratuits d’un ingénieur spécialisé en Intelligence Artificielle pour apprendre à maîtriser les réseaux de neurones à partir de zéro :

Planifie ton apprentissage
Structure tes projets
Développe tes algorithmes d’Intelligence Artificielle

J’ai basé ce programme sur des faits scientifiques, des approches éprouvées par des chercheurs mais également mes propres techniques que j'ai conçues au fil de mes expériences dans le domaine du Deep Learning.

Pour y accéder, clique ici :

RECEVOIR MON PLAN D'ACTION

À présent, on peut revenir à ce que je mentionnais précédemment.

Tu as à disposition plusieurs modèles permettant de mieux comprendre tes données. Ainsi tu peux faire de la régression linéaire, de l’analyse de séries temporelles ou encore implémenter des Modèles Additifs Généralisés (MAG).

Pour l’utiliser :

pip install statsmodels

import statsmodels.api as sm

Scikit-learn – Librairies Data Sciences

Scikit-learn est LA bibliothèque la plus utilisées en Data Science pour faire du Machine Learning.

Elle vous permet de faire de l’apprentissage automatique de manière simple en vous permettant d’utiliser des algorithmes ready-to-use !

Cela en fait une base essentielle pour faire de la Data Science mais aussi une bonne porte d’entrée au Machine Learning.

Pour l’utiliser :

pip install scikit-learn

import scikit-learn as sklearn

NLTK – Librairies Data Sciences

NLTK est le leader pour faire du Natural Language Processing (traitement des données textes).

Cette librairie propose des fonctions pour une grande variété d’opération :

tokenization
lemmatization
stemmatization
détection des entités et des noms propres
suppression de stopwords
analyse de sentiments (et leur intensité)

La liste est trop longue pour être exhaustif mais tu peux voir nos autres articles de la catégorie NLP si le sujet t’intéresse !

Pour l’utiliser :

pip install nltk

import nltk

Gensim – Librairies Data Sciences

Gensim est utilisé pour faire une tâche bien précise de NLP : la représentation sous forme vectorielle.

Effectivement avec Gensim tu peux représenter du texte sous forme de vecteur. Et ça marche pour n’importe quel type de texte, que ce soit un document scientifique, un bouquin ou un article de presse !

Une fois qu’un texte est représenté sous forme vectorielle, il y a tout un tas d’analyse sympa à faire. Par exemple, tu peux calculer la similarité entre deux textes, même s’ils n’on aucun mots en commun :

librairies data science — Gensim – Word Mover’s Distance

Pour l’utiliser :

pip install gensim

import gensim

Spacy – Librairies Data Sciences

Spacy est la dernière librairie NLP de ce top.

Elle partage la plupart des fonctionnalités de NLTK mais ici, la librairie se spécialise dans les applications en production.

On utilisera Spacy non pas pour de l’analyse pure en Python mais plutôt pour intégrer des outils d’analyse de texte dans des web app.

À noter que Spacy est particulièrement efficace dans la compréhension de texte long et détaillé.

Pour l’utiliser :

pip install spacy

import spacy

BeautifulSoup – Librairies Data Sciences

BeautifulSoup est une librairie pour extraire des données de fichiers HTML.

Dis plus simplement, BeautifulSoup permet de récupérer des données d’autres sites web. Cette technique est appelé le Web Scraping.

Cette librairie propose en plus de cela un moyen simple de naviguer à travers ce fichier HTML. Par exemple pour afficher les titres, on utilisera fichier.title.

Et pour ceux ayant un peu moins de prise avec HTML, une fonction est proposé pour converter le HTML en texte. Idéal si tu veux lui appliquer du NLP !

Pour l’utiliser :

pip install beautifulsoup4

from bs4 import BeautifulSoup

NetworkX – Librairies Data Sciences

NetworkX est une librairie de niche. Seulement une partie des Data Scientist en auront besoin.

C’est une libraire qui offre une classe pour manipuler des Graphs et tous types de fonctions associées à ces objets.

Les Graphs sont des objets particulièrement utile pour représenter des relations entre des individus (personnes, entreprises, …).

Attention ici on ne parle pas de graphique mais bien de Graph.

Pour l’utiliser :

pip install networkx

import networkx as nx

La Data Science est une base essentielle pour créer des algorithmes de Machine Learning.

Mais aujourd’hui, c’est grâce au Deep Learning que les leaders de la tech peuvent créer les Intelligences Artificielles les plus puissantes.

Si tu veux approfondir tes connaissances dans le domaine, tu peux accéder à mon Plan d’action pour Maîtriser les Réseaux de neurones.

Un programme de 7 cours gratuits que j’ai préparé pour te guider dans ton parcours pour apprendre le Deep Learning.

Si ça t’intéresse, clique ici :

RECEVOIR MON PLAN D’ACTION

Un dernier mot, si tu veux aller plus loin et apprendre le Deep Learning - j’ai préparé pour toi le Plan d’action pour Maîtriser les Réseaux de neurones.

7 jours de conseils gratuits d’un ingénieur spécialisé en Intelligence Artificielle pour apprendre à maîtriser les réseaux de neurones à partir de zéro :

Planifie ton apprentissage
Structure tes projets
Développe tes algorithmes d’Intelligence Artificielle

Pour y accéder, clique ici :

RECEVOIR MON PLAN D'ACTION

13 Librairies Data Science à Connaître Maintenant

Pandas – Librairies Data Sciences

Numpy – Librairies Data Sciences

Scipy – Librairies Data Sciences

Matplotlib – Librairies Data Sciences

Seaborn – Librairies Data Sciences

Plotly – Librairies Data Sciences

Statsmodels – Librairies Data Sciences

Scikit-learn – Librairies Data Sciences

NLTK – Librairies Data Sciences

Gensim – Librairies Data Sciences

Spacy – Librairies Data Sciences

BeautifulSoup – Librairies Data Sciences

NetworkX – Librairies Data Sciences

Tom Keldenich

Laisser un commentaireAnnuler la réponse

Pandas – Librairies Data Sciences

Numpy – Librairies Data Sciences

Scipy – Librairies Data Sciences

Matplotlib – Librairies Data Sciences

Seaborn – Librairies Data Sciences

Plotly – Librairies Data Sciences

Statsmodels – Librairies Data Sciences

Scikit-learn – Librairies Data Sciences

NLTK – Librairies Data Sciences

Gensim – Librairies Data Sciences

Spacy – Librairies Data Sciences

BeautifulSoup – Librairies Data Sciences

NetworkX – Librairies Data Sciences

Tom Keldenich

Publications similaires

Machine Learning – Pour Débuter Simplement et comprendre rapidement les bases

Explication simple – Formule de Pearson en Python, corrélation linéaire

Comment installer / utiliser Conda sur Google Colab

Laisser un commentaireAnnuler la réponse