Qu’est-ce que la Skewness et le Kurtosis ? – Tout savoir rapidement

Voyons en détail ce qu’est la Skewness et le Kurtosis ! Deux mesures de la Data Science pour analyser la disparité dans un dataset.

Quand on fait de la Data Science, il est important de savoir analyser la disparité d’un dataset.

La disparité, c’est quand les données d’un dataset sont déséquilibrées.

Par exemple, si l’on mesure l’âge des personnes dans un parc de jeux pour enfants dans lequel il y a 20 enfants et 6 adultes. L’âge des personnes de ces personnes sera disparate.

Effectivement, la majorité des personnes sont des enfants, disons entre 4 et 8 ans. Et pour les adultes, il y aura deux babysitter de 20 et 24 ans, 3 parents entre 28 et 35 ans et finalement une grand-mère de 60 ans.

Et parce qu’une image vaut mille mot, voilà le graphe du dataset :

Disparité

Ici on voit bien que le dataset est disparate. La plupart des données sont regroupées sur la gauche, quand des individus unique se trouve à droite. On appelle ces données solitaires des « outliers », des données « hors de la norme » ou « hors du cadre ».

Mais alors à quoi sert la Skewness et le Kurtosis ?

Skewness

Plus haut on a analysé la disparité à l’oeil nu.

Sur ce graphe c’est assez évident car j’ai voulu prendre un exemple exagérément disparate. Dans ce cas l’oeil fait l’affaire pour déterminer la disparité.

Mais il existe des mesures mathématiques pour faire cette analyse.

Des mesures beaucoup plus précise qui, quand on les connaît, nous renseignent directement sur notre dataset.

La première est la Skewness.

La Skewness permet de calculer la symétrie de notre dataset.

Un dataset est symétrique quand les données sont également réparties de part et d’autre de la moyenne.

Lorsque la Skewness est égale 0, le dataset est symétrique.

Mais cette mesure nous renseigne aussi sur le type d’asymétrie.

Si la Skewness est supérieur à 0, alors le dataset est skewed sur la droite. C’est à dire que la majorité des données se trouvent sur la gauche et les outliers se trouvent sur la droite.

Si la Skewness est inférieur à 0, alors le dataset est skewed sur la gauche. C’est à dire que la majorité des données se trouvent sur la droite et les outliers se trouvent sur la gauche.

Dans notre exemple du parc pour enfant, la Skewness est de 2.47.

Effectivement on peut voir sur le graphique que le dataset est skewed sur la droite :

Disparité

Les adultes ayant un âge bien plus grand que les enfants, ils déséquilibrent le dataset sur la droite.

Nettoyons un peu le dataset en enlevant tous les adultes.

On obtient ce graphe :


CRÉER TON APPLICATION IA !


Reçois tes 5 JOURS De Formation GRATUITE Pour Apprendre À Créer Ton APPLICATION d’INTELLIGENCE ARTIFICIELLE !


Tous les fondamentaux de la création d’Application IA : les approches, les outils et techniques, les librairies et framework, et bien d'autres !

Découvres étape par étape la création d’application de Deep Learning (tu apprendras même à trouver des idées d’appli !).

En bonus, tu recevras notre Guide Ultime du Deep Learning !


Symétrie

Ici, il y a déséquilibre. Mais il est beaucoup plus difficile à voir à l’oeil nu.

Quand on calcule la Skewness on obtient -0.006.

Le déséquilibre est très léger, sur la gauche cette fois.

C’est la précision de la Skewness qui nous permet de déterminer ce déséquilibre.

En plus de l’asymétrie, la Skewness permet de calculer la force du déséquilibre. Ici -0.006 indique un très léger déséquilibre. Une valeur de 1 est un déséquilibre normal.

Voici le code pour calculer la Skewness sur un Dataframe Pandas en Python :

df['AGE'].skew()

Kurtosis

Le Kurtosis permet lui aussi de calculer la disparité d’un dataset. Mais en utilisant une autre approche.

Le Kurtosis permet de calculer l’aplatissement de notre courbe.

Un dataset est plat quand les données sont également réparties. Il est bossu, lorsqu’on distingue un regroupement des données à un endroit.

À ne pas confondre avec la symétrie !

Prenons le contexte d’un dataset symétrique comme celui de notre exemple :

Symétrie

Ici, le Kurtosis va nous permettre de calculer l’éloignement par rapport à la moyenne.

Plus il y aura de données éloignées de part et d’autre de la moyenne 6, plus le graphe sera plat.

Dans notre exemple, le graphe est bossu et symétrique. Cela indique qu’il y a un regroupement des données au niveau de la moyenne.

Pour un dataset symétrique :

Si le Kurtosis est supérieur à 0, alors le dataset est leptokurtique. C’est à dire que la majorité des données se situe à la moyenne, et que la bosse est accentuée.

Si le Kurtosis est supérieur à 0, alors le dataset est platykurtique. C’est à dire que les données ont tendances à s’éloigner de la moyenne, et que la bosse est aplati.

Lorsque le Kurtosis est égale 0, alors le dataset est mesokurtique. C’est à dire que le dataset est bossu suivant une loi de distribution normale.

Dans notre exemple, le Kurtosis est de -0.03.

Le Kurtosis permet aussi de déterminer la pente de la bosse. Ici -0.03 indique une bosse très légèrement pentue.

Voici le code pour calculer le Kurtosis sur un Dataframe Pandas en Python :

df['AGE'].kurtosis()

Dataset disparate = mauvais dataset ?

Dans cette article, vous avez appris à calculer la Skewness et le Kurtosis.

Avec, vous pourrez analyser plus précisément la disparité de votre dataset.

Mais gardez à l’esprit qu’un dataset disparate n’est pas forcément un mauvais dataset !

Avant tout, la Skewnes & le Kurtosis sont de bons indicateurs pour comprendre vos données. L’interprétation de ce résultat dépendra du contexte de votre projet.

Si vous êtes intéressé par la Data Science, vous pouvez retrouver tout nos articles sur l’analyse de données et la Data Science sur ce lien !

À bientôt dans un prochain article 😉

sources :


CRÉER TON APPLICATION IA !


Reçois tes 5 JOURS De Formation GRATUITE Pour Apprendre À Créer Ton APPLICATION d’INTELLIGENCE ARTIFICIELLE !


Tous les fondamentaux de la création d’Application IA : les approches, les outils et techniques, les librairies et framework, et bien d'autres !

Découvres étape par étape la création d’application de Deep Learning (tu apprendras même à trouver des idées d’appli !).

En bonus, tu recevras notre Guide Ultime du Deep Learning !


Tom Keldenich
Tom Keldenich

Data Engineer & passionné d'Intelligence Artificielle !

Fondateur du site Inside Machine Learning

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.