Est-ce possible de faire de la Data Augmentation sur des données CSV sans dégrader son dataset ? On voit ça dans cet article.
La Data Augmentation est le processus permettant de générer des données d’entraînement supplémentaires.
Elle consiste à appliquer des transformations sur des données existantes pour obtenir de nouvelles données.
Cette méthode est couramment utilisée en Machine Learning pour augmenter la taille et la diversité de l’ensemble de données d’entraînement.
Au bout cela peut contribuer à améliorer la généralisation du modèle et donc, ses performances.
Quel types de données est concernée ?
Bien que la Data Augmentation puisse être appliquée à n’importe quel type de données, elle est généralement plus facile à réaliser sur des images, des données audio et des données textes.
Ces types de données peuvent être transformés de diverses manières sans modifier les informations qu’elles contiennent.
Par exemple, on peut changer le mot d’une phrase par un synonyme.
La phrase gardera son sens, mais les données seront différentes.
Pour une image peut appliquer une rotation :

Cela permet de créer de nouvelles données tout en nous assurant que ces données restent acceptable.
C’est-à-dire qu’elle peuvent appartenir au monde réel.
Si ça t’intéresse, on applique la Data Augmentation sur des images avec la bibliothèque Keras dans cette article.
Mais pour les données CSV, c’est tout de suite plus difficile.
Le cas des données CSV pour la Data Augmentation
Les données CSV ou données tabulaires, qu’on peut trouver dans un fichier Excel, peuvent être Data Augmenter.
On peut facilement créer une nouvelle ligne et mettre des données aux hasard dans une colonne.
LA MÉTHODE PARÉ POUR FAIRE DU DEEP LEARNING !
Reçois tes 7 JOURS De Formation GRATUITE Pour Apprendre À Créer TA PREMIÈRE INTELLIGENCE ARTIFICIELLE !
Pendant les 7 prochains jours je vais te montrer comment utiliser les Réseaux de neurones.
Tu vas comprendre ce qu'est le Deep Learning avec des exemples concrets qui vont te rester dans la tête.
ATTENTION, cette série d’email ne s’adresse pas à tout le monde. Si tu es du genre à aimer les cours théoriques et scolaires tu peux passer ta route.
Mais si tu souhaite apprendre la méthode PARÉ pour faire du Deep Learning, clique ici :
Le problème ?
C’est qu’on risque de créer des données aberrantes, des données qui n’existent pas dans le monde réel.
Typiquement si on a les données de températures dans différentes villes, on pourrait augmenter ces données en attribuant a des nouvelles lignes des valeurs aléatoires.
Avec cette approche, on pourrait se retrouver avec des données comme : 60°C à Paris en janvier.
Dans ce cas on n’augmente pas nos données, on dégrade nos dataset.
Eh oui, ce genre de température à Paris en janvier n’est pas possible. Elle n’appartiennent pas au monde réel.
Alors on pourrait choisir une plage de valeur possible pour la température en janvier à Paris et choisir aléatoirement dans cette plage.
Mais le fait est que la température peut changer grandement sur un mois. Ce n’est pas une approche idéale.
Cette méthode provoque trop d’incertitude c’est pourquoi je pense qu’il faut en utiliser une autre.
La solution
À la place de la Data Augmentation, une technique similaire existe pour améliorer les performances des modèles de Machine Learning sur des données tabulaires : la Featurization.
La Featurization technique consiste à utiliser les features (les colonnes de ton dataset) pour créer de nouvelles informations.
Ainsi tu peux les représenter dans un format plus significatif et plus adapté à ton modèle.
Par exemple en combinant les informations de deux features.
En sélectionnant soigneusement les features pertinents, il est possible d’améliorer les performances de ton modèle.
Si tu veux apprendre la Featurization, on aborde en détail la technique dans cette article !
Conclusion – Data Augmentation et CSV
En résumé, si la Data Augmentation est une technique utile pour accroître la taille et la diversité d’un ensemble de données d’entraînement, elle n’est pas applicable aux fichiers CSV ou à d’autres types de données tabulaires
La Featurization, en revanche, est une technique qui peut être utilisée pour améliorer les performances des modèles de Machine Learning.
Cela implique d’extraire et de représenter les features dans un format plus pertinent.
À bientôt sur Inside Machine Learning 😉
LA MÉTHODE PARÉ POUR FAIRE DU DEEP LEARNING !
Reçois tes 7 JOURS De Formation GRATUITE Pour Apprendre À Créer TA PREMIÈRE INTELLIGENCE ARTIFICIELLE !
Pendant les 7 prochains jours je vais te montrer comment utiliser les Réseaux de neurones.
Tu vas comprendre ce qu'est le Deep Learning avec des exemples concrets qui vont te rester dans la tête.
ATTENTION, cette série d’email ne s’adresse pas à tout le monde. Si tu es du genre à aimer les cours théoriques et scolaires tu peux passer ta route.
Mais si tu souhaite apprendre la méthode PARÉ pour faire du Deep Learning, clique ici :