Est-ce possible de faire de la Data Augmentation sur CSV sans dégrader son dataset ? On voit ça dans cet article.
La Data Augmentation est le processus permettant de générer des données d’entraînement supplémentaires.
Elle consiste à appliquer des transformations sur des données existantes pour obtenir de nouvelles données.
Cette méthode est couramment utilisée en Machine Learning pour augmenter la taille et la diversité de l’ensemble de données d’entraînement.
Au bout cela peut contribuer à améliorer la généralisation du modèle et donc, ses performances.
Quel types de données est concernée ?
Bien que la Data Augmentation puisse être appliquée à n’importe quel type de données, elle est généralement plus facile à réaliser sur des images, des données audio et des données textes.
Ces types de données peuvent être transformés de diverses manières sans modifier les informations qu’elles contiennent.
Par exemple, on peut changer le mot d’une phrase par un synonyme.
La phrase gardera son sens, mais les données seront différentes.
Pour une image peut appliquer une rotation :
Cela permet de créer de nouvelles données tout en nous assurant que ces données restent acceptable.
C’est-à-dire qu’elle peuvent appartenir au monde réel.
Si ça t’intéresse, on applique la Data Augmentation sur des images avec la bibliothèque Keras dans cette article.
Mais pour les données CSV, c’est tout de suite plus difficile.
Le cas des données de la Data Augmentation sur CSV
Les données CSV ou données tabulaires, qu’on peut trouver dans un fichier Excel, peuvent être Data Augmenter.
On peut facilement créer une nouvelle ligne et mettre des données aux hasard dans une colonne.
Le problème de la Data Augmentation sur CSV
Le problème, c’est qu’on risque de créer des données aberrantes, des données qui n’existent pas dans le monde réel.
Typiquement si on a les données de températures dans différentes villes, on pourrait augmenter ces données en attribuant a des nouvelles lignes des valeurs aléatoires.
Au fait, si ton objectif est d'apprendre le Deep Learning - j’ai préparé pour toi le Plan d’action pour Maîtriser les Réseaux de neurones.
7 jours de conseils gratuits d’un ingénieur spécialisé en Intelligence Artificielle pour apprendre à maîtriser les réseaux de neurones à partir de zéro :
- Planifie ton apprentissage
- Structure tes projets
- Développe tes algorithmes d’Intelligence Artificielle
J’ai basé ce programme sur des faits scientifiques, des approches éprouvées par des chercheurs mais également mes propres techniques que j'ai conçues au fil de mes expériences dans le domaine du Deep Learning.
Pour y accéder, clique ici :
À présent, on peut revenir à ce que je mentionnais précédemment.
Avec cette approche, on pourrait se retrouver avec des données comme : 60°C à Paris en janvier.
Dans ce cas on n’augmente pas nos données, on dégrade nos dataset.
Eh oui, ce genre de température à Paris en janvier n’est pas possible. Elle n’appartiennent pas au monde réel.
Alors on pourrait choisir une plage de valeur possible pour la température en janvier à Paris et choisir aléatoirement dans cette plage.
Mais le fait est que la température peut changer grandement sur un mois. Ce n’est pas une approche idéale.
Cette méthode provoque trop d’incertitude c’est pourquoi je pense qu’il faut en utiliser une autre.
La solution
À la place de la Data Augmentation sur CSV, une technique similaire existe pour améliorer les performances des modèles de Machine Learning sur des données tabulaires : la Featurization.
La Featurization technique consiste à utiliser les features (les colonnes de ton dataset) pour créer de nouvelles informations.
Ainsi tu peux les représenter dans un format plus significatif et plus adapté à ton modèle.
Par exemple en combinant les informations de deux features.
En sélectionnant soigneusement les features pertinents, il est possible d’améliorer les performances de ton modèle.
Si tu veux apprendre la Featurization, on aborde en détail la technique dans cette article !
Conclusion – Data Augmentation sur CSV
En résumé, si la Data Augmentation est une technique utile pour accroître la taille et la diversité d’un ensemble de données d’entraînement, elle n’est pas applicable aux fichiers CSV ou à d’autres types de données tabulaires
La Featurization, en revanche, est une technique qui peut être utilisée pour améliorer les performances des modèles de Machine Learning.
Cela implique d’extraire et de représenter les features dans un format plus pertinent.
Le Deep Learning est un domaine complexe et fascinant. Aujourd’hui, c’est grâce à cette technologie que les leaders de la tech peuvent créer les Intelligences Artificielles les plus puissantes.
Si tu veux approfondir tes connaissances dans le domaine, tu peux accéder à mon Plan d’action pour Maîtriser les Réseaux de neurones.
Un programme de 7 cours gratuits que j’ai préparé pour te guider dans ton parcours pour apprendre le Deep Learning.
Si ça t’intéresse, clique ici :
Un dernier mot, si tu veux aller plus loin et apprendre le Deep Learning - j’ai préparé pour toi le Plan d’action pour Maîtriser les Réseaux de neurones.
7 jours de conseils gratuits d’un ingénieur spécialisé en Intelligence Artificielle pour apprendre à maîtriser les réseaux de neurones à partir de zéro :
- Planifie ton apprentissage
- Structure tes projets
- Développe tes algorithmes d’Intelligence Artificielle
J’ai basé ce programme sur des faits scientifiques, des approches éprouvées par des chercheurs mais également mes propres techniques que j'ai conçues au fil de mes expériences dans le domaine du Deep Learning.
Pour y accéder, clique ici :