Dataset : définition, exemples et techniques Un dataset est un jeu de donnée typiquement utilisé pour entraîner les modèles de machine learning, mais aussi pour les valider et les tester.
Le dataset se traduit par jeu ou collection de données. Il s'agit d'un ensemble de données cohérent pouvant se présenter sous différents formats : données chiffrées, textuelles, vidéo, image ou encore son. Le dataset est une brique maîtresse du machine learning. Il va servir à apprendre à un modèle à réaliser une tâche ou faire une prédiction. 
On distingue trois grandes catégorie de dataset en machine learning : le datasets d’entraînement, le dataset de test et le dataset de validation.
Parmi les sites web où trouver des datasets figurent : 
Le dataset d’entraînement ou jeu de données d'apprentissage vise à apprendre à un modèle de machine learning à réaliser une prédiction ou effectuer une tâche. En apprentissage supervisé, la collection de données est composée d'une variable ou caractéristique d'entrée et d'une variable de sortie (ou cible). L'objectif étant d'apprendre au modèle à faire la corrélation entre les deux.
Au cours de cette phase, le data scientist va ajuster les paramètres du modèle sur la base de la comparaison entre les résultats générés et la cible attendue. Il s'agira par exemple d'optimiser les poids d'un classificateur ou encore les poids des connexions entre neurones au sein d'un réseau de neurones artificiels
En machine learning, le dataset de validation a pour objectif de valider l'architecture d'un modèle d'apprentissage. A chaque itération de l'entrainement, il permet d'ajuster le modèle. Dans le cas d'une classification, le jeu de données de validation pourra également comparer le comportement de plusieurs types de classifieur en vue de retenir celui qui affichera la meilleure performance.
Dans le cas d'un réseau de neurones artificiels, le jeu de données de validation permet de régler les hyperparamètre c'est-à-dire le nombre de couches cachées au sein du réseau.
Comme sa dénomination l’indique, le dataset de test a pour but d'évaluer la performance finale d'un modèle de machine learning qui aura été entrainé. Claqué sur la même distribution de probabilité, il est indépendant du jeu de données d'apprentissage. Les prédictions obtenues sont comparées à celles attendues. Objectif : évaluer la précision du modèle.
La validation croisée consiste à partitionner un jeu de données en datasets d'entrainement et de test. Ensuite via un mécanisme de grid search (voir graphique ci-dessous), la validation croisée permet de dénicher les paramètres du modèle se rapprochant le plus des prédictions attendues.
Le processus ajuste l'échantillonnage de la base de test en la confrontant à la base d'apprentissage par itérations successives. L'objectif est d'aboutir au bon réglage en termes de seuils, par exemple ne pas dépasser 2% en matière de détection de fraudes.

Sommaire Comment définir un dataset ? Où trouver des datasets ? Qu’est-ce qu’un dataset d’entraînement ? Qu'est-ce qu'un dataset de validation ? Un dataset de test, qu'est-ce que c'est ? La validation croisée ou…
Je gère mes abonnements push
Les informations recueillies sont destinées à CCM Benchmark Group pour vous assurer l’envoi de votre newsletter.
Elles seront également utilisées sous réserve des options souscrites, à des fins de ciblage publicitaire.
Vous bénéficiez d’un droit d’accès et de rectification de vos données personnelles, ainsi que celui d’en demander l’effacement dans les limites prévues par la loi.
Vous pouvez également à tout moment revoir vos options en matière de ciblage. En savoir plus sur notre politique de confidentialité.

source

Catégorisé:

Étiqueté dans :