Weka - Sélection des fonctionnalités

Lorsqu'une base de données contient un grand nombre d'attributs, il y aura plusieurs attributs qui ne deviennent pas significatifs dans l'analyse que vous recherchez actuellement. Ainsi, la suppression des attributs indésirables de l'ensemble de données devient une tâche importante dans le développement d'un bon modèle d'apprentissage automatique.

Vous pouvez examiner l'ensemble de données visuellement et décider des attributs non pertinents. Cela pourrait être une tâche énorme pour les bases de données contenant un grand nombre d'attributs comme le cas de supermarché que vous avez vu dans une leçon précédente. Heureusement, WEKA fournit un outil automatisé pour la sélection des fonctionnalités.

Ce chapitre présente cette fonctionnalité sur une base de données contenant un grand nombre d'attributs.

Chargement des données

dans le Preprocess balise de l'explorateur WEKA, sélectionnez le labor.arfffichier à charger dans le système. Lorsque vous chargez les données, vous verrez l'écran suivant -

Notez qu'il y a 17 attributs. Notre tâche est de créer un ensemble de données réduit en éliminant certains des attributs qui ne sont pas pertinents pour notre analyse.

Extraction de fonctionnalités

Clique sur le Select attributesTAB Vous verrez l'écran suivant -

Sous le Attribute Evaluator et Search Method, vous trouverez plusieurs options. Nous utiliserons simplement les valeurs par défaut ici. dans leAttribute Selection Mode, utilisez l'option d'ensemble d'entraînement complet.

Cliquez sur le bouton Démarrer pour traiter l'ensemble de données. Vous verrez la sortie suivante -

Au bas de la fenêtre de résultats, vous obtiendrez la liste des Selectedles attributs. Pour obtenir la représentation visuelle, faites un clic droit sur le résultat dans leResult liste.

La sortie est affichée dans la capture d'écran suivante -

En cliquant sur l'un des carrés, vous obtiendrez le graphique de données pour votre analyse ultérieure. Un graphique de données typique est présenté ci-dessous -

Ceci est similaire à ceux que nous avons vus dans les chapitres précédents. Jouez avec les différentes options disponibles pour analyser les résultats.

Et après?

Vous avez vu jusqu'à présent la puissance de WEKA dans le développement rapide de modèles d'apprentissage automatique. Ce que nous avons utilisé est un outil graphique appeléExplorerpour développer ces modèles. WEKA fournit également une interface de ligne de commande qui vous donne plus de puissance que celle fournie dans l'explorateur.

En cliquant sur le Simple CLI bouton dans le GUI Chooser l'application démarre cette interface de ligne de commande qui est montrée dans la capture d'écran ci-dessous -

Tapez vos commandes dans la zone de saisie en bas. Vous pourrez faire tout ce que vous avez fait jusqu'à présent dans l'explorateur et bien plus encore. Reportez-vous à la documentation WEKA (https://www.cs.waikato.ac.nz/ml/weka/documentation.html) pour plus de détails.

Enfin, WEKA est développé en Java et fournit une interface à son API. Donc, si vous êtes un développeur Java et que vous souhaitez inclure des implémentations WEKA ML dans vos propres projets Java, vous pouvez le faire facilement.

Conclusion

WEKA est un outil puissant pour développer des modèles d'apprentissage automatique. Il fournit la mise en œuvre de plusieurs algorithmes de ML les plus largement utilisés. Avant que ces algorithmes ne soient appliqués à votre ensemble de données, cela vous permet également de prétraiter les données. Les types d'algorithmes pris en charge sont classés sous les attributs Classify, Cluster, Associate et Select. Le résultat à différentes étapes du traitement peut être visualisé avec une représentation visuelle belle et puissante. Cela permet à un Data Scientist d'appliquer rapidement les différentes techniques d'apprentissage automatique sur son ensemble de données, de comparer les résultats et de créer le meilleur modèle pour l'utilisation finale.