Clustering hiérarchique avec Weka – GeeksforGeeks

Dans cet article, nous verrons comment utiliser l’explorateur Weka pour effectuer une analyse hiérarchique. L’ensemble de données d’échantillon pour cet exemple est basé sur des données d’iris au format ARFF. Les données ont été prétraitées de manière appropriée, comme prévu dans cet article. Ce jeu de données contient 150 occurrences d’iris.

Regroupement : Le clustering est la méthode de division d’un ensemble d’objets abstraits en groupes. Points à garder à l’esprit Un ensemble d’objets de données peut être considéré comme une seule entité. Lors de l’analyse de grappes, nous divisons l’ensemble de données en groupes en fonction de la similarité des données, puis attribuons des étiquettes aux groupes.

Classification hiérarchique: Le clustering hiérarchique, également connu sous le nom d’analyse de cluster hiérarchique ou HCA, est une approche de clustering non supervisée qui comprend la formation de groupes avec un ordre de haut en bas.

Par exemple, sur notre disque dur, tous les fichiers et dossiers sont organisés selon une hiérarchie.

Le programme divise les objets en groupes en fonction de leur similarité. Le point de terminaison est une collection de clusters ou de groupes, chacun étant distinct des autres, mais les éléments à l’intérieur de chaque cluster sont globalement similaires.

Étapes à suivre :

Étape 1: Ouvrez l’explorateur Weka dans l’interface de prétraitement et importez le jeu de données approprié ; J’utilise l’ensemble de données iris.arff.

1

Étape 2: Pour effectuer le clustering, allez dans l’onglet ‘cluster’ de l’explorateur et sélectionnez le bouton de sélection. À la suite de cette étape, une liste déroulante des algorithmes de clustering disponibles s’affiche ; choisissez l’algorithme hiérarchique.

Étape 3: Appuyez ensuite sur le bouton de texte à droite de l’icône de sélection pour faire apparaître la fenêtre contextuelle visible dans les captures d’écran. Dans cette fenêtre, nous entrons trois pour le nombre de clusters et laissons la valeur de départ seule. La valeur de départ est utilisée pour générer un nombre aléatoire qui est utilisé pour allouer des instances de cluster les unes aux autres en interne.

2

Étape 4: L’une des options a été sélectionnée. Avant d’exécuter la méthode de clustering, nous devons nous assurer qu’ils se trouvent dans le panneau “mode cluster”. L’option d’utiliser un ensemble d’entraînement est choisie, après quoi le bouton “démarrer” est enfoncé. Le processus et la fenêtre résultante sont illustrés dans les captures d’écran ci-dessous.

3

Étape 5 : La fenêtre résultante affiche le centroïde de chaque cluster, ainsi que des données sur le nombre et la proportion d’instances affectées à chaque cluster. Un vecteur moyen est utilisé pour représenter chaque centroïde de cluster. Un cluster peut être décrit à l’aide de ce cluster.

4

Étape 6 : Visualiser les qualités de chaque cluster est une autre approche pour les appréhender. Cliquez avec le bouton droit sur le jeu de résultats sur le résultat pour ce faire. Pour visualiser les affectations de cluster sont sélectionnées dans la colonne de liste.

5

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Aller en haut