K signifie clustering en utilisant Weka

Dans cet article, nous allons voir comment utiliser l’explorateur Weka pour effectuer un clustering k-mean simple. Ici, nous utiliserons un exemple d’ensemble de données basé sur des données d’iris disponibles au format ARFF. Il y a 150 instances d’iris dans cet ensemble de données. Avant de commencer, faisons une petite introduction sur le clustering et le simple-k.

Noter: Cet article suppose que les données ont été correctement prétraitées.

Regroupement: Le clustering est la méthode de division d’un ensemble d’objets abstraits en groupes. Points à garder à l’esprit Un ensemble d’objets de données peut être considéré comme une seule entité. Lors de l’analyse de grappes, nous divisons l’ensemble de données en groupes en fonction de la similarité des données, puis attribuons des étiquettes aux groupes.

Simple-k signifie clustering: Le clustering K-means est un simple algorithme d’apprentissage non supervisé. En cela, les objets de données (‘n’) sont regroupés en un total de ‘k’ clusters, chaque observation appartenant au cluster avec la moyenne la plus proche. Il définit ‘k’ ensembles, un pour chaque cluster kn (le point peut être considéré comme le centre d’une figure à une ou deux dimensions). Les grappes sont séparées par une grande distance.

Les données sont ensuite organisées en ensembles de données acceptables et liées à la collecte la plus proche. Si aucune donnée n’est en attente, la première étape est plus difficile à réaliser ; dans ce cas, un regroupement précoce est effectué. Le nouvel ensemble ‘k’ doit être recalculé comme les barycentres des clusters de l’étape précédente.

Les mêmes points d’ensemble de données et les nouveaux ensembles les plus proches sont liés ensemble après que ces ‘k’ nouveaux ensembles ont été créés. Après cela, une boucle est créée. Les ensembles ‘k’ changent de position pas à pas jusqu’à ce qu’aucune autre modification ne soit apportée à la suite de cette boucle.

Étapes à suivre :

Étape 1: Dans l’interface de prétraitement, ouvrez l’explorateur Weka et chargez l’ensemble de données requis, et nous prenons l’ensemble de données iris.arff.

1

Étape 2: Trouvez l’onglet ‘cluster’ dans l’explorateur et appuyez sur le bouton choisir pour exécuter le clustering. Une liste déroulante des algorithmes de clustering disponibles apparaît à la suite de cette étape et sélectionne l’algorithme de moyenne k simple.

Étape 3: Ensuite, à droite de l’icône de sélection, appuyez sur le bouton de texte pour faire apparaître la fenêtre contextuelle affichée dans les captures d’écran. Nous entrons trois pour le nombre de clusters dans cette fenêtre et laissons la valeur de départ seule. La valeur de départ est utilisée pour générer un nombre aléatoire qui est utilisé pour effectuer des affectations internes d’instances de clusters.

2

Étape 4: L’un des choix a été choisi. Nous devons nous assurer qu’ils sont dans le panneau “mode cluster” avant d’exécuter l’algorithme de clustering. Le choix d’utiliser un ensemble d’entraînement est sélectionné, puis le bouton « démarrer » est enfoncé. Les captures d’écran ci-dessous affichent le processus et la fenêtre résultante.

3

Étape 5 : Le centre de gravité de chaque cluster est affiché dans la fenêtre de résultats, ainsi que des statistiques sur le nombre et le pourcentage d’instances allouées à chaque cluster. Chaque centroïde de cluster est représenté par un vecteur moyen. Ce cluster peut être utilisé pour décrire un cluster.

4

Étape 6: Une autre façon d’appréhender les caractéristiques de chaque cluster est de les visualiser. Pour ce faire, cliquez avec le bouton droit sur le jeu de résultats sur le résultat. Sélection pour visualiser les affectations de cluster à partir de la colonne de liste.

5

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Aller en haut