Regroupement de consensus – GeeksforGeeks

Afficher la discussion

Améliorer l’article

Enregistrer l’article

J’aime l’article

Afficher la discussion

Améliorer l’article

Enregistrer l’article

J’aime l’article

Regroupement :

Avant d’apprendre Regroupement consensuel, on doit savoir quoi Regroupement est. Dans Machine Learning, le clustering est une technique utilisée pour regrouper différents objets dans des clusters séparés en fonction de leur similarité, c’est-à-dire que des objets similaires seront dans les mêmes clusters, séparés des autres clusters d’objets similaires. C’est un Apprentissage non supervisé méthode. Peu d’algorithmes de clustering fréquemment utilisés sont K-signifieprototype K, DBSCAN etc.

clustering

Regroupement

Regroupement consensuel :

Il y a peu d’inconvénients au processus de regroupement normal. Des algorithmes tels que K-means ou K-prototype, etc. utilisent une procédure d’initialisation aléatoire qui donne des résultats de cluster différents ou une initialisation de cluster à chaque itération de l’algorithme. Il faut aussi initialiser la valeur de K, qui est généralement choisie par le Méthode du coude. Ainsi, le processus de clustering est très dépendant de ces métriques, il produit donc des clusters biaisés qui sont également très instables. Pour éliminer ces inconvénients, nous suivons une approche de clustering différente qui est Regroupement consensuel.

Le mot ‘Consensus’ vient d’un mot latin qui signifie “Accord général’. Le clustering consensuel est une technique consistant à combiner plusieurs clusters en un seul cluster plus stable, meilleur que les clusters d’entrée. De cette façon, tous les clusters sont fusionnés en un seul cluster stable et ce processus est effectué de manière itérative en générant un Matrice de consensus à chaque niveau.

Avantages du clustering consensuel :

  1. Meilleure qualité et robustesse des clusters.
  2. Produire le bon nombre de grappes.
  3. Meilleure gestion des données manquantes.
  4. Des partitions individuelles peuvent être obtenues indépendamment.
cc

Processus de regroupement par consensus

Processus de regroupement consensuel :

Le Consensus Clustering est basé sur deux phases-

  1. Génération de partition : À cette étape, différentes partitions d’objets de données sont créées à l’aide de différents sous-ensembles d’attributs de données, en appliquant différents algorithmes de regroupement avec différents biais, en prenant différents paramètres de regroupement et en utilisant un sous-échantillon aléatoire différent de l’ensemble de données. Une fois que nous avons généré la partition initiale, nous avançons vers la génération d’un consensus entre les partitions et la génération des nouvelles partitions basées sur le consensus précédent.
  2. Génération de consensus : Le consensus entre les partitions de données est généré à l’aide de la Fonction de consensus, qui est généralement obtenu dans ces approches –
    • Approche basée sur le partitionnement médian : Ici, les points de données des différentes partitions sont regroupés par leur indice de similarité. Nous formons de nouvelles partitions basées sur les médianes des points de données des partitions précédentes. L’indice de similarité dépend de l’accord et du désaccord des points de données, qui est mesuré par Mesures F, indice Rand etc.
    • Approche basée sur la cooccurrence : Dans cette approche, il existe 3 méthodes que nous pouvons utiliser : 1. Méthode basée sur le réétiquetage/vote, 2. Co-association matriciel méthode, 3. Basé sur des graphiques méthode. Réétiquetage/vote méthode basée génère les nouveaux clusters en déterminant la correspondance avec le consensus actuel. Chaque instance obtient un certain vote de ses affectations de cluster et met à jour le consensus et les affectations de cluster en conséquence. La Co-association matriciel méthode génère les nouveaux clusters basés sur la matrice de co-association par la similarité des points de données et le Graph-based méthode ggénère un graphique pondéré pour représenter plusieurs clusters et trouve les partitions optimales en minimisant la coupe du graphique.
ccworkflow

Flux de travail du regroupement de consensus

Il existe de nombreux algorithmes de regroupement de consensus basés sur différentes approches de génération de fonction de consensus et de nombreux travaux de recherche sont toujours en cours pour améliorer les modèles existants.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *