Exploration de données - Analyse des clusters

Le cluster est un groupe d'objets appartenant à la même classe. En d'autres termes, les objets similaires sont regroupés dans un cluster et les objets différents sont regroupés dans un autre cluster.

Qu'est-ce que le clustering?

Le clustering est le processus de transformation d'un groupe d'objets abstraits en classes d'objets similaires.

Points to Remember

  • Un cluster d'objets de données peut être traité comme un groupe.

  • Lors de l'analyse de cluster, nous partitionnons d'abord l'ensemble de données en groupes en fonction de la similitude des données, puis attribuons les étiquettes aux groupes.

  • Le principal avantage du clustering par rapport à la classification est qu'il est adaptable aux changements et permet de distinguer les fonctionnalités utiles qui distinguent différents groupes.

Applications de l'analyse de cluster

  • L'analyse de clustering est largement utilisée dans de nombreuses applications telles que les études de marché, la reconnaissance de formes, l'analyse de données et le traitement d'images.

  • Le clustering peut également aider les spécialistes du marketing à découvrir des groupes distincts dans leur clientèle. Et ils peuvent caractériser leurs groupes de clients en fonction des modèles d'achat.

  • Dans le domaine de la biologie, il peut être utilisé pour dériver des taxonomies végétales et animales, catégoriser des gènes ayant des fonctionnalités similaires et mieux comprendre les structures inhérentes aux populations.

  • Le regroupement aide également à identifier les zones d'utilisation des terres similaires dans une base de données d'observation de la Terre. Il aide également à identifier les groupes de maisons dans une ville en fonction du type de maison, de sa valeur et de son emplacement géographique.

  • Le clustering aide également à classer les documents sur le Web pour la découverte d'informations.

  • Le clustering est également utilisé dans les applications de détection des valeurs aberrantes telles que la détection de fraude par carte de crédit.

  • En tant que fonction d'exploration de données, l'analyse des clusters sert d'outil pour mieux comprendre la distribution des données afin d'observer les caractéristiques de chaque cluster.

Exigences du clustering dans l'exploration de données

Les points suivants expliquent pourquoi le clustering est nécessaire dans l'exploration de données -

  • Scalability - Nous avons besoin d'algorithmes de clustering hautement évolutifs pour traiter de grandes bases de données.

  • Ability to deal with different kinds of attributes - Les algorithmes devraient pouvoir être appliqués à tout type de données telles que les données basées sur des intervalles (numériques), les données catégorielles et binaires.

  • Discovery of clusters with attribute shape- L'algorithme de clustering doit être capable de détecter des clusters de forme arbitraire. Ils ne doivent pas être limités aux seules mesures de distance qui ont tendance à trouver des amas sphériques de petites tailles.

  • High dimensionality - L'algorithme de clustering devrait non seulement être capable de traiter des données de faible dimension, mais également l'espace de grande dimension.

  • Ability to deal with noisy data- Les bases de données contiennent des données bruyantes, manquantes ou erronées. Certains algorithmes sont sensibles à ces données et peuvent conduire à des clusters de mauvaise qualité.

  • Interpretability - Les résultats du regroupement doivent être interprétables, compréhensibles et utilisables.

Méthodes de clustering

Les méthodes de clustering peuvent être classées dans les catégories suivantes -

  • Méthode de partitionnement
  • Méthode hiérarchique
  • Méthode basée sur la densité
  • Méthode basée sur la grille
  • Méthode basée sur un modèle
  • Méthode basée sur les contraintes

Méthode de partitionnement

Supposons que l'on nous donne une base de données de «n» objets et que la méthode de partitionnement construit une partition «k» de données. Chaque partition représentera un cluster et k ≤ n. Cela signifie qu'il classera les données en k groupes, qui satisfont aux exigences suivantes -

  • Chaque groupe contient au moins un objet.

  • Chaque objet doit appartenir à exactement un groupe.

Points to remember −

  • Pour un nombre donné de partitions (disons k), la méthode de partitionnement créera un partitionnement initial.

  • Ensuite, il utilise la technique de relocalisation itérative pour améliorer le partitionnement en déplaçant des objets d'un groupe à l'autre.

Méthodes hiérarchiques

Cette méthode crée une décomposition hiérarchique de l'ensemble donné d'objets de données. Nous pouvons classer les méthodes hiérarchiques en fonction de la formation de la décomposition hiérarchique. Il y a deux approches ici -

  • Approche agglomérative
  • Approche de division

Approche agglomérative

Cette approche est également connue sous le nom d'approche ascendante. En cela, nous commençons avec chaque objet formant un groupe distinct. Il continue de fusionner les objets ou groupes proches les uns des autres. Il continue à le faire jusqu'à ce que tous les groupes soient fusionnés en un seul ou jusqu'à ce que la condition de terminaison soit maintenue.

Approche de division

Cette approche est également connue sous le nom d'approche descendante. En cela, nous commençons avec tous les objets dans le même cluster. Dans l'itération continue, un cluster est divisé en plus petits clusters. Il est arrêté jusqu'à ce que chaque objet d'un cluster ou que la condition de terminaison soit maintenue. Cette méthode est rigide, c'est-à-dire qu'une fois qu'une fusion ou une scission est effectuée, elle ne peut jamais être annulée.

Approches pour améliorer la qualité du clustering hiérarchique

Voici les deux approches utilisées pour améliorer la qualité du clustering hiérarchique -

  • Effectuer une analyse minutieuse des liaisons d'objets à chaque partitionnement hiérarchique.

  • Intégrez l'agglomération hiérarchique en utilisant d'abord un algorithme d'agglomération hiérarchique pour regrouper les objets en micro-clusters, puis en effectuant un macro-clustering sur les micro-clusters.

Méthode basée sur la densité

Cette méthode est basée sur la notion de densité. L'idée de base est de continuer à faire croître le cluster donné tant que la densité dans le voisinage dépasse un certain seuil, c'est-à-dire que pour chaque point de données d'un cluster donné, le rayon d'un cluster donné doit contenir au moins un nombre minimum de points.

Méthode basée sur la grille

En cela, les objets forment ensemble une grille. L'espace objet est quantifié en un nombre fini de cellules qui forment une structure de grille.

Advantages

  • Le principal avantage de cette méthode est le temps de traitement rapide.

  • Il ne dépend que du nombre de cellules dans chaque dimension dans l'espace quantifié.

Méthodes basées sur des modèles

Dans cette méthode, un modèle est émis l'hypothèse pour chaque cluster afin de trouver le meilleur ajustement des données pour un modèle donné. Cette méthode localise les clusters en regroupant la fonction de densité. Il reflète la distribution spatiale des points de données.

Cette méthode permet également de déterminer automatiquement le nombre de clusters sur la base de statistiques standard, en tenant compte des valeurs aberrantes ou du bruit. Il donne donc des méthodes de clustering robustes.

Méthode basée sur les contraintes

Dans cette méthode, le regroupement est effectué par l'incorporation de contraintes orientées utilisateur ou application. Une contrainte fait référence aux attentes de l'utilisateur ou aux propriétés des résultats de clustering souhaités. Les contraintes nous fournissent un moyen interactif de communication avec le processus de clustering. Les contraintes peuvent être spécifiées par l'utilisateur ou l'exigence de l'application.