Exploration de données - Problèmes

L'exploration de données n'est pas une tâche facile, car les algorithmes utilisés peuvent devenir très complexes et les données ne sont pas toujours disponibles en un seul endroit. Il doit être intégré à partir de diverses sources de données hétérogènes. Ces facteurs créent également des problèmes. Ici, dans ce tutoriel, nous discuterons des principaux problèmes concernant -

  • Méthodologie minière et interaction avec les utilisateurs
  • Les problèmes de performance
  • Problèmes de types de données divers

Le diagramme suivant décrit les principaux problèmes.

Problèmes de méthodologie de minage et d'interaction utilisateur

Il fait référence aux types de problèmes suivants -

  • Mining different kinds of knowledge in databases- Différents utilisateurs peuvent être intéressés par différents types de connaissances. Par conséquent, il est nécessaire que l'exploration de données couvre un large éventail de tâches de découverte de connaissances.

  • Interactive mining of knowledge at multiple levels of abstraction - Le processus d'exploration de données doit être interactif car il permet aux utilisateurs de concentrer la recherche de modèles, fournissant et affinant les demandes d'exploration de données en fonction des résultats renvoyés.

  • Incorporation of background knowledge- Pour guider le processus de découverte et pour exprimer les modèles découverts, les connaissances de base peuvent être utilisées. Les connaissances de base peuvent être utilisées pour exprimer les modèles découverts non seulement en termes concis, mais à plusieurs niveaux d'abstraction.

  • Data mining query languages and ad hoc data mining - Le langage de requête d'exploration de données qui permet à l'utilisateur de décrire des tâches d'exploration de données ad hoc, doit être intégré à un langage de requête d'entrepôt de données et optimisé pour une exploration de données efficace et flexible.

  • Presentation and visualization of data mining results- Une fois que les modèles sont découverts, ils doivent être exprimés dans des langages de haut niveau et des représentations visuelles. Ces représentations doivent être facilement compréhensibles.

  • Handling noisy or incomplete data- Les méthodes de nettoyage des données sont nécessaires pour gérer le bruit et les objets incomplets tout en explorant les régularités des données. Si les méthodes de nettoyage des données ne sont pas là, la précision des modèles découverts sera médiocre.

  • Pattern evaluation - Les modèles découverts doivent être intéressants car soit ils représentent des connaissances communes, soit ils manquent de nouveauté.

Les problèmes de performance

Il peut y avoir des problèmes liés aux performances tels que:

  • Efficiency and scalability of data mining algorithms - Afin d'extraire efficacement les informations d'une énorme quantité de données dans les bases de données, l'algorithme d'exploration de données doit être efficace et évolutif.

  • Parallel, distributed, and incremental mining algorithms- Les facteurs tels que la taille énorme des bases de données, la large distribution des données et la complexité des méthodes d'exploration de données motivent le développement d'algorithmes d'exploration de données parallèles et distribués. Ces algorithmes divisent les données en partitions qui sont ensuite traitées de manière parallèle. Ensuite, les résultats des partitions sont fusionnés. Les algorithmes incrémentiels mettent à jour les bases de données sans extraire à nouveau les données à partir de zéro.

Problèmes de types de données divers

  • Handling of relational and complex types of data - La base de données peut contenir des objets de données complexes, des objets de données multimédias, des données spatiales, des données temporelles, etc. Il n'est pas possible pour un système d'exploiter tous ces types de données.

  • Mining information from heterogeneous databases and global information systems- Les données sont disponibles à différentes sources de données sur LAN ou WAN. Ces sources de données peuvent être structurées, semi-structurées ou non structurées. Par conséquent, l'extraction de leurs connaissances ajoute des défis à l'exploration de données.