Exploration de données - Exploration du World Wide Web

Le World Wide Web contient d'énormes quantités d'informations qui constituent une source riche pour l'exploration de données.

Défis de l'exploration Web

Le Web pose de grands défis pour la découverte de ressources et de connaissances sur la base des observations suivantes -

  • The web is too huge- La taille du Web est très énorme et augmente rapidement. Il semble que le Web soit trop vaste pour l'entreposage de données et l'exploration de données.

  • Complexity of Web pages- Les pages Web n'ont pas de structure unificatrice. Ils sont très complexes par rapport aux documents texte traditionnels. Il existe une énorme quantité de documents dans la bibliothèque numérique du Web. Ces bibliothèques ne sont pas organisées selon un ordre de tri particulier.

  • Web is dynamic information source- Les informations sur le Web sont rapidement mises à jour. Les données telles que l'actualité, les marchés boursiers, la météo, le sport, le shopping, etc., sont régulièrement mises à jour.

  • Diversity of user communities- La communauté d'utilisateurs sur le Web se développe rapidement. Ces utilisateurs ont des antécédents, des intérêts et des objectifs d'utilisation différents. Il y a plus de 100 millions de postes de travail connectés à Internet et en constante augmentation.

  • Relevancy of Information - On considère qu'une personne particulière n'est généralement intéressée que par une petite partie du Web, tandis que le reste de la partie du Web contient des informations qui ne sont pas pertinentes pour l'utilisateur et peuvent submerger les résultats souhaités.

Exploration de la structure de la mise en page de la page Web

La structure de base de la page Web est basée sur le modèle d'objet de document (DOM). La structure DOM fait référence à une structure arborescente où la balise HTML de la page correspond à un nœud dans l'arborescence DOM. Nous pouvons segmenter la page Web en utilisant des balises prédéfinies en HTML. La syntaxe HTML est flexible par conséquent, les pages Web ne suivent pas les spécifications du W3C. Le non-respect des spécifications du W3C peut provoquer des erreurs dans l'arborescence DOM.

La structure DOM a été initialement introduite pour la présentation dans le navigateur et non pour la description de la structure sémantique de la page Web. La structure DOM ne peut pas identifier correctement la relation sémantique entre les différentes parties d'une page Web.

Segmentation de page basée sur la vision (VIPS)

  • Le but de VIPS est d'extraire la structure sémantique d'une page Web en fonction de sa présentation visuelle.

  • Une telle structure sémantique correspond à une arborescence. Dans cet arbre, chaque nœud correspond à un bloc.

  • Une valeur est attribuée à chaque nœud. Cette valeur est appelée le degré de cohérence. Cette valeur est attribuée pour indiquer le contenu cohérent dans le bloc en fonction de la perception visuelle.

  • L'algorithme VIPS extrait d'abord tous les blocs appropriés de l'arborescence DOM HTML. Après cela, il trouve les séparateurs entre ces blocs.

  • Les séparateurs font référence aux lignes horizontales ou verticales d'une page Web qui se croisent visuellement sans blocs.

  • La sémantique de la page Web est construite sur la base de ces blocs.

La figure suivante montre la procédure de l'algorithme VIPS -