Exploration de données - Exploration de données textuelles

Les bases de données texte se composent d'une énorme collection de documents. Ils collectent ces informations à partir de plusieurs sources telles que des articles de presse, des livres, des bibliothèques numériques, des messages électroniques, des pages Web, etc. En raison de l'augmentation de la quantité d'informations, les bases de données textuelles se développent rapidement. Dans de nombreuses bases de données textuelles, les données sont semi-structurées.

Par exemple, un document peut contenir quelques champs structurés, tels que le titre, l'auteur, la date de publication, etc. Mais avec les données de structure, le document contient également des composants de texte non structurés, tels que le résumé et le contenu. Sans savoir ce que pourraient contenir les documents, il est difficile de formuler des requêtes efficaces pour analyser et extraire des informations utiles des données. Les utilisateurs ont besoin d'outils pour comparer les documents et classer leur importance et leur pertinence. Par conséquent, l'exploration de texte est devenue populaire et un thème essentiel dans l'exploration de données.

Récupération de l'information

La récupération d'informations concerne la récupération d'informations à partir d'un grand nombre de documents textuels. Certains des systèmes de base de données ne sont généralement pas présents dans les systèmes de recherche d'informations, car les deux traitent différents types de données. Des exemples de système de recherche d'informations comprennent:

  • Système de catalogue de la bibliothèque en ligne
  • Systèmes de gestion de documents en ligne
  • Systèmes de recherche Web, etc.

Note- Le principal problème dans un système de recherche d'informations est de localiser les documents pertinents dans une collection de documents en fonction de la requête d'un utilisateur. Ce type de requête utilisateur se compose de quelques mots-clés décrivant un besoin d'information.

Dans de tels problèmes de recherche, l'utilisateur prend l'initiative d'extraire des informations pertinentes d'une collection. Ceci est approprié lorsque l'utilisateur a un besoin d'information ad hoc, c'est-à-dire un besoin à court terme. Mais si l'utilisateur a un besoin d'informations à long terme, le système de récupération peut également prendre l'initiative de pousser tout élément d'information nouvellement arrivé à l'utilisateur.

Ce type d'accès à l'information s'appelle le filtrage des informations. Et les systèmes correspondants sont appelés systèmes de filtrage ou systèmes de recommandation.

Mesures de base pour la récupération de texte

Nous devons vérifier l'exactitude d'un système lorsqu'il récupère un certain nombre de documents sur la base de l'entrée de l'utilisateur. Supposons que l'ensemble des documents pertinents pour une requête soit désigné par {Pertinent} et l'ensemble des documents récupérés par {Retrieved}. L'ensemble des documents pertinents et récupérés peut être désigné par {Pertinent} ∩ {Retrieved}. Cela peut être montré sous la forme d'un diagramme de Venn comme suit -

Il existe trois mesures fondamentales pour évaluer la qualité de la recherche de texte:

  • Precision
  • Recall
  • F-score

Précision

La précision est le pourcentage de documents récupérés qui sont en fait pertinents pour la requête. La précision peut être définie comme -

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

Rappel

Le rappel est le pourcentage de documents pertinents pour la requête et qui ont en fait été récupérés. Le rappel est défini comme -

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

Score F

Le score F est le compromis couramment utilisé. Le système de recherche d'informations doit souvent faire des compromis sur la précision ou vice versa. Le score F est défini comme la moyenne harmonique de rappel ou de précision comme suit -

F-score = recall x precision / (recall + precision) / 2