Lucene - Classes d'indexation

Le processus d'indexation est l'une des fonctionnalités de base fournies par Lucene. Le diagramme suivant illustre le processus d'indexation et l'utilisation des classes.IndexWriter est le composant le plus important et le cœur du processus d'indexation.

Nous ajoutons Document(s) contenant Field(s) à IndexWriter qui analyse le Document(s) en utilisant le Analyzer puis crée / ouvre / modifie les index selon les besoins et les stocke / les met à jour dans un Directory. IndexWriter est utilisé pour mettre à jour ou créer des index. Il n'est pas utilisé pour lire les index.

Classes d'indexation

Voici une liste des classes couramment utilisées pendant le processus d'indexation.

S.No. Classe et description
1 IndexWriter

Cette classe agit comme un composant de base qui crée / met à jour les index pendant le processus d'indexation.

2 Annuaire

Cette classe représente l'emplacement de stockage des index.

3 Analyseur

Cette classe est chargée d'analyser un document et d'obtenir les jetons / mots du texte à indexer. Sans analyse effectuée, IndexWriter ne peut pas créer d'index.

4 Document

Cette classe représente un document virtuel avec des champs où le champ est un objet qui peut contenir le contenu du document physique, ses métadonnées, etc. L'analyseur ne peut comprendre qu'un document.

5 Champ

Il s'agit de l'unité la plus basse ou du point de départ du processus d'indexation. Il représente la relation de paire clé-valeur dans laquelle une clé est utilisée pour identifier la valeur à indexer. Supposons qu'un champ utilisé pour représenter le contenu d'un document aura la clé comme "contenu" et la valeur peut contenir la partie ou la totalité du texte ou du contenu numérique du document. Lucene ne peut indexer que du texte ou du contenu numérique.