Apache Solr - Terminologie

Dans ce chapitre, nous essaierons de comprendre la signification réelle de certains des termes fréquemment utilisés lorsque vous travaillez sur Solr.

Terminologie générale

Voici une liste de termes généraux utilisés dans tous les types de configurations Solr -

  • Instance - Tout comme un tomcat instance ou un jetty instance, ce terme fait référence au serveur d'applications, qui s'exécute dans une machine virtuelle Java. Le répertoire home de Solr fournit une référence à chacune de ces instances Solr, dans lesquelles un ou plusieurs cœurs peuvent être configurés pour s'exécuter dans chaque instance.

  • Core - Lors de l'exécution de plusieurs index dans votre application, vous pouvez avoir plusieurs cœurs dans chaque instance, au lieu de plusieurs instances ayant chacune un cœur.

  • Home - Le terme $ SOLR_HOME fait référence au répertoire personnel qui contient toutes les informations concernant les cœurs et leurs index, configurations et dépendances.

  • Shard - Dans les environnements distribués, les données sont partitionnées entre plusieurs instances Solr, où chaque bloc de données peut être appelé comme un Shard. Il contient un sous-ensemble de l'index entier.

Terminologie SolrCloud

Dans un chapitre précédent, nous avons expliqué comment installer Apache Solr en mode autonome. Notez que nous pouvons également installer Solr en mode distribué (environnement cloud) où Solr est installé dans un modèle maître-esclave. En mode distribué, l'index est créé sur le serveur maître et répliqué sur un ou plusieurs serveurs esclaves.

Les termes clés associés à Solr Cloud sont les suivants -

  • Node - Dans le cloud Solr, chaque instance de Solr est considérée comme un node.

  • Cluster - Tous les nœuds de l'environnement combinés forment un cluster.

  • Collection - Un cluster a un index logique appelé collection.

  • Shard - Un fragment est une partie de la collection qui a une ou plusieurs répliques de l'index.

  • Replica - Dans Solr Core, une copie de la partition qui s'exécute dans un nœud est appelée replica.

  • Leader - C'est aussi une réplique de shard, qui distribue les requêtes du Solr Cloud aux répliques restantes.

  • Zookeeper - C'est un projet Apache que Solr Cloud utilise pour la configuration et la coordination centralisées, pour gérer le cluster et pour élire un leader.

Fichiers de configuration

Les principaux fichiers de configuration d'Apache Solr sont les suivants -

  • Solr.xml- C'est le fichier du répertoire $ SOLR_HOME qui contient les informations relatives à Solr Cloud. Pour charger les cœurs, Solr se réfère à ce fichier, ce qui aide à les identifier.

  • Solrconfig.xml - Ce fichier contient les définitions et les configurations spécifiques au cœur liées à la gestion des demandes et au formatage des réponses, ainsi qu'à l'indexation, à la configuration, à la gestion de la mémoire et aux validations.

  • Schema.xml - Ce fichier contient le schéma complet ainsi que les champs et les types de champs.

  • Core.properties- Ce fichier contient les configurations spécifiques au cœur. Il est référé pourcore discovery, car il contient le nom du noyau et le chemin du répertoire de données. Il peut être utilisé dans n'importe quel répertoire, qui sera alors traité comme lecore directory.