XML - Entités de caractères

Ce chapitre décrit le XML Character Entities. Avant de comprendre les entités de caractère, voyons d'abord ce qu'est une entité XML.

Comme indiqué par W3 Consortium, la définition d'une entité est la suivante -

"L'entité de document sert de racine de l'arborescence d'entités et de point de départ pour un processeur XML".

Cela signifie que les entités sont les espaces réservés dans XML. Ceux-ci peuvent être déclarés dans le prologue du document ou dans une DTD. Il existe différents types d'entités et dans ce chapitre, nous aborderons l'entité de caractère.

Les deux, HTML et XML, ont des symboles réservés à leur utilisation, qui ne peuvent pas être utilisés comme contenu dans le code XML. Par exemple,< et >les signes sont utilisés pour ouvrir et fermer les balises XML. Pour afficher ces caractères spéciaux, les entités de caractères sont utilisées.

Il existe peu de caractères spéciaux ou de symboles qui ne peuvent être saisis directement à partir du clavier. Les entités de caractère peuvent également être utilisées pour afficher ces symboles / caractères spéciaux.

Types d'entités de caractère

Il existe trois types d'entités de caractère -

  • Entités de caractères prédéfinies
  • Entités de caractères numérotées
  • Entités de caractères nommées

Entités de caractères prédéfinies

Ils sont introduits pour éviter l'ambiguïté lors de l'utilisation de certains symboles. Par exemple, une ambiguïté est observée lorsque moins de (< ) ou supérieur à ( > ) Le symbole est utilisé avec la balise angulaire (<>). Les entités de caractères sont essentiellement utilisées pour délimiter les balises en XML. Voici une liste d'entités de caractères prédéfinies à partir de la spécification XML. Ceux-ci peuvent être utilisés pour exprimer des caractères sans ambiguïté.

  • Esperluette - &amp;

  • Devis unique - &apos;

  • Supérieur à - &gt;

  • Moins de - &lt;

  • Double devis - &quot;

Entités de caractères numériques

La référence numérique est utilisée pour faire référence à une entité de caractère. La référence numérique peut être au format décimal ou hexadécimal. Comme il existe des milliers de références numériques disponibles, celles-ci sont un peu difficiles à retenir. La référence numérique fait référence au caractère par son numéro dans le jeu de caractères Unicode.

La syntaxe générale de la référence numérique décimale est -

&# decimal number ;

La syntaxe générale de la référence numérique hexadécimale est -

&#x Hexadecimal number ;

Le tableau suivant répertorie certaines entités de caractères prédéfinies avec leurs valeurs numériques -

Nom de l'entité Personnage Référence décimale Référence hexadécimale
quot " & # 34; & # x22;
ampli & & # 38; & # x26;
apos ' & # 39; & # x27;
lt < & # 60; & # x3C;
gt > & # 62; & # x3E;

Entité de personnage nommée

Comme il est difficile de se souvenir des caractères numériques, le type d'entité de caractère le plus préféré est l'entité de caractère nommé. Ici, chaque entité est identifiée par un nom.

Par exemple -

  • «Aacute» représente un caractère majuscule avec un accent aigu.

  • «ugrave» représente le petit avec un accent grave.