Hadoop - Présentation de HDFS

Hadoop File System a été développé en utilisant la conception de systèmes de fichiers distribués. Il est exécuté sur du matériel de base. Contrairement à d'autres systèmes distribués, HDFS est hautement tolérant aux pannes et conçu à l'aide d'un matériel à faible coût.

HDFS contient une très grande quantité de données et offre un accès plus facile. Pour stocker des données aussi énormes, les fichiers sont stockés sur plusieurs machines. Ces fichiers sont stockés de manière redondante pour sauver le système d'éventuelles pertes de données en cas de panne. HDFS rend également les applications disponibles pour le traitement parallèle.

Caractéristiques de HDFS

  • Il convient au stockage et au traitement distribués.
  • Hadoop fournit une interface de commande pour interagir avec HDFS.
  • Les serveurs intégrés de namenode et de datanode aident les utilisateurs à vérifier facilement l'état du cluster.
  • Accès en continu aux données du système de fichiers.
  • HDFS fournit des autorisations de fichiers et une authentification.

Architecture HDFS

Vous trouverez ci-dessous l'architecture d'un système de fichiers Hadoop.

HDFS suit l'architecture maître-esclave et comporte les éléments suivants.

Namenode

Le namenode est le matériel de base qui contient le système d'exploitation GNU / Linux et le logiciel namenode. C'est un logiciel qui peut être exécuté sur du matériel de base. Le système ayant le namenode agit en tant que serveur maître et effectue les tâches suivantes -

  • Gère l'espace de noms du système de fichiers.

  • Régule l'accès du client aux fichiers.

  • Il exécute également les opérations du système de fichiers telles que le changement de nom, la fermeture et l'ouverture de fichiers et de répertoires.

Datanode

Le datanode est un matériel de base ayant le système d'exploitation GNU / Linux et un logiciel de datanode. Pour chaque nœud (matériel / système de base) dans un cluster, il y aura un datanode. Ces nœuds gèrent le stockage des données de leur système.

  • Les Datanodes effectuent des opérations de lecture-écriture sur les systèmes de fichiers, conformément à la demande du client.

  • Ils effectuent également des opérations telles que la création de blocs, la suppression et la réplication selon les instructions du namenode.

Bloquer

En général, les données utilisateur sont stockées dans les fichiers de HDFS. Le fichier dans un système de fichiers sera divisé en un ou plusieurs segments et / ou stocké dans des nœuds de données individuels. Ces segments de fichier sont appelés blocs. En d'autres termes, la quantité minimale de données que HDFS peut lire ou écrire est appelée un bloc. La taille de bloc par défaut est de 64 Mo, mais elle peut être augmentée selon la nécessité de modifier la configuration HDFS.

Objectifs de HDFS

Fault detection and recovery- Etant donné que HDFS comprend un grand nombre de matériels de base, les pannes de composants sont fréquentes. Par conséquent, HDFS devrait avoir des mécanismes pour une détection et une récupération rapides et automatiques des défauts.

Huge datasets - HDFS devrait avoir des centaines de nœuds par cluster pour gérer les applications ayant d'énormes ensembles de données.

Hardware at data- Une tâche demandée peut être effectuée efficacement, lorsque le calcul a lieu à proximité des données. Surtout lorsqu'il s'agit d'énormes ensembles de données, cela réduit le trafic réseau et augmente le débit.