Questions d'entretiens chez Hadoop

Que fait la commande 'jps'?

Il donne le statut des démons qui exécutent le cluster Hadoop. Il donne la sortie mentionnant le statut du namenode, du datanode, du namenode secondaire, du Jobtracker et du Task tracker.

Comment redémarrer Namenode?

Step-1. Cliquez sur stop-all.sh puis sur start-all.sh OU

Step-2. Écrivez sudo hdfs (appuyez sur Entrée), su-hdfs (appuyez sur Entrée), /etc/init.d/ha (appuyez sur Entrée) puis /etc/init.d/hadoop-0.20-namenode start (appuyez sur Entrée).

Quels sont les trois modes dans lesquels Hadoop peut être exécuté?

Les trois modes dans lesquels Hadoop peut être exécuté sont:

mode autonome (local)
Mode pseudo-distribué
Mode entièrement distribué

Que fait / etc /init.d?

/ etc /init.d spécifie où les démons (services) sont placés ou pour voir l'état de ces démons. Il est très spécifique à LINUX et n'a rien à voir avec Hadoop.

Et si un Namenode n'a pas de données?

Il ne peut pas faire partie du cluster Hadoop.

Qu'arrive-t-il à Job Tracker lorsque Namenode est arrêté?

Lorsque Namenode est en panne, votre cluster est désactivé, car Namenode est le point de défaillance unique dans HDFS.

Qu'est-ce que le Big Data?

Le Big Data n'est rien d'autre qu'un assortiment de données tellement énormes et complexes qu'il devient très fastidieux de les capturer, de les stocker, de les traiter, de les récupérer et de les analyser à l'aide d'outils de gestion de bases de données disponibles ou de techniques de traitement de données traditionnelles.

Quelles sont les quatre caractéristiques du Big Data?

les trois caractéristiques du Big Data sont -

Volume - Facebook générant plus de 500 téraoctets de données par jour.

Velocity - Analyser 2 millions d'enregistrements chaque jour pour identifier la raison des pertes

Variety - images, audio, vidéo, données de capteur, fichiers journaux, etc. Véracité: biais, bruit et anomalie des données

En quoi l'analyse du Big Data est-elle utile pour les organisations?

Une analyse efficace du Big Data offre de nombreux avantages commerciaux, car les organisations apprendront sur quels domaines se concentrer et sur quels domaines sont moins importants. L'analyse des mégadonnées fournit des indicateurs clés précoces qui peuvent empêcher l'entreprise de subir une perte énorme ou l'aider à saisir une excellente opportunité les mains ouvertes! Une analyse précise du Big Data aide à la prise de décision! Par exemple, de nos jours, les gens comptent tellement sur Facebook et Twitter avant d'acheter un produit ou un service. Tout cela grâce à l'explosion du Big Data.

Pourquoi avons-nous besoin de Hadoop?

Chaque jour, une grande quantité de données non structurées est déversée dans nos machines. Le défi majeur n'est pas de stocker de grands ensembles de données dans nos systèmes, mais de récupérer et d'analyser le big data dans les organisations, qui sont également des données présentes dans différentes machines à différents endroits. Dans cette situation, une nécessité pour Hadoop apparaît. Hadoop a la capacité d'analyser les données présentes dans différentes machines à différents endroits très rapidement et d'une manière très rentable. Il utilise le concept de MapReduce qui lui permet de diviser la requête en petites parties et de les traiter en parallèle. Ceci est également connu sous le nom de calcul parallèle. Le lien suivant Pourquoi Hadoop explique en détail pourquoi Hadoop gagne en popularité!

Quelle est la différence fondamentale entre le SGBDR traditionnel et Hadoop?

Le SGBDR traditionnel est utilisé pour les systèmes transactionnels pour rapporter et archiver les données, tandis que Hadoop est une approche pour stocker une énorme quantité de données dans le système de fichiers distribué et les traiter. Le SGBDR sera utile lorsque vous souhaitez rechercher un enregistrement à partir de Big data, alors que Hadoop sera utile lorsque vous voulez Big Data en un seul coup et effectuer une analyse sur cela plus tard.

Qu'est-ce que la tolérance aux pannes?

Supposons que vous ayez un fichier stocké dans un système et qu'en raison d'un problème technique, ce fichier soit détruit. Ensuite, il n'y a aucune chance de récupérer les données présentes dans ce fichier. Pour éviter de telles situations, Hadoop a introduit la fonctionnalité de tolérance aux pannes dans HDFS. Dans Hadoop, lorsque nous stockons un fichier, il est automatiquement répliqué à deux autres emplacements également. Ainsi, même si un ou deux des systèmes s'effondrent, le fichier est toujours disponible sur le troisième système.

La réplication entraîne une redondance des données, alors pourquoi est-elle poursuivie dans HDFS?

HDFS fonctionne avec du matériel standard (systèmes avec des configurations moyennes) qui a de fortes chances de se bloquer à tout moment. Ainsi, pour rendre l'ensemble du système hautement tolérant aux pannes, HDFS réplique et stocke les données à différents endroits. Toutes les données sur HDFS sont stockées au moins 3 emplacements différents. Ainsi, même si l'un d'entre eux est corrompu et que l'autre n'est pas disponible pendant un certain temps pour une raison quelconque, les données peuvent être accessibles à partir du troisième. Par conséquent, il n'y a aucune chance de perdre les données. Ce facteur de réplication nous aide à atteindre la fonctionnalité de Hadoop appelée Fault Tolerant.

Puisque les données sont répliquées trois fois dans HDFS, cela signifie-t-il que tout calcul effectué sur un nœud sera également répliqué sur les deux autres?

Non, les calculs seront effectués uniquement sur les données d'origine. Le nœud maître saura quel nœud a exactement ces données particulières. Dans le cas où l'un des nœuds ne répond pas, il est supposé avoir échoué. Ce n'est qu'alors que le calcul requis sera effectué sur la deuxième réplique.

Qu'est-ce qu'un Namenode?

Namenode est le nœud maître sur lequel s'exécute le traqueur de travaux et se compose des métadonnées. Il maintient et gère les blocs présents sur les datanodes. C'est une machine à haute disponibilité et un point de défaillance unique dans HDFS.

Namenode est-il également un matériel de base?

Non. Namenode ne peut jamais être un matériel de base, car tout le HDFS en dépend. C'est le point de défaillance unique de HDFS. Namenode doit être une machine à haute disponibilité.

Qu'est-ce qu'un Datanode?

Les Datanodes sont les esclaves qui sont déployés sur chaque machine et fournissent le stockage réel. Ceux-ci sont responsables du traitement des demandes de lecture et d'écriture pour les clients.

Pourquoi utilisons-nous HDFS pour les applications ayant de grands ensembles de données et non lorsqu'il y a beaucoup de petits fichiers?

HDFS est plus adapté pour une grande quantité d'ensembles de données dans un seul fichier par rapport à une petite quantité de données réparties sur plusieurs fichiers. En effet, Namenode est un système haute performance très coûteux, il n'est donc pas prudent d'occuper l'espace dans le Namenode par une quantité inutile de métadonnées générées pour plusieurs petits fichiers. Ainsi, lorsqu'il y a une grande quantité de données dans un seul fichier, le nœud de nom occupera moins d'espace. Par conséquent, pour obtenir des performances optimisées, HDFS prend en charge de grands ensembles de données au lieu de plusieurs petits fichiers.

Qu'est-ce qu'un traqueur d'emploi?

Job tracker est un démon qui s'exécute sur un namenode pour soumettre et suivre les travaux MapReduce dans Hadoop. Il attribue les tâches aux différents trackers de tâches. Dans un cluster Hadoop, il n'y aura qu'un seul suivi des travaux, mais plusieurs suiveurs de tâches. C'est le point de défaillance unique pour Hadoop et MapReduce Service. Si le suivi des travaux tombe en panne, tous les travaux en cours sont interrompus. Il reçoit le battement de cœur du suivi des tâches en fonction du suivi des tâches qui décide si la tâche assignée est terminée ou non.

Qu'est-ce qu'un suivi des tâches?

Le traqueur de tâches est également un démon qui s'exécute sur les datanodes. Les trackers de tâches gèrent l'exécution de tâches individuelles sur le nœud esclave. Lorsqu'un client soumet un travail, le traqueur de travaux initialise le travail, divise le travail et les affecte à différents suiveurs de tâches pour effectuer les tâches MapReduce. Lors de l'exécution de cette action, le traqueur de tâches communiquera simultanément avec le traqueur de travaux en envoyant une pulsation. Si le suivi des travaux ne reçoit pas de pulsation du suivi des tâches dans le délai spécifié, il supposera que le suivi des tâches s'est bloqué et affectera cette tâche à un autre suivi des tâches du cluster.

Qu'est-ce qu'un battement de cœur dans HDFS?

Un battement de cœur est un signal indiquant qu'il est vivant. Un datanode envoie un battement de cœur à Namenode et le traqueur de tâches enverra son battement de cœur au traqueur de tâches. Si le Namenode ou le traqueur de tâches ne reçoit pas de battement de cœur, ils décideront qu'il y a un problème dans le datanode ou que le tracker de tâches est incapable d'exécuter la tâche assignée.

Qu'est-ce qu'un «bloc» dans HDFS?

Un «bloc» est la quantité minimale de données qui peuvent être lues ou écrites. Dans HDFS, la taille de bloc par défaut est de 64 Mo, contrairement à la taille de bloc de 8192 octets sous Unix / Linux. Les fichiers dans HDFS sont décomposés en blocs de la taille d'un bloc, qui sont stockés en tant qu'unités indépendantes. Les blocs HDFS sont volumineux par rapport aux blocs de disque, en particulier pour minimiser le coût des recherches. Si un fichier particulier est de 50 Mo, le bloc HDFS consommera-t-il toujours 64 Mo comme taille par défaut? Non pas du tout! 64 Mo est juste une unité où les données seront stockées. Dans cette situation particulière, seuls 50 Mo seront consommés par un bloc HDFS et 14 Mo seront libres de stocker autre chose. C'est le MasterNode qui effectue l'allocation des données de manière efficace.

Quels sont les avantages du transfert en bloc?

Un fichier peut être plus volumineux que n'importe quel disque unique du réseau. Il n'y a rien qui exige que les blocs d'un fichier soient stockés sur le même disque, afin qu'ils puissent tirer parti de l'un des disques du cluster. Faire de l'unité d'abstraction un bloc plutôt qu'un fichier simplifie le sous-système de stockage. Les blocs offrent une tolérance aux pannes et une disponibilité. Pour assurer contre les blocs corrompus et les pannes de disque et de machine, chaque bloc est répliqué sur un petit nombre de machines physiquement séparées (généralement trois). Si un bloc devient indisponible, une copie peut être lue à partir d'un autre emplacement d'une manière transparente pour le client?

Comment l'indexation est-elle effectuée dans HDFS?

Hadoop a sa propre méthode d'indexation. En fonction de la taille du bloc, une fois les données stockées, HDFS continuera à stocker la dernière partie des données qui indiquera où la partie suivante des données sera.

Le suivi des travaux et les suiveurs de tâches sont-ils présents sur des machines distinctes?

Oui, le suivi des travaux et le suivi des tâches sont présents sur différentes machines. La raison en est que le suivi des travaux est un point de défaillance unique pour le service Hadoop MapReduce. S'il tombe en panne, tous les travaux en cours sont interrompus.

Quel est le canal de communication entre le client et le namenode / datanode?

Le mode de communication est SSH.

Qu'est-ce qu'un rack?

Le rack est une zone de stockage avec tous les datanodes réunis. Ces datanodes peuvent être physiquement situés à différents endroits. Rack est une collection physique de datanodes qui sont stockés à un seul endroit. Il peut y avoir plusieurs racks dans un même emplacement.

Qu'est-ce qu'un Namenode secondaire? Est-ce un substitut au Namenode?

Le Namenode secondaire lit constamment les données de la RAM du Namenode et les écrit sur le disque dur ou le système de fichiers. Ce n'est pas un substitut au Namenode, donc si le Namenode échoue, tout le système Hadoop tombe en panne.

Expliquez comment fonctionnent la «cartographie» et la «réduction».

Namenode prend l'entrée et la divise en parties et les attribue à des nœuds de données. Ces datanodes traitent les tâches qui leur sont assignées, créent une paire clé-valeur et renvoie la sortie intermédiaire au réducteur. Le réducteur collecte ces paires valeur / clé de tous les datanodes et les combine et génère la sortie finale.

Pourquoi «Reading» se fait en parallèle et «Writing» n'est pas en HDFS?

Grâce au programme mapreduce, le fichier peut être lu en divisant ses blocs lors de la lecture. Mais pendant l'écriture, car les valeurs entrantes ne sont pas encore connues du système, mapreduce ne peut pas être appliquée et aucune écriture parallèle n'est possible.

Copier un répertoire d'un nœud du cluster vers un autre

Utilisez la commande '-distcp' pour copier,

Le facteur de réplication par défaut dans un fichier est 3.

Utilisez la commande '-setrep' pour changer le facteur de réplication d'un fichier sur 2.

hadoop fs -setrep -w 2 apache_hadoop / sample.txt

Qu'est-ce que la sensibilisation au rack?

La prise en compte du rack est la manière dont le namenode décide comment placer les blocs en fonction des définitions de rack. Hadoop essaiera de minimiser le trafic réseau entre les nœuds de données dans le même rack et ne contactera les racks distants que s'il le faut. Le namenode est capable de contrôler cela en raison de la détection du rack.

Quel fichier fait la configuration Hadoop-core?

core-default.xml

Existe-t-il une commande hdfs pour voir l'espace libre disponible dans hdfs

hadoop dfsadmin -report

La condition est d'ajouter un nouveau nœud de données à un cluster Hadoop en cours d'exécution; comment démarrer des services sur un seul nœud de données?

Vous n'avez pas besoin d'arrêter et / ou de redémarrer l'ensemble du cluster dans ce cas.

Tout d'abord, ajoutez le nom DNS du nouveau nœud au fichier conf / slaves sur le nœud maître.

Connectez-vous ensuite au nouveau nœud esclave et exécutez -

$ cd chemin / vers / hadoop

$ bin / hadoop-daemon.sh start datanode

$ bin / hadoop-daemon.sh démarrer le suivi des tâches

puis émettezhadoop dfsadmin -refreshNodes et hadoop mradmin -refreshNodes afin que le NameNode et le JobTracker connaissent le nœud supplémentaire qui a été ajouté.

Comment arrêtez-vous en douceur un travail en cours?

Job Hadoop - Tuer Jobid

Le nœud de nom reste-t-il en mode sans échec jusqu'à ce que tous les fichiers sous-répliqués soient entièrement répliqués?

Non. En mode sans échec, la réplication des blocs est interdite. Le nœud de nom attend quand tous ou la majorité des nœuds de données signalent leurs blocs.

Que se passe-t-il si un client Hadoop renomme un fichier ou un répertoire contenant ce fichier alors qu'un autre client y écrit encore?

Un fichier apparaîtra dans l'espace de noms dès sa création. Si un graveur écrit dans un fichier et qu'un autre client renomme le fichier lui-même ou l'un de ses composants de chemin, le graveur d'origine recevra une exception IOException soit lorsqu'il a terminé d'écrire dans le bloc actuel, soit lorsqu'il ferme le fichier.

Comment réduire la taille d'un grand cluster en supprimant certains des nœuds?

Hadoop offre la fonction de mise hors service pour retirer un ensemble de nœuds de données existants. Les nœuds à retirer doivent être inclus dans le fichier d'exclusion et le nom du fichier d'exclusion doit être spécifié comme paramètre de configuration dfs.hosts.exclude.

Le processus de mise hors service peut être interrompu à tout moment en modifiant la configuration ou les fichiers d'exclusion et en répétant le -refreshNodes commander

Pouvons-nous rechercher des fichiers à l'aide de caractères génériques?

Oui. Par exemple, pour lister tous les fichiers commençant par la lettre a, vous pouvez utiliser la commande ls avec le caractère générique * & minu;

hdfs dfs –ls a*

Que se passe-t-il lorsque deux clients essaient d'écrire dans le même fichier HDFS?

HDFS prend uniquement en charge les écritures exclusives.

Lorsque le premier client contacte le nœud de nom pour ouvrir le fichier en écriture, le nœud de nom accorde un bail au client pour créer ce fichier. Lorsque le deuxième client essaie d'ouvrir le même fichier pour l'écriture, le nœud de nom verra que le bail du fichier est déjà accordé à un autre client et rejettera la demande d'ouverture pour le deuxième client

Que signifie "le fichier ne peut être répliqué que sur 0 nœuds au lieu de 1"?

Le namenode n'a aucun DataNode disponible.

Qu'est-ce qu'un combineur?

Le Combiner est un processus de «mini-réduction» qui ne fonctionne que sur les données générées par un mappeur. Le Combiner recevra en entrée toutes les données émises par les instances de Mapper sur un nœud donné. La sortie du combineur est ensuite envoyée aux réducteurs, au lieu de la sortie des mappeurs

Considérez le scénario de cas: dans le système M / R, - la taille de bloc HDFS est de 64 Mo

- Le format d'entrée est FileInputFormat

- Nous avons 3 fichiers de taille 64K, 65 Mo et 127 Mo

Combien de fractionnements d'entrée seront effectués par le framework Hadoop?

Hadoop fera 5 divisions comme suit -

- 1 fractionnement pour 64K fichiers
- 2 divisions pour 65 Mo de fichiers
- 2 splits pour 127 Mo de fichiers

Supposons que Hadoop ait généré 100 tâches pour un travail et qu'une des tâches ait échoué. Que fera Hadoop?

Il redémarrera la tâche sur un autre TaskTracker et ce n'est que si la tâche échoue plus de quatre fois (le paramètre par défaut et peut être modifié) qu'il arrêtera le travail.

Quels sont les problèmes avec les petits fichiers et HDFS?

HDFS n'est pas bon pour gérer un grand nombre de petits fichiers. Parce que chaque fichier, répertoire et bloc dans HDFS est représenté comme un objet dans la mémoire du namenode, dont chacun occupe environ 150 octets, donc 10 millions de fichiers, chacun utilisant un bloc, utiliseraient environ 3 gigaoctets de mémoire. lorsque nous recherchons un milliard de fichiers, la mémoire requise en namenode ne peut pas être satisfaite.

Qu'est-ce que l'exécution spéculative dans Hadoop?

Si un nœud semble fonctionner lentement, le nœud maître peut exécuter de manière redondante une autre instance de la même tâche et la première sortie sera prise. Ce processus est appelé exécution spéculative.

Hadoop peut-il gérer les données en streaming?

Oui, grâce à des technologies comme Apache Kafka, Apache Flume et Apache Spark, il est possible de faire du streaming à grande échelle.

Pourquoi le point de contrôle est-il important dans Hadoop?

Au fur et à mesure que de plus en plus de fichiers sont ajoutés, le namenode crée de gros journaux d'édition. Ce qui peut considérablement retarder le démarrage de NameNode car le NameNode réapplique toutes les modifications. Le point de contrôle est un processus qui prend une fsimage et édite le journal et les compacte en une nouvelle fsimage. De cette façon, au lieu de rejouer un journal d'édition potentiellement illimité, le NameNode peut charger l'état final en mémoire directement à partir de la fsimage. C'est une opération beaucoup plus efficace et réduit le temps de démarrage de NameNode.

Tutoriel Hadoop

Ressources utiles Hadoop