MapReduce - Installation

MapReduce ne fonctionne que sur les systèmes d'exploitation Linux et il est intégré à un framework Hadoop. Nous devons effectuer les étapes suivantes pour installer le framework Hadoop.

Vérification de l'installation JAVA

Java doit être installé sur votre système avant d'installer Hadoop. Utilisez la commande suivante pour vérifier si Java est installé sur votre système.

$ java –version

Si Java est déjà installé sur votre système, vous obtenez la réponse suivante -

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Si Java n'est pas installé sur votre système, suivez les étapes ci-dessous.

Installer Java

Étape 1

Téléchargez la dernière version de Java à partir du lien suivant - ce lien .

Après le téléchargement, vous pouvez localiser le fichier jdk-7u71-linux-x64.tar.gz dans votre dossier Téléchargements.

Étape 2

Utilisez les commandes suivantes pour extraire le contenu de jdk-7u71-linux-x64.gz.

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Étape 3

Pour rendre Java disponible à tous les utilisateurs, vous devez le déplacer vers l'emplacement «/ usr / local /». Allez à la racine et tapez les commandes suivantes -

$ su
password:
# mv jdk1.7.0_71 /usr/local/java
# exit

Étape 4

Pour configurer les variables PATH et JAVA_HOME, ajoutez les commandes suivantes au fichier ~ / .bashrc.

export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin

Appliquez toutes les modifications au système en cours d'exécution.

$ source ~/.bashrc

Étape 5

Utilisez les commandes suivantes pour configurer les alternatives Java -

# alternatives --install /usr/bin/java java usr/local/java/bin/java 2

# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2

# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2

# alternatives --set java usr/local/java/bin/java

# alternatives --set javac usr/local/java/bin/javac

# alternatives --set jar usr/local/java/bin/jar

Vérifiez maintenant l'installation à l'aide de la commande java -version depuis le terminal.

Vérification de l'installation de Hadoop

Hadoop doit être installé sur votre système avant d'installer MapReduce. Vérifions l'installation de Hadoop à l'aide de la commande suivante -

$ hadoop version

Si Hadoop est déjà installé sur votre système, vous obtiendrez la réponse suivante -

Hadoop 2.4.1
--
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4

Si Hadoop n'est pas installé sur votre système, procédez comme suit.

Téléchargement de Hadoop

Téléchargez Hadoop 2.4.1 depuis Apache Software Foundation et extrayez son contenu à l'aide des commandes suivantes.

$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Installer Hadoop en mode pseudo-distribué

Les étapes suivantes permettent d'installer Hadoop 2.4.1 en mode pseudo distribué.

Étape 1 - Configuration de Hadoop

Vous pouvez définir des variables d'environnement Hadoop en ajoutant les commandes suivantes au fichier ~ / .bashrc.

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Appliquez toutes les modifications au système en cours d'exécution.

$ source ~/.bashrc

Étape 2 - Configuration Hadoop

Vous pouvez trouver tous les fichiers de configuration Hadoop à l'emplacement «$ HADOOP_HOME / etc / hadoop». Vous devez apporter les modifications appropriées à ces fichiers de configuration en fonction de votre infrastructure Hadoop.

$ cd $HADOOP_HOME/etc/hadoop

Pour développer des programmes Hadoop à l'aide de Java, vous devez réinitialiser les variables d'environnement Java dans hadoop-env.sh en remplaçant la valeur JAVA_HOME par l'emplacement de Java dans votre système.

export JAVA_HOME=/usr/local/java

Vous devez éditer les fichiers suivants pour configurer Hadoop -

  • core-site.xml
  • hdfs-site.xml
  • yarn-site.xml
  • mapred-site.xml

core-site.xml

core-site.xml contient les informations suivantes -

  • Numéro de port utilisé pour l'instance Hadoop
  • Mémoire allouée au système de fichiers
  • Limite de mémoire pour stocker les données
  • Taille des tampons de lecture / écriture

Ouvrez le fichier core-site.xml et ajoutez les propriétés suivantes entre les balises <configuration> et </configuration>.

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000 </value>
   </property>
</configuration>

hdfs-site.xml

hdfs-site.xml contient les informations suivantes -

  • Valeur des données de réplication
  • Le chemin du namenode
  • Le chemin du datanode de vos systèmes de fichiers locaux (l'endroit où vous souhaitez stocker l'infra Hadoop)

Supposons les données suivantes.

dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Ouvrez ce fichier et ajoutez les propriétés suivantes entre les balises <configuration>, </configuration>.

<configuration>

   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
   
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
   </property>
   
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value>
   </property>
   
</configuration>

Note - Dans le fichier ci-dessus, toutes les valeurs de propriété sont définies par l'utilisateur et vous pouvez apporter des modifications en fonction de votre infrastructure Hadoop.

yarn-site.xml

Ce fichier est utilisé pour configurer le fil dans Hadoop. Ouvrez le fichier yarn-site.xml et ajoutez les propriétés suivantes entre les balises <configuration>, </configuration>.

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

Ce fichier est utilisé pour spécifier le framework MapReduce que nous utilisons. Par défaut, Hadoop contient un modèle de yarn-site.xml. Tout d'abord, vous devez copier le fichier de mapred-site.xml.template vers le fichier mapred-site.xml à l'aide de la commande suivante.

$ cp mapred-site.xml.template mapred-site.xml

Ouvrez le fichier mapred-site.xml et ajoutez les propriétés suivantes entre les balises <configuration>, </configuration>.

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Vérification de l'installation de Hadoop

Les étapes suivantes sont utilisées pour vérifier l'installation de Hadoop.

Étape 1 - Configuration du nœud de nom

Configurez le namenode en utilisant la commande "hdfs namenode -format" comme suit -

$ cd ~
$ hdfs namenode -format

Le résultat attendu est le suivant -

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:

/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

Étape 2 - Vérification des fichiers DFS Hadoop

Exécutez la commande suivante pour démarrer votre système de fichiers Hadoop.

$ start-dfs.sh

Le résultat attendu est le suivant -

10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

Étape 3 - Vérification du script de fil

La commande suivante est utilisée pour démarrer le script de fil. L'exécution de cette commande démarrera vos démons yarn.

$ start-yarn.sh

Le résultat attendu est le suivant -

starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

Étape 4 - Accéder à Hadoop sur le navigateur

Le numéro de port par défaut pour accéder à Hadoop est 50070. Utilisez l'URL suivante pour obtenir les services Hadoop sur votre navigateur.

http://localhost:50070/

La capture d'écran suivante montre le navigateur Hadoop.

Étape 5 - Vérifier toutes les applications d'un cluster

Le numéro de port par défaut pour accéder à toutes les applications d'un cluster est 8088. Utilisez l'URL suivante pour utiliser ce service.

http://localhost:8088/

La capture d'écran suivante montre un navigateur de cluster Hadoop.