HCatalog - Installation

Tous les sous-projets Hadoop tels que Hive, Pig et HBase prennent en charge le système d'exploitation Linux. Par conséquent, vous devez installer une version Linux sur votre système. HCatalog est fusionné avec Hive Installation le 26 mars 2013. À partir de la version Hive-0.11.0, HCatalog est livré avec l'installation Hive. Par conséquent, suivez les étapes ci-dessous pour installer Hive qui à son tour installera automatiquement HCatalog sur votre système.

Étape 1: Vérification de l'installation JAVA

Java doit être installé sur votre système avant d'installer Hive. Vous pouvez utiliser la commande suivante pour vérifier si Java est déjà installé sur votre système -

$ java –version

Si Java est déjà installé sur votre système, vous obtenez la réponse suivante -

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Si Java n'est pas installé sur votre système, vous devez suivre les étapes ci-dessous.

Étape 2: Installation de Java

Téléchargez Java (JDK <dernière version> - X64.tar.gz) en visitant le lien suivant http://www.oracle.com/

ensuite jdk-7u71-linux-x64.tar.gz sera téléchargé sur votre système.

En général, vous trouverez le fichier Java téléchargé dans le dossier Téléchargements. Vérifiez-le et extrayez lejdk-7u71-linux-x64.gz fichier à l'aide des commandes suivantes.

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz

$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Pour rendre Java disponible à tous les utilisateurs, vous devez le déplacer vers l'emplacement «/ usr / local /». Ouvrez root et saisissez les commandes suivantes.

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

Pour la mise en place PATH et JAVA_HOME variables, ajoutez les commandes suivantes à ~/.bashrc fichier.

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

Vérifiez maintenant l'installation à l'aide de la commande java -version depuis le terminal comme expliqué ci-dessus.

Étape 3: vérification de l'installation de Hadoop

Hadoop doit être installé sur votre système avant d'installer Hive. Vérifions l'installation de Hadoop à l'aide de la commande suivante -

$ hadoop version

Si Hadoop est déjà installé sur votre système, vous obtiendrez la réponse suivante -

Hadoop 2.4.1
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4

Si Hadoop n'est pas installé sur votre système, procédez comme suit:

Étape 4: Téléchargement de Hadoop

Téléchargez et extrayez Hadoop 2.4.1 depuis Apache Software Foundation à l'aide des commandes suivantes.

$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Étape 5: Installation de Hadoop en mode pseudo distribué

Les étapes suivantes sont utilisées pour installer Hadoop 2.4.1 en mode pseudo distribué.

Configurer Hadoop

Vous pouvez définir des variables d'environnement Hadoop en ajoutant les commandes suivantes à ~/.bashrc fichier.

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Appliquez maintenant toutes les modifications dans le système en cours d'exécution.

$ source ~/.bashrc

Configuration Hadoop

Vous pouvez trouver tous les fichiers de configuration Hadoop à l'emplacement «$ HADOOP_HOME / etc / hadoop». Vous devez apporter les modifications appropriées à ces fichiers de configuration en fonction de votre infrastructure Hadoop.

$ cd $HADOOP_HOME/etc/hadoop

Pour développer des programmes Hadoop à l'aide de Java, vous devez réinitialiser les variables d'environnement Java dans hadoop-env.sh fichier en remplaçant JAVA_HOME valeur avec l'emplacement de Java dans votre système.

export JAVA_HOME=/usr/local/jdk1.7.0_71

Vous trouverez ci-dessous la liste des fichiers que vous devez modifier pour configurer Hadoop.

core-site.xml

le core-site.xml Le fichier contient des informations telles que le numéro de port utilisé pour l'instance Hadoop, la mémoire allouée pour le système de fichiers, la limite de mémoire pour stocker les données et la taille des tampons de lecture / écriture.

Ouvrez le fichier core-site.xml et ajoutez les propriétés suivantes entre les balises <configuration> et </configuration>.

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>
</configuration>

hdfs-site.xml

le hdfs-site.xmlLe fichier contient des informations telles que la valeur des données de réplication, le chemin du namenode et le chemin du datanode de vos systèmes de fichiers locaux. Cela signifie l'endroit où vous souhaitez stocker l'infrastructure Hadoop.

Supposons les données suivantes.

dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)

namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Ouvrez ce fichier et ajoutez les propriétés suivantes entre les balises <configuration>, </configuration> de ce fichier.

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property> 
   
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value> 
   </property> 

   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value> 
   </property>
</configuration>

Note - Dans le fichier ci-dessus, toutes les valeurs de propriété sont définies par l'utilisateur et vous pouvez apporter des modifications en fonction de votre infrastructure Hadoop.

yarn-site.xml

Ce fichier est utilisé pour configurer le fil dans Hadoop. Ouvrez le fichier yarn-site.xml et ajoutez les propriétés suivantes entre les balises <configuration>, </configuration> de ce fichier.

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

Ce fichier est utilisé pour spécifier le framework MapReduce que nous utilisons. Par défaut, Hadoop contient un modèle de yarn-site.xml. Tout d'abord, vous devez copier le fichier depuismapred-site,xml.template à mapred-site.xml fichier à l'aide de la commande suivante.

$ cp mapred-site.xml.template mapred-site.xml

Ouvrez le fichier mapred-site.xml et ajoutez les propriétés suivantes entre les balises <configuration>, </configuration> de ce fichier.

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Étape 6: Vérification de l'installation de Hadoop

Les étapes suivantes sont utilisées pour vérifier l'installation de Hadoop.

Configuration de Namenode

Configurez le namenode en utilisant la commande "hdfs namenode -format" comme suit -

$ cd ~
$ hdfs namenode -format

Le résultat attendu est le suivant -

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1
images with txid >= 0 10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

Vérification de Hadoop DFS

La commande suivante est utilisée pour démarrer le DFS. L'exécution de cette commande démarrera votre système de fichiers Hadoop.

$ start-dfs.sh

Le résultat attendu est le suivant -

10/24/14 21:37:56 Starting namenodes on [localhost]
localhost: starting namenode, logging to
/home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out localhost:
starting datanode, logging to
   /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

Vérification du script de fil

La commande suivante est utilisée pour démarrer le script Yarn. L'exécution de cette commande démarrera vos démons Yarn.

$ start-yarn.sh

Le résultat attendu est le suivant -

starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/
yarn-hadoop-resourcemanager-localhost.out
localhost: starting nodemanager, logging to
   /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

Accéder à Hadoop sur le navigateur

Le numéro de port par défaut pour accéder à Hadoop est 50070. Utilisez l'URL suivante pour obtenir les services Hadoop sur votre navigateur.

http://localhost:50070/

Vérifier toutes les applications pour le cluster

Le numéro de port par défaut pour accéder à toutes les applications du cluster est 8088. Utilisez l'url suivante pour visiter ce service.

http://localhost:8088/

Une fois que vous avez terminé l'installation de Hadoop, passez à l'étape suivante et installez Hive sur votre système.

Étape 7: Téléchargement de Hive

Nous utilisons hive-0.14.0 dans ce tutoriel. Vous pouvez le télécharger en visitant le lien suivanthttp://apache.petsads.us/hive/hive-0.14.0/. Supposons qu'il soit téléchargé sur le/Downloadsannuaire. Ici, nous téléchargeons l'archive Hive nommée "apache-hive-0.14.0-bin.tar.gz»Pour ce didacticiel. La commande suivante est utilisée pour vérifier le téléchargement -

$ cd Downloads
$ ls

Lors du téléchargement réussi, vous obtenez la réponse suivante -

apache-hive-0.14.0-bin.tar.gz

Étape 8: Installation de Hive

Les étapes suivantes sont nécessaires pour installer Hive sur votre système. Supposons que l'archive Hive soit téléchargée sur le/Downloads annuaire.

Extraction et vérification de l'archive Hive

La commande suivante est utilisée pour vérifier le téléchargement et extraire l'archive Hive -

$ tar zxvf apache-hive-0.14.0-bin.tar.gz
$ ls

Lors du téléchargement réussi, vous obtenez la réponse suivante -

apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz

Copie de fichiers dans le répertoire / usr / local / hive

Nous devons copier les fichiers du superutilisateur «su -». Les commandes suivantes sont utilisées pour copier les fichiers du répertoire extrait vers le/usr/local/hive»Répertoire.

$ su -
passwd:
# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit

Configuration de l'environnement pour Hive

Vous pouvez configurer l'environnement Hive en ajoutant les lignes suivantes à ~/.bashrc fichier -

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.

La commande suivante est utilisée pour exécuter le fichier ~ / .bashrc.

$ source ~/.bashrc

Étape 9: Configuration de Hive

Pour configurer Hive avec Hadoop, vous devez modifier le hive-env.sh fichier, qui est placé dans le $HIVE_HOME/confannuaire. Les commandes suivantes redirigent vers Hiveconfig dossier et copiez le fichier modèle -

$ cd $HIVE_HOME/conf
$ cp hive-env.sh.template hive-env.sh

Modifier le hive-env.sh fichier en ajoutant la ligne suivante -

export HADOOP_HOME=/usr/local/hadoop

Avec cela, l'installation de Hive est terminée. Vous avez maintenant besoin d'un serveur de base de données externe pour configurer Metastore. Nous utilisons la base de données Apache Derby.

Étape 10: Téléchargement et installation d'Apache Derby

Suivez les étapes ci-dessous pour télécharger et installer Apache Derby -

Téléchargement d'Apache Derby

La commande suivante est utilisée pour télécharger Apache Derby. Le téléchargement prend un certain temps.

$ cd ~
$ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz

La commande suivante est utilisée pour vérifier le téléchargement -

$ ls

Lors du téléchargement réussi, vous obtenez la réponse suivante -

db-derby-10.4.2.0-bin.tar.gz

Extraction et vérification de l'archive Derby

Les commandes suivantes sont utilisées pour extraire et vérifier l'archive Derby -

$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls

Lors du téléchargement réussi, vous obtenez la réponse suivante -

db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz

Copie de fichiers dans le répertoire / usr / local / derby

Nous devons copier depuis le superutilisateur «su -». Les commandes suivantes sont utilisées pour copier les fichiers du répertoire extrait vers le/usr/local/derby annuaire -

$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit

Configuration de l'environnement pour Derby

Vous pouvez configurer l'environnement Derby en ajoutant les lignes suivantes à ~/.bashrc fichier -

export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar

La commande suivante est utilisée pour exécuter ~/.bashrc file -

$ source ~/.bashrc

Créer un répertoire pour Metastore

Créez un répertoire nommé data dans le répertoire $ DERBY_HOME pour stocker les données Metastore.

$ mkdir $DERBY_HOME/data

L'installation de Derby et la configuration de l'environnement sont maintenant terminées.

Étape 11: Configuration du métastore Hive

Configurer Metastore signifie spécifier à Hive où la base de données est stockée. Vous pouvez le faire en modifiant lehive-site.xml fichier, qui se trouve dans le $HIVE_HOME/confannuaire. Tout d'abord, copiez le fichier modèle à l'aide de la commande suivante -

$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml

Éditer hive-site.xml et ajoutez les lignes suivantes entre les balises <configuration> et </configuration> -

<property>
   <name>javax.jdo.option.ConnectionURL</name>
   <value>jdbc:derby://localhost:1527/metastore_db;create = true</value>
   <description>JDBC connect string for a JDBC metastore</description>
</property>

Créez un fichier nommé jpox.properties et ajoutez-y les lignes suivantes -

javax.jdo.PersistenceManagerFactoryClass = org.jpox.PersistenceManagerFactoryImpl

org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false

org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed

javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine

Étape 12: Vérification de l'installation de Hive

Avant d'exécuter Hive, vous devez créer le /tmpdossier et un dossier Hive distinct dans HDFS. Ici, nous utilisons le/user/hive/warehousedossier. Vous devez définir l'autorisation d'écriture pour ces dossiers nouvellement créés comme indiqué ci-dessous -

chmod g+w

Maintenant, définissez-les dans HDFS avant de vérifier Hive. Utilisez les commandes suivantes -

$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp
$ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse

Les commandes suivantes sont utilisées pour vérifier l'installation de Hive -

$ cd $HIVE_HOME
$ bin/hive

Une fois l'installation réussie de Hive, vous obtenez la réponse suivante -

Logging initialized using configuration in 
   jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/
hive-log4j.properties Hive history
   =/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>

Vous pouvez exécuter l'exemple de commande suivant pour afficher toutes les tables -

hive> show tables;
OK Time taken: 2.798 seconds
hive>

Étape 13: Vérifiez l'installation de HCatalog

Utilisez la commande suivante pour définir une variable système HCAT_HOME pour HCatalog Home.

export HCAT_HOME = $HiVE_HOME/HCatalog

Utilisez la commande suivante pour vérifier l'installation de HCatalog.

cd $HCAT_HOME/bin
./hcat

Si l'installation réussit, vous verrez la sortie suivante -

SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
usage: hcat { -e "<query>" | -f "<filepath>" } 
   [ -g "<group>" ] [ -p "<perms>" ] 
   [ -D"<name> = <value>" ]
	
-D <property = value>    use hadoop value for given property
-e <exec>                hcat command given from command line
-f <file>                hcat commands in file
-g <group>               group for the db/table specified in CREATE statement
-h,--help                Print help information
-p <perms>               permissions for the db/table specified in CREATE statement