DynamoDB - MapReduce

Elastic MapReduce (EMR) d'Amazon vous permet de traiter rapidement et efficacement le Big Data. EMR exécute Apache Hadoop sur des instances EC2, mais simplifie le processus. Vous utilisez Apache Hive pour interroger la carte et réduire les flux de travail via HiveQL , un langage de requête ressemblant à SQL. Apache Hive sert à optimiser les requêtes et vos applications.

Vous pouvez utiliser l'onglet EMR de la console de gestion, l'interface de ligne de commande EMR, une API ou un SDK pour lancer un flux de travaux. Vous avez également la possibilité d'exécuter Hive de manière interactive ou d'utiliser un script.

Les opérations de lecture / écriture EMR ont un impact sur la consommation de débit, cependant, dans les demandes volumineuses, il effectue des tentatives avec la protection d'un algorithme d'interruption. En outre, l'exécution d'EMR en même temps que d'autres opérations et tâches peut entraîner une limitation.

L'intégration DynamoDB / EMR ne prend pas en charge les attributs d'ensemble binaire et binaire.

Conditions préalables à l'intégration DynamoDB / EMR

Passez en revue cette liste de contrôle des éléments nécessaires avant d'utiliser le DME -

Un compte AWS
Un tableau rempli sous le même compte utilisé dans les opérations EMR
Une version Hive personnalisée avec connectivité DynamoDB
Prise en charge de la connectivité DynamoDB
Un compartiment S3 (facultatif)
Un client SSH (facultatif)
Une paire de clés EC2 (en option)

Configuration de la ruche

Avant d'utiliser EMR, créez une paire de clés pour exécuter Hive en mode interactif. La paire de clés permet la connexion aux instances EC2 et aux nœuds maîtres des flux de travaux.

Vous pouvez effectuer cela en suivant les étapes suivantes -

Connectez-vous à la console de gestion et ouvrez la console EC2 située sur https://console.aws.amazon.com/ec2/
Sélectionnez une région dans la partie supérieure droite de la console. Assurez-vous que la région correspond à la région DynamoDB.
Dans le volet de navigation, sélectionnez Key Pairs.
Sélectionner Create Key Pair.
dans le Key Pair Name champ, entrez un nom et sélectionnez Create.
Téléchargez le fichier de clé privée résultant qui utilise le format suivant: filename.pem.

Note - Vous ne pouvez pas vous connecter aux instances EC2 sans la paire de clés.

Cluster ruche

Créez un cluster compatible Hive pour exécuter Hive. Il crée l'environnement d'applications et d'infrastructure requis pour une connexion Hive-to-DynamoDB.

Vous pouvez effectuer cette tâche en utilisant les étapes suivantes -

Accédez à la console EMR.
Sélectionner Create Cluster.
Dans l'écran de création, définissez la configuration du cluster avec un nom descriptif pour le cluster, sélectionnez Yes pour la protection de la terminaison et vérifier Enabled pour la journalisation, une destination S3 pour log folder S3 location, et Enabled pour le débogage.
Dans l'écran de configuration du logiciel, assurez-vous que les champs tiennent Amazon pour la distribution Hadoop, la dernière version de la version AMI, une version Hive par défaut pour les applications à installer-Hive et une version Pig par défaut pour les applications à installer-Pig.
Dans l'écran de configuration matérielle, assurez-vous que les champs tiennent Launch into EC2-Classic pour le réseau, No Preference pour la zone de disponibilité EC2, la valeur par défaut pour le type d'instance maître-Amazon EC2, pas de vérification pour les instances Spot de demande, la valeur par défaut pour le type d'instance Core-Amazon EC2, 2 pour Count, pas de vérification pour Request Spot Instances, la valeur par défaut pour Task-Amazon EC2 Instance Type, 0 pour Count, et pas de contrôle pour Request Spot Instances.

Assurez-vous de définir une limite fournissant une capacité suffisante pour éviter une défaillance du cluster.

Dans l'écran Sécurité et accès, assurez-vous que les champs contiennent votre paire de clés dans la paire de clés EC2, No other IAM users dans l'accès des utilisateurs IAM, et Proceed without roles dans le rôle IAM.
Consultez l'écran Actions d'amorçage, mais ne le modifiez pas.
Vérifiez les paramètres et sélectionnez Create Cluster Une fois terminé.

UNE Summary Le volet apparaît au début du cluster.

Activer la session SSH

Vous avez besoin d'une session SSH active pour vous connecter au nœud maître et exécuter les opérations CLI. Localisez le nœud maître en sélectionnant le cluster dans la console EMR. Il répertorie le nœud maître commeMaster Public DNS Name.

Installez PuTTY si vous ne l'avez pas. Puis lancez PuTTYgen et sélectionnezLoad. Choisissez votre fichier PEM et ouvrez-le. PuTTYgen vous informera de la réussite de l'importation. SélectionnerSave private key pour enregistrer au format de clé privée PuTTY (PPK), et choisissez Yespour enregistrer sans phrase de passe. Entrez ensuite un nom pour la clé PuTTY, appuyez surSaveet fermez PuTTYgen.

Utilisez PuTTY pour établir une connexion avec le nœud maître en démarrant d'abord PuTTY. ChoisirSessiondans la liste Catégorie. Entrez hadoop @ DNS dans le champ Nom d'hôte. DévelopperConnection > SSH dans la liste Catégorie et choisissez Auth. Dans l'écran des options de contrôle, sélectionnezBrowsepour le fichier de clé privée pour l'authentification. Sélectionnez ensuite votre fichier de clé privée et ouvrez-le. SélectionnerYes pour la fenêtre contextuelle d'alerte de sécurité.

Une fois connecté au nœud maître, une invite de commande Hadoop apparaît, ce qui signifie que vous pouvez démarrer une session Hive interactive.

Table de ruche

Hive sert d'outil d'entrepôt de données permettant des requêtes sur des clusters EMR à l'aide de HiveQL . Les configurations précédentes vous donnent une invite de travail. Exécutez les commandes Hive de manière interactive en entrant simplement «ruche», puis toutes les commandes que vous souhaitez. Consultez notre didacticiel Hive pour plus d'informations sur Hive .