Amazon Web Services - Elastic MapReduce

Amazon Elastic MapReduce (EMR) est un service Web qui fournit un cadre géré pour exécuter des cadres de traitement de données tels qu'Apache Hadoop, Apache Spark et Presto d'une manière simple, économique et sécurisée.

Il est utilisé pour l'analyse de données, l'indexation Web, l'entreposage de données, l'analyse financière, la simulation scientifique, etc.

Comment configurer Amazon EMR?

Suivez ces étapes pour configurer Amazon EMR -

Step 1 - Connectez-vous au compte AWS et sélectionnez Amazon EMR sur la console de gestion.

Step 2- Créez un compartiment Amazon S3 pour les journaux de cluster et les données de sortie. (La procédure est expliquée en détail dans la section Amazon S3)

Step 3 - Lancez le cluster Amazon EMR.

Voici les étapes pour créer un cluster et le lancer dans EMR.

  • Laissez les options de la section Balises par défaut et continuez.

  • Dans la section Configuration logicielle, mettez à niveau les options par défaut.

  • Dans la section Configuration du système de fichiers, laissez les options pour EMRFS définies par défaut. EMRFS est une implémentation de HDFS, il permet aux clusters Amazon EMR de stocker des données sur Amazon S3.

  • Dans la section Configuration matérielle, sélectionnez m3.xlarge dans le champ Type d'instance EC2 et laissez les autres paramètres par défaut. Cliquez sur le bouton Suivant.

  • Dans la section Sécurité et accès, pour la paire de clés EC2, sélectionnez la paire dans la liste du champ Paire de clés EC2 et laissez les autres paramètres par défaut.

  • Dans la section Actions d'amorçage, laissez les champs définis par défaut et cliquez sur le bouton Ajouter. Les actions d'amorçage sont des scripts qui sont exécutés lors de l'installation avant que Hadoop ne démarre sur chaque nœud de cluster.

  • Dans la section Étapes, laissez les paramètres par défaut et continuez.

  • Cliquez sur le bouton Créer un cluster et la page Détails du cluster s'ouvre. C'est là que nous devons exécuter le script Hive en tant qu'étape de cluster et utiliser l'interface Web Hue pour interroger les données.

Step 4 - Exécutez le script Hive en suivant les étapes suivantes.

  • Ouvrez la console Amazon EMR et sélectionnez le cluster souhaité.

  • Accédez à la section Étapes et développez-la. Cliquez ensuite sur le bouton Ajouter une étape.

  • La boîte de dialogue Ajouter une étape s'ouvre. Remplissez les champs obligatoires, puis cliquez sur le bouton Ajouter.

  • Pour afficher la sortie du script Hive, procédez comme suit:

    • Ouvrez la console Amazon S3 et sélectionnez le compartiment S3 utilisé pour les données de sortie.

    • Sélectionnez le dossier de sortie.

    • La requête écrit les résultats dans un dossier séparé. Sélectionneros_requests.

    • La sortie est stockée dans un fichier texte. Ce fichier peut être téléchargé.

Avantages d'Amazon EMR

Voici les avantages d'Amazon EMR -

  • Easy to use - Amazon EMR est facile à utiliser, c'est-à-dire qu'il est facile de configurer le cluster, la configuration Hadoop, le provisionnement de nœuds, etc.

  • Reliable - Il est fiable en ce sens qu'il relance les tâches ayant échoué et remplace automatiquement les instances peu performantes.

  • Elastic- Amazon EMR permet de calculer une grande quantité d'instances pour traiter les données à n'importe quelle échelle. Il augmente ou diminue facilement le nombre d'instances.

  • Secure - Il configure automatiquement les paramètres du pare-feu Amazon EC2, contrôle l'accès réseau aux instances, lance des clusters dans un Amazon VPC, etc.

  • Flexible- Il permet un contrôle complet sur les clusters et un accès root à chaque instance. Il permet également l'installation d'applications supplémentaires et personnalise votre cluster selon les besoins.

  • Cost-efficient- Son prix est facile à estimer. Il facture toutes les heures pour chaque instance utilisée.