Talend - Big Data

Le slogan d'Open Studio avec Big Data est «Simplifiez ETL et ELT avec le principal outil ETL open source gratuit pour le Big Data.» Dans ce chapitre, examinons l'utilisation de Talend comme outil de traitement de données dans un environnement Big Data.

introduction

Talend Open Studio - Big Data est un outil gratuit et open source pour traiter vos données très facilement dans un environnement Big Data. Vous disposez de nombreux composants Big Data disponibles dans Talend Open Studio, qui vous permettent de créer et d'exécuter des jobs Hadoop simplement par un simple glisser-déposer de quelques composants Hadoop.

De plus, nous n'avons pas besoin d'écrire de grandes lignes de codes MapReduce; Talend Open Studio Big data vous aide à le faire avec les composants qui y sont présents. Il génère automatiquement du code MapReduce pour vous, il vous suffit de faire glisser et déposer les composants et de configurer quelques paramètres.

Il vous donne également la possibilité de vous connecter à plusieurs distributions Big Data comme Cloudera, HortonWorks, MapR, Amazon EMR et même Apache.

Composants Talend pour Big Data

La liste des catégories avec des composants pour exécuter un travail sur un environnement Big Data inclus sous Big Data, est présentée ci-dessous -

La liste des connecteurs et composants Big Data dans Talend Open Studio est présentée ci-dessous -

  • tHDFSConnection - Utilisé pour se connecter à HDFS (Hadoop Distributed File System).

  • tHDFSInput - Lit les données à partir du chemin hdfs donné, les met dans le schéma talend, puis les transmet au composant suivant du travail.

  • tHDFSList - Récupère tous les fichiers et dossiers dans le chemin hdfs donné.

  • tHDFSPut - Copie le fichier / dossier du système de fichiers local (défini par l'utilisateur) vers hdfs au chemin donné.

  • tHDFSGet - Copie le fichier / dossier de hdfs vers le système de fichiers local (défini par l'utilisateur) au chemin donné.

  • tHDFSDelete - Supprime le fichier de HDFS

  • tHDFSExist - Vérifie si un fichier est présent sur HDFS ou non.

  • tHDFSOutput - Ecrit les flux de données sur HDFS.

  • tCassandraConnection - Ouvre la connexion au serveur Cassandra.

  • tCassandraRow - Exécute des requêtes CQL (Cassandra query language) sur la base de données spécifiée.

  • tHBaseConnection - Ouvre la connexion à la base de données HBase.

  • tHBaseInput - lit les données de la base de données HBase.

  • tHiveConnection - Ouvre la connexion à la base de données Hive.

  • tHiveCreateTable - Crée une table dans une base de données Hive.

  • tHiveInput - Lit les données de la base de données Hive.

  • tHiveLoad - Écrit les données dans la table Hive ou dans un répertoire spécifié.

  • tHiveRow - exécute des requêtes HiveQL sur la base de données spécifiée.

  • tPigLoad - Charge les données d'entrée dans le flux de sortie.

  • tPigMap - Utilisé pour transformer et acheminer les données dans un processus porcin.

  • tPigJoin - Effectue l'opération de jointure de 2 fichiers en fonction des clés de jointure.

  • tPigCoGroup - Regroupe et agrège les données provenant de plusieurs entrées.

  • tPigSort - Trie les données données en fonction d'une ou plusieurs clés de tri définies.

  • tPigStoreResult - Stocke le résultat de l'exploitation du porc dans un espace de stockage défini.

  • tPigFilterRow - Filtre les colonnes spécifiées afin de fractionner les données en fonction de la condition donnée.

  • tPigDistinct - Supprime les tuples en double de la relation.

  • tSqoopImport - Transfère les données d'une base de données relationnelle comme MySQL, Oracle DB vers HDFS.

  • tSqoopExport - Transfère les données de HDFS vers une base de données relationnelle comme MySQL, Oracle DB