HCatalog - Introduction

Qu'est-ce que HCatalog?

HCatalog est un outil de gestion de stockage de table pour Hadoop. Il expose les données tabulaires du métastore Hive à d'autres applications Hadoop. Il permet aux utilisateurs disposant de différents outils de traitement de données (Pig, MapReduce) d'écrire facilement des données sur une grille. Cela garantit que les utilisateurs n'ont pas à se soucier de l'endroit ou du format de stockage de leurs données.

HCatalog fonctionne comme un composant clé de Hive et permet aux utilisateurs de stocker leurs données dans n'importe quel format et n'importe quelle structure.

Pourquoi HCatalog?

Activer le bon outil pour le bon travail

L'écosystème Hadoop contient différents outils de traitement des données tels que Hive, Pig et MapReduce. Bien que ces outils ne nécessitent pas de métadonnées, ils peuvent toujours en bénéficier lorsqu'ils sont présents. Le partage d'un magasin de métadonnées permet également aux utilisateurs de tous les outils de partager des données plus facilement. Un flux de travail où les données sont chargées et normalisées à l'aide de MapReduce ou Pig, puis analysées via Hive est très courant. Si tous ces outils partagent un métastore, les utilisateurs de chaque outil ont un accès immédiat aux données créées avec un autre outil. Aucune étape de chargement ou de transfert n'est requise.

Capturez les états de traitement pour activer le partage

HCatalog peut publier vos résultats d'analyse. Ainsi, l'autre programmeur peut accéder à votre plate-forme d'analyse via «REST». Les schémas que vous publiez sont également utiles aux autres data scientists. Les autres data scientists utilisent vos découvertes comme entrées dans une découverte ultérieure.

Intégrez Hadoop à tout

Hadoop en tant qu'environnement de traitement et de stockage offre de nombreuses opportunités à l'entreprise; cependant, pour favoriser l'adoption, il doit travailler avec et augmenter les outils existants. Hadoop doit servir d'entrée dans votre plate-forme d'analyse ou s'intégrer à vos magasins de données opérationnels et applications Web. L'organisation doit profiter de la valeur de Hadoop sans avoir à apprendre un ensemble d'outils entièrement nouveau. Les services REST ouvrent la plate-forme à l'entreprise avec une API familière et un langage de type SQL. Les systèmes de gestion de données d'entreprise utilisent HCatalog pour s'intégrer plus profondément à la plate-forme Hadoop.

Architecture HCatalog

L'illustration suivante montre l'architecture globale de HCatalog.

HCatalog prend en charge la lecture et l'écriture de fichiers dans tous les formats pour lesquels un SerDe(sérialiseur-désérialiseur) peut être écrit. Par défaut, HCatalog prend en charge les formats de fichier RCFile, CSV, JSON, SequenceFile et ORC. Pour utiliser un format personnalisé, vous devez fournir InputFormat, OutputFormat et SerDe.

HCatalog est construit au-dessus du métastore Hive et intègre le DDL de Hive. HCatalog fournit des interfaces de lecture et d'écriture pour Pig et MapReduce et utilise l'interface de ligne de commande de Hive pour émettre des commandes de définition de données et d'exploration de métadonnées.