Entreposage de données - Gestionnaires de processus

Les gestionnaires de processus sont chargés de maintenir le flux de données à la fois dans et hors de l'entrepôt de données. Il existe trois types différents de gestionnaires de processus -

  • Gestionnaire de charge
  • Directeur d'entrepôt
  • Gestionnaire de requêtes

Gestionnaire de charge de l'entrepôt de données

Le gestionnaire de charge effectue les opérations nécessaires pour extraire et charger les données dans la base de données. La taille et la complexité d'un gestionnaire de charge varient entre les solutions spécifiques d'un entrepôt de données à l'autre.

Architecture du gestionnaire de charge

Le gestionnaire de charge exécute les fonctions suivantes -

  • Extraire les données du système source.

  • Chargez rapidement les données extraites dans le magasin de données temporaire.

  • Effectuez des transformations simples en structure similaire à celle de l'entrepôt de données.

Extraire les données de la source

Les données sont extraites des bases de données opérationnelles ou des fournisseurs d'informations externes. Les passerelles sont les programmes d'application utilisés pour extraire les données. Il est pris en charge par le SGBD sous-jacent et permet au programme client de générer du SQL à exécuter sur un serveur. Open Database Connection (ODBC) et Java Database Connection (JDBC) sont des exemples de passerelle.

Charge rapide

  • Afin de minimiser la fenêtre de chargement total, les données doivent être chargées dans l'entrepôt le plus rapidement possible.

  • Les transformations affectent la vitesse de traitement des données.

  • Il est plus efficace de charger les données dans une base de données relationnelle avant d'appliquer les transformations et les vérifications.

  • La technologie de passerelle n'est pas adaptée, car elle est inefficace lorsque de gros volumes de données sont impliqués.

Transformations simples

Lors du chargement, il peut être nécessaire d'effectuer des transformations simples. Après avoir effectué des transformations simples, nous pouvons effectuer des vérifications complexes. Supposons que nous chargeons la transaction de vente EPOS, nous devons effectuer les vérifications suivantes -

  • Supprimez toutes les colonnes qui ne sont pas requises dans l'entrepôt.
  • Convertissez toutes les valeurs en types de données requis.

Directeur d'entrepôt

Le responsable de l'entrepôt est responsable du processus de gestion de l'entrepôt. Il se compose d'un logiciel système tiers, de programmes C et de scripts shell. La taille et la complexité d'un responsable d'entrepôt varient selon les solutions spécifiques.

Architecture du gestionnaire d'entrepôt

Un responsable d'entrepôt comprend les éléments suivants:

  • Le processus de contrôle
  • Procédures stockées ou C avec SQL
  • Outil de sauvegarde / restauration
  • Scripts SQL

Fonctions du gestionnaire d'entrepôt

Un responsable d'entrepôt remplit les fonctions suivantes -

  • Analyse les données pour effectuer des contrôles de cohérence et d'intégrité référentielle.

  • Crée des index, des vues d'entreprise, des vues de partition par rapport aux données de base.

  • Génère de nouvelles agrégations et met à jour les agrégations existantes.

  • Génère des normalisations.

  • Transforme et fusionne les données source du magasin temporaire dans l'entrepôt de données publié.

  • Sauvegarde les données dans l'entrepôt de données.

  • Archive les données qui ont atteint la fin de leur vie capturée.

Note - Un gestionnaire d'entrepôt analyse les profils de requête pour déterminer si l'index et les agrégations sont appropriés.

Gestionnaire de requêtes

Le gestionnaire de requêtes est chargé de diriger les requêtes vers les tables appropriées. En dirigeant les requêtes vers les tables appropriées, il accélère le processus de requête et de réponse. De plus, le gestionnaire de requêtes est responsable de la planification de l'exécution des requêtes envoyées par l'utilisateur.

Architecture du gestionnaire de requêtes

Un gestionnaire de requêtes comprend les composants suivants -

  • Redirection des requêtes via l'outil C ou le SGBDR
  • Procédures stockées
  • Outil de gestion des requêtes
  • Planification des requêtes via l'outil C ou le SGBDR
  • Planification des requêtes via un logiciel tiers

Fonctions du gestionnaire de requêtes

  • Il présente les données à l'utilisateur sous une forme qu'il comprend.

  • Il planifie l'exécution des requêtes envoyées par l'utilisateur final.

  • Il stocke les profils de requête pour permettre au responsable de l'entrepôt de déterminer quels index et agrégations sont appropriés.