Entreposage de données - Processus de livraison

Un entrepôt de données n'est jamais statique; il évolue à mesure que l'entreprise se développe. Au fur et à mesure que l'entreprise évolue, ses exigences ne cessent de changer et par conséquent, un entrepôt de données doit être conçu pour s'adapter à ces changements. Par conséquent, un système d'entrepôt de données doit être flexible.

Idéalement, il devrait y avoir un processus de livraison pour fournir un entrepôt de données. Cependant, les projets d'entrepôt de données souffrent normalement de divers problèmes qui rendent difficile l'exécution des tâches et des livrables de la manière stricte et ordonnée exigée par la méthode en cascade. La plupart du temps, les exigences ne sont pas complètement comprises. Les architectures, les conceptions et les composants de construction ne peuvent être achevés qu'après avoir rassemblé et étudié toutes les exigences.

méthode de livraison

La méthode de livraison est une variante de l'approche de développement d'applications conjointes adoptée pour la livraison d'un entrepôt de données. Nous avons organisé le processus de livraison de l'entrepôt de données pour minimiser les risques. L'approche dont nous allons discuter ici ne réduit pas les délais de livraison globaux, mais garantit que les avantages commerciaux sont fournis progressivement tout au long du processus de développement.

Note - Le processus de livraison est divisé en phases pour réduire le risque de projet et de livraison.

Le diagramme suivant explique les étapes du processus de livraison -

Stratégie informatique

Les entrepôts de données sont des investissements stratégiques qui nécessitent un processus métier pour générer des avantages. Une stratégie informatique est nécessaire pour obtenir et conserver le financement du projet.

Business case

L'objectif de l'analyse de rentabilisation est d'estimer les avantages commerciaux qui devraient découler de l'utilisation d'un entrepôt de données. Ces avantages peuvent ne pas être quantifiables, mais les avantages prévus doivent être clairement énoncés. Si un entrepôt de données n'a pas d'analyse de rentabilisation claire, l'entreprise a tendance à souffrir de problèmes de crédibilité à un certain stade du processus de livraison. Par conséquent, dans les projets d'entrepôt de données, nous devons comprendre l'analyse de rentabilisation de l'investissement.

Éducation et prototypage

Les organisations expérimentent le concept d'analyse des données et se renseignent sur la valeur d'un entrepôt de données avant de se décider pour une solution. Ceci est résolu par le prototypage. Cela aide à comprendre la faisabilité et les avantages d'un entrepôt de données. L'activité de prototypage à petite échelle peut promouvoir le processus éducatif tant que -

  • Le prototype répond à un objectif technique défini.

  • Le prototype peut être jeté une fois que le concept de faisabilité a été démontré.

  • L'activité concerne un petit sous-ensemble du contenu éventuel des données de l'entrepôt de données.

  • L'échelle de temps des activités n'est pas critique.

Les points suivants doivent être gardés à l'esprit pour produire une version anticipée et offrir des avantages commerciaux.

  • Identifiez l'architecture qui est capable d'évoluer.

  • Concentrez-vous sur les exigences commerciales et les phases du plan technique.

  • Limitez la portée de la première phase de construction au minimum qui offre des avantages commerciaux.

  • Comprendre les exigences à court et moyen terme de l'entrepôt de données.

Besoins de l'entreprise

Pour fournir des livrables de qualité, nous devons nous assurer que les exigences globales sont comprises. Si nous comprenons les exigences commerciales à court et à moyen terme, nous pouvons concevoir une solution pour répondre aux exigences à court terme. La solution à court terme peut ensuite être transformée en une solution complète.

Les aspects suivants sont déterminés à cette étape -

  • La règle métier à appliquer aux données.

  • Le modèle logique des informations dans l'entrepôt de données.

  • Les profils de requête pour l'exigence immédiate.

  • Les systèmes sources qui fournissent ces données.

Plan technique

Cette phase doit fournir une architecture globale satisfaisant les exigences à long terme. Cette phase fournit également les composants qui doivent être mis en œuvre à court terme pour en tirer un avantage commercial. Le plan directeur doit identifier les éléments suivants.

  • L'architecture globale du système.
  • La politique de conservation des données.
  • La stratégie de sauvegarde et de restauration.
  • L'architecture du serveur et du data mart.
  • Le plan de capacité pour le matériel et l'infrastructure.
  • Les composants de la conception de bases de données.

Construire la version

Dans cette étape, le premier livrable de production est produit. Ce livrable de production est le plus petit composant d'un entrepôt de données. Ce plus petit composant ajoute un avantage commercial.

Charge historique

Il s'agit de la phase où le reste de l'historique requis est chargé dans l'entrepôt de données. Dans cette phase, nous n'ajoutons pas de nouvelles entités, mais des tables physiques supplémentaires seraient probablement créées pour stocker des volumes de données accrus.

Prenons un exemple. Supposons que la phase de version de construction ait fourni un entrepôt de données d'analyse des ventes au détail avec 2 mois d'historique. Ces informations permettront à l'utilisateur d'analyser uniquement les tendances récentes et de résoudre les problèmes à court terme. Dans ce cas, l'utilisateur ne peut pas identifier les tendances annuelles et saisonnières. Pour l'aider à le faire, l'historique des ventes des 2 dernières années pourrait être chargé à partir des archives. Maintenant, les données de 40 Go sont étendues à 400 Go.

Note - Les procédures de sauvegarde et de restauration peuvent devenir complexes, il est donc recommandé d'effectuer cette activité dans une phase distincte.

Requête ad hoc

Dans cette phase, nous configurons un outil de requête ad hoc qui est utilisé pour faire fonctionner un entrepôt de données. Ces outils peuvent générer la requête de base de données.

Note - Il est recommandé de ne pas utiliser ces outils d'accès lorsque la base de données est en cours de modification substantielle.

Automatisation

Dans cette phase, les processus de gestion opérationnelle sont entièrement automatisés. Ceux-ci comprendraient -

  • Transformer les données sous une forme adaptée à l'analyse.

  • Surveillance des profils de requête et détermination des agrégations appropriées pour maintenir les performances du système.

  • Extraction et chargement de données à partir de différents systèmes sources.

  • Génération d'agrégations à partir de définitions prédéfinies dans l'entrepôt de données.

  • Sauvegarde, restauration et archivage des données.

Extension de la portée

Dans cette phase, l'entrepôt de données est étendu pour répondre à un nouvel ensemble d'exigences métier. La portée peut être étendue de deux manières -

  • En chargeant des données supplémentaires dans l'entrepôt de données.

  • En introduisant de nouveaux data marts utilisant les informations existantes.

Note - Cette phase doit être réalisée séparément, car elle implique des efforts et une complexité considérables.

Évolution des exigences

Du point de vue du processus de livraison, les exigences sont toujours variables. Ils ne sont pas statiques. Le processus de livraison doit prendre en charge cela et permettre à ces changements d'être reflétés dans le système.

Ce problème est résolu en concevant l'entrepôt de données autour de l'utilisation des données dans les processus métier, par opposition aux exigences de données des requêtes existantes.

L'architecture est conçue pour changer et évoluer pour correspondre aux besoins de l'entreprise, le processus fonctionne comme un processus de développement de pseudo-application, où les nouvelles exigences sont continuellement introduites dans les activités de développement et les livrables partiels sont produits. Ces livrables partiels sont renvoyés aux utilisateurs, puis retravaillés, garantissant que le système global est continuellement mis à jour pour répondre aux besoins de l'entreprise.