Indexes - Le système OLTP n'a que quelques index tandis que dans un système OLAP, il existe de nombreux index pour l'optimisation des performances.

Joins - Dans un système OLTP, un grand nombre de jointures et de données est normalisé, mais dans un système OLAP, il y a moins de jointures et de normalisation.

Aggregation - Dans un système OLTP, les données ne sont pas agrégées tandis que dans une base de données OLAP, davantage d'agrégations sont utilisées.

Une zone de transit est requise lors du chargement ETL. Il y a plusieurs raisons pour lesquelles une zone de rassemblement est nécessaire -

Comme les systèmes source ne sont disponibles que pendant une période spécifique pour extraire les données et que cette durée est inférieure au temps de chargement total des données, la zone de transit vous permet d'extraire les données du système source et de les conserver dans la zone de stockage avant la fin de la plage horaire.

La zone de préparation est requise lorsque vous souhaitez rassembler des données de plusieurs sources de données. Si vous souhaitez joindre deux ou plusieurs systèmes ensemble. Exemple - Vous ne pourrez pas exécuter une requête SQL joignant deux tables de deux bases de données physiquement différentes.

Le créneau horaire des extractions de données pour différents systèmes varie en fonction du fuseau horaire et des heures de fonctionnement.

Les données extraites des systèmes sources peuvent être utilisées dans plusieurs systèmes d'entrepôt de données, magasins de données d'exploitation, etc.

Pendant ETL, vous pouvez effectuer des transformations complexes qui vous permettent d'effectuer des transformations complexes et nécessitent une zone supplémentaire pour stocker les données.

SAP BO Data Services est un outil ETL utilisé pour l'intégration des données, la qualité des données, le profilage des données et le traitement des données et vous permet d'intégrer, de transformer des données de confiance en un système d'entrepôt de données pour des rapports analytiques.

BO Data Services se compose d'une interface de développement d'interface utilisateur, d'un référentiel de métadonnées, d'une connectivité de données au système source et cible et d'une console de gestion pour la planification des travaux.

Vous pouvez également diviser l'architecture BODS en couches ci-dessous -

Couche d'application Web, couche de serveur de base de données, couche de service de services de données.

Le référentiel est utilisé pour stocker les métadonnées des objets utilisés dans BO Data Services. Chaque référentiel doit être enregistré dans la CMC de la Central Management Console et est lié à un ou plusieurs serveurs de travaux chargés d'exécuter les travaux que vous avez créés.

Il existe trois types de référentiels -

Local Repository -

Il est utilisé pour stocker les métadonnées de tous les objets créés dans Data Services Designer comme le projet, les travaux, le flux de données, le flux de travail, etc.

Central Repository -

Il est utilisé pour contrôler la gestion des versions des objets et est utilisé pour le développement multi-usage. Le référentiel central stocke toutes les versions d'un objet d'application afin de vous permettre de passer aux versions précédentes.

Profiler Repository -

Ceci est utilisé pour gérer toutes les métadonnées liées aux tâches du profileur effectuées dans le concepteur SAP BODS. Le référentiel CMS stocke les métadonnées de toutes les tâches effectuées dans CMC sur la plateforme de BI. Information Steward Repository stocke toutes les métadonnées des tâches de profilage et des objets créés dans Information Steward.

Reusable Objects -

La plupart des objets stockés dans le référentiel peuvent être réutilisés. Lorsqu'un objet réutilisable est défini et enregistré dans le référentiel local, vous pouvez réutiliser l'objet en créant des appels à la définition. Chaque objet réutilisable n'a qu'une seule définition et tous les appels à cet objet font référence à cette définition. Maintenant, si la définition d'un objet est modifiée à un endroit, vous modifiez la définition de l'objet à tous les endroits où cet objet apparaît.

Une bibliothèque d'objets est utilisée pour contenir une définition d'objet et lorsqu'un objet est glissé-déposé depuis la bibliothèque, cela signifie qu'une nouvelle référence à un objet existant est créée.

Single Use Objects -

Tous les objets qui sont définis spécifiquement pour un travail ou un flux de données, ils sont appelés objets à usage unique. Transformation spécifique à un exemple utilisée dans n'importe quel chargement de données.

Les magasins de données sont utilisés pour configurer la connexion entre une application et une base de données. Vous pouvez créer directement un magasin de données ou être créé à l'aide d'adaptateurs. Datastore permet à une application / logiciel de lire ou d'écrire des métadonnées à partir d'une application ou d'une base de données et d'écrire dans cette base de données ou cette application.

Pour créer le référentiel BODS, vous avez besoin d'une base de données installée. Vous pouvez utiliser SQL Server, base de données Oracle, My SQL, SAP HANA, Sybase, etc. Vous devez créer ci-dessous des utilisateurs dans la base de données lors de l'installation de BODS et créer des référentiels. Ces utilisateurs doivent se connecter à différents serveurs CMS Server, Audit Server. Pour créer un nouveau référentiel, vous devez vous connecter au gestionnaire de référentiel.

Les tâches en temps réel «extraient» les données du corps du message en temps réel reçu et de toutes les sources secondaires utilisées dans la tâche.

Le référentiel central est utilisé pour contrôler la gestion des versions des objets et est utilisé pour le développement multi-usage. Le référentiel central stocke toutes les versions d'un objet d'application afin de vous permettre de passer aux versions précédentes.

Console de gestion des services de données

Dans Data Services, vous pouvez créer une table modèle à déplacer vers le système cible qui a la même structure et le même type de données que la table source.

Console de gestion DS → Historique d’exécution des travaux

Il s'agit d'un outil de développement utilisé pour créer des objets composés de mappage de données, de transformation et de logique. Il est basé sur l'interface graphique et travaille en tant que concepteur pour les services de données.

Vous pouvez créer divers objets à l'aide de Data Services Designer tels que Projet, Travaux, Flux de travail, Flux de données, mappage, transformations, etc.

Dans la bibliothèque d'objets dans DS Designer

Vous pouvez créer une banque de données en utilisant la mémoire comme type de base de données. Memory Datastore est utilisé pour améliorer les performances des flux de données dans les travaux en temps réel car il stocke les données en mémoire pour faciliter un accès rapide et ne nécessite pas d'aller à la source de données d'origine.

Une banque de données mémoire est utilisée pour stocker les schémas de table mémoire dans le référentiel. Ces tables de mémoire obtiennent des données à partir de tables dans la base de données relationnelle ou à l'aide de fichiers de données hiérarchiques tels que les messages XML et les IDocs.

Les tables de mémoire restent actives jusqu'à ce que le travail s'exécute et les données des tables de mémoire ne peuvent pas être partagées entre différents travaux en temps réel.

Il existe différents fournisseurs de bases de données qui ne fournissent qu'un chemin de communication à sens unique d'une base de données à une autre base de données. Ces chemins sont appelés liens de base de données. Dans SQL Server, le serveur lié autorise un chemin de communication à sens unique d'une base de données à une autre.

Example -

Considérez un nom de serveur de base de données local «Produit» stocke le lien de base de données pour accéder aux informations sur le serveur de base de données distant appelé Client. Désormais, les utilisateurs connectés au serveur de base de données distant Le client ne peut pas utiliser le même lien pour accéder aux données du serveur de base de données Produit. L'utilisateur connecté à «Client» doit disposer d'un lien distinct dans le dictionnaire de données du serveur pour accéder aux données du serveur de base de données Produit.

Ce chemin de communication entre deux bases de données est appelé lien de base de données et les banques de données créées entre ces relations de base de données liées sont appelées banques de données liées.

Il est possible de connecter Datastore à un autre Datastore et d'importer un lien de base de données externe en option de Datastore.

Adapter Datastore vous permet d'importer des métadonnées d'application dans le référentiel. Vous pouvez également accéder aux métadonnées des applications et vous pouvez également déplacer des données par lots et en temps réel entre différentes applications et logiciels.

  • Delimited
  • Transport SAP
  • Texte non structuré
  • Binaire non structuré
  • Largeur fixe

Vous pouvez utiliser le classeur Microsoft Excel comme source de données à l'aide des formats de fichier dans Data Services. Le livre de travail Excel doit être disponible sur le système de fichiers Windows ou le système de fichiers Unix.

Le flux de données est utilisé pour extraire, transformer et charger des données du système source au système cible. Toutes les transformations, le chargement et le formatage se produisent dans le flux de données.

  • Source
  • Target
  • Transforms
  • Exécuter une fois
  • Parallelism
  • Liens de base de données
  • Cache

Les workflows sont utilisés pour déterminer le processus d'exécution des workflows. L'objectif principal du flux de travail est de se préparer à l'exécution des flux de données et de définir l'état du système une fois que l'exécution du flux de données est terminée.

  • Flux de travail
  • Flux de données
  • Scripts
  • Loops
  • Conditions
  • Essayez ou attrapez des blocs

Oui

Il existe une table de faits que vous souhaitez mettre à jour et vous avez créé un flux de données avec la transformation. Maintenant, si vous souhaitez déplacer les données du système source, vous devez vérifier la dernière modification de la table de faits afin d'extraire uniquement les lignes qui ont été ajoutées après la dernière mise à jour.

Pour ce faire, vous devez créer un script qui détermine la date de la dernière mise à jour, puis le transmettre comme paramètre d'entrée au flux de données.

Vous devez également vérifier si la connexion de données à une table de faits particulière est active ou non. S'il n'est pas actif, vous devez configurer un bloc catch qui envoie automatiquement un e-mail à l'administrateur pour l'informer de ce problème.

Vous pouvez également ajouter des conditions au flux de travail. Cela vous permet d'implémenter la logique If / Else / Then sur les workflows.

Les transformations sont utilisées pour manipuler des ensembles de données en tant qu'entrées et créer une ou plusieurs sorties. Il existe différentes transformations qui peuvent être utilisées dans les services de données.

  • Intégration de données
  • Qualité des données
  • Platform
  • Merge
  • Query
  • Traitement des données textuelles
  • Data_Generator
  • Data_Transfer
  • Effective_Date
  • Hierarchy_flattening
  • Table_Comparision, etc.

Il s'agit de la transformation la plus courante utilisée dans les services de données et vous pouvez effectuer les fonctions ci-dessous -

  • Filtrage des données à partir des sources

  • Joindre des données provenant de plusieurs sources

  • Effectuer des fonctions et des transformations sur les données

  • Mappage de colonne des schémas d'entrée aux schémas de sortie

  • Attribution de clés primaires

  • L'ajout de nouvelles colonnes, schémas et fonctions a abouti aux schémas de sortie

  • Comme la transformation de requête est la transformation la plus couramment utilisée, un raccourci est fourni pour cette requête dans la palette d'outils.

Cela vous permet d'extraire les informations spécifiques d'un grand volume de texte. Vous pouvez rechercher des faits et des entités tels que des clients, des produits et des données financières spécifiques à une organisation.

Cette transformation vérifie également la relation entre les entités et permet l'extraction.

Les données extraites à l'aide du traitement de données textuelles peuvent être utilisées dans la Business Intelligence, la création de rapports, les requêtes et l'analyse.

Le traitement des données de texte est utilisé pour trouver des informations pertinentes à partir de données de texte non structurées, mais le nettoyage des données est utilisé pour la normalisation et le nettoyage des données structurées.

Vous pouvez créer des tâches en temps réel pour traiter les messages en temps réel dans le concepteur de services de données. Comme un travail par lots, le travail en temps réel extrait les données, les transforme et les charge.

Chaque travail en temps réel peut extraire des données d'un seul message ou vous pouvez également extraire des données d'autres sources telles que des tables ou des fichiers.

La transformation comme les branches et la logique de contrôle sont utilisées plus souvent dans les tâches en temps réel, contrairement aux tâches par lots dans Designer.

Les jobs en temps réel ne sont pas exécutés en réponse à une planification ou à un déclencheur interne contrairement aux jobs batch.

Le flux de données intégré est connu sous le nom de flux de données qui sont appelés à partir d'un autre flux de données dans la conception. Le flux de données intégré peut contenir plusieurs nombres de sources et de cibles, mais une seule entrée ou sortie transmet les données au flux de données principal.

One Input - Le flux de données intégré est ajouté à la fin du flux de données.

One Output - Le flux de données intégré est ajouté au début d'un flux de données.

No input or output - Répliquez un flux de données existant.

Les variables locales dans les services de données sont limitées à l'objet dans lequel elles sont créées.

Les variables globales sont limitées aux emplois dans lesquels elles sont créées. À l'aide de variables globales, vous pouvez modifier les valeurs des variables globales par défaut au moment de l'exécution.

Les expressions utilisées dans le flux de travail et le flux de données sont appelées paramètres.

Toutes les variables et paramètres du flux de travail et des flux de données sont affichés dans la fenêtre des variables et des paramètres.

Récupération automatique - Cela vous permet d'exécuter des travaux infructueux en mode de récupération.

Récupération manuelle - Cela vous permet de réexécuter les travaux sans tenir compte de la réexécution partielle la fois précédente.

Data Services Designer fournit une fonctionnalité de profilage des données pour garantir et améliorer la qualité et la structure des données source. Data Profiler vous permet de -

Trouvez les anomalies dans les données sources, la validation et les actions correctives et la qualité des données sources.

La structure et la relation des données sources pour une meilleure exécution des travaux, des flux de travail et des flux de données.

Le contenu du système source et cible pour déterminer que votre travail renvoie le résultat comme prévu.

Les performances d'un travail ETL dépendent du système sur lequel vous utilisez le logiciel Data Services, du nombre de mouvements, etc. Il existe divers autres facteurs qui contribuent à la performance d'une tâche ETL -

  • Base de données source
  • Système d'exploitation source
  • Base de données cible
  • Système d'exploitation cible
  • Network
  • Système d'exploitation Job Server
  • Base de données du référentiel BODs

SAP BO Data Services prend en charge le développement multi-utilisateur où chaque utilisateur peut travailler sur l'application dans son propre référentiel local. Chaque équipe utilise un référentiel central pour enregistrer la copie principale d'une application et toutes les versions des objets de l'application.

Dans SAP Data Services, la migration de travail peut être appliquée à différents niveaux: niveau de l'application, niveau du référentiel, niveau de mise à niveau.

Pour copier le contenu d'un référentiel central vers un autre référentiel central, vous ne pouvez pas le faire directement et vous devez utiliser le référentiel local.

La première consiste à obtenir la dernière version de tous les objets du référentiel central au référentiel local. Activez le référentiel central dans lequel vous souhaitez copier le contenu.

Ajoutez tous les objets que vous souhaitez copier du référentiel local au référentiel central.

Si vous mettez à jour la version de SAP Data Services, il est nécessaire de mettre à jour la version du référentiel. Les points ci-dessous doivent être pris en compte lors de la migration d'un référentiel central vers la version de mise à niveau -

Point 1

Prenez la sauvegarde du référentiel central de toutes les tables et objets.

Point 2

Pour conserver la version des objets dans les services de données, maintenez un référentiel central pour chaque version. Créez un nouvel historique central avec la nouvelle version du logiciel Data Services et copiez tous les objets dans ce référentiel.

Point 3

Il est toujours recommandé si vous installez une nouvelle version de Data Services, vous devez mettre à niveau votre référentiel central vers une nouvelle version d'objets.

Point 4

La mise à niveau de votre référentiel local vers la même version qu'une version différente du référentiel central et local peut ne pas fonctionner en même temps.

Point 5

Avant de migrer le référentiel central, archivez tous les objets. Comme vous ne mettez pas à niveau le référentiel central et local simultanément, il est donc nécessaire d'archiver tous les objets. Comme une fois que votre référentiel central a été mis à niveau vers la nouvelle version, vous ne pourrez pas archiver les objets du référentiel local qui possède une ancienne version de Data Services.

Les SCD sont des dimensions dont les données changent avec le temps.

SCD Type 1 Pas de conservation de l'histoire

Conséquence naturelle de la normalisation

SCD Type 2 Préservation de tout l'historique et des nouvelles lignes

De nouvelles lignes sont générées pour des changements importants

Vous devez utiliser une clé unique

De nouveaux champs sont générés pour stocker les données d'historique

Vous devez gérer un champ Effective_Date.

SCD Type 3 Préservation limitée de l'histoire

Dans ce cas, seuls deux états des données sont conservés - actuel et ancien

Non, le format de fichier n'est pas un type de banque de données.