Questions d'entretiens chez SAP BODS

Quelle est la différence entre OLTP et un entrepôt de données?

Indexes - Le système OLTP n'a que quelques index tandis que dans un système OLAP, il existe de nombreux index pour l'optimisation des performances.

Joins - Dans un système OLTP, un grand nombre de jointures et de données est normalisé, mais dans un système OLAP, il y a moins de jointures et de normalisation.

Aggregation - Dans un système OLTP, les données ne sont pas agrégées tandis que dans une base de données OLAP, davantage d'agrégations sont utilisées.

Pourquoi avons-nous besoin d'une zone de préparation dans un processus ETL?

Une zone de transit est requise lors du chargement ETL. Il y a plusieurs raisons pour lesquelles une zone de rassemblement est nécessaire -

Comme les systèmes source ne sont disponibles que pendant une période spécifique pour extraire les données et que cette durée est inférieure au temps de chargement total des données, la zone de transit vous permet d'extraire les données du système source et de les conserver dans la zone de stockage avant la fin de la plage horaire.

La zone de préparation est requise lorsque vous souhaitez rassembler des données de plusieurs sources de données. Si vous souhaitez joindre deux ou plusieurs systèmes ensemble. Exemple - Vous ne pourrez pas exécuter une requête SQL joignant deux tables de deux bases de données physiquement différentes.

Le créneau horaire des extractions de données pour différents systèmes varie en fonction du fuseau horaire et des heures de fonctionnement.

Les données extraites des systèmes sources peuvent être utilisées dans plusieurs systèmes d'entrepôt de données, magasins de données d'exploitation, etc.

Pendant ETL, vous pouvez effectuer des transformations complexes qui vous permettent d'effectuer des transformations complexes et nécessitent une zone supplémentaire pour stocker les données.

Qu'est-ce que les services de données SAP?

SAP BO Data Services est un outil ETL utilisé pour l'intégration des données, la qualité des données, le profilage des données et le traitement des données et vous permet d'intégrer, de transformer des données de confiance en un système d'entrepôt de données pour des rapports analytiques.

BO Data Services se compose d'une interface de développement d'interface utilisateur, d'un référentiel de métadonnées, d'une connectivité de données au système source et cible et d'une console de gestion pour la planification des travaux.

Expliquer l'architecture de BODS avec Job Server, Repository Manager et Management Console?

Vous pouvez également diviser l'architecture BODS en couches ci-dessous -

Couche d'application Web, couche de serveur de base de données, couche de service de services de données.

Qu'est-ce qu'un référentiel dans BODS? Quels sont les différents types de référentiels dans BODS?

Le référentiel est utilisé pour stocker les métadonnées des objets utilisés dans BO Data Services. Chaque référentiel doit être enregistré dans la CMC de la Central Management Console et est lié à un ou plusieurs serveurs de travaux chargés d'exécuter les travaux que vous avez créés.

Il existe trois types de référentiels -

Local Repository -

Il est utilisé pour stocker les métadonnées de tous les objets créés dans Data Services Designer comme le projet, les travaux, le flux de données, le flux de travail, etc.

Central Repository -

Il est utilisé pour contrôler la gestion des versions des objets et est utilisé pour le développement multi-usage. Le référentiel central stocke toutes les versions d'un objet d'application afin de vous permettre de passer aux versions précédentes.

Profiler Repository -

Ceci est utilisé pour gérer toutes les métadonnées liées aux tâches du profileur effectuées dans le concepteur SAP BODS. Le référentiel CMS stocke les métadonnées de toutes les tâches effectuées dans CMC sur la plateforme de BI. Information Steward Repository stocke toutes les métadonnées des tâches de profilage et des objets créés dans Information Steward.

Qu'est-ce qu'un objet unique et des objets réutilisables dans les services de données?

Reusable Objects -

La plupart des objets stockés dans le référentiel peuvent être réutilisés. Lorsqu'un objet réutilisable est défini et enregistré dans le référentiel local, vous pouvez réutiliser l'objet en créant des appels à la définition. Chaque objet réutilisable n'a qu'une seule définition et tous les appels à cet objet font référence à cette définition. Maintenant, si la définition d'un objet est modifiée à un endroit, vous modifiez la définition de l'objet à tous les endroits où cet objet apparaît.

Une bibliothèque d'objets est utilisée pour contenir une définition d'objet et lorsqu'un objet est glissé-déposé depuis la bibliothèque, cela signifie qu'une nouvelle référence à un objet existant est créée.

Single Use Objects -

Tous les objets qui sont définis spécifiquement pour un travail ou un flux de données, ils sont appelés objets à usage unique. Transformation spécifique à un exemple utilisée dans n'importe quel chargement de données.

Qu'est-ce qu'un magasin de données dans le concepteur de services de données et quels sont les différents types de magasins de données?

Les magasins de données sont utilisés pour configurer la connexion entre une application et une base de données. Vous pouvez créer directement un magasin de données ou être créé à l'aide d'adaptateurs. Datastore permet à une application / logiciel de lire ou d'écrire des métadonnées à partir d'une application ou d'une base de données et d'écrire dans cette base de données ou cette application.

Vous souhaitez configurer un nouveau référentiel dans BODS. Comment le créez-vous?

Pour créer le référentiel BODS, vous avez besoin d'une base de données installée. Vous pouvez utiliser SQL Server, base de données Oracle, My SQL, SAP HANA, Sybase, etc. Vous devez créer ci-dessous des utilisateurs dans la base de données lors de l'installation de BODS et créer des référentiels. Ces utilisateurs doivent se connecter à différents serveurs CMS Server, Audit Server. Pour créer un nouveau référentiel, vous devez vous connecter au gestionnaire de référentiel.

Qu'est-ce qu'un emploi en temps réel?

Les tâches en temps réel «extraient» les données du corps du message en temps réel reçu et de toutes les sources secondaires utilisées dans la tâche.

Comment gérez-vous les versions des objets dans BODS?

Le référentiel central est utilisé pour contrôler la gestion des versions des objets et est utilisé pour le développement multi-usage. Le référentiel central stocke toutes les versions d'un objet d'application afin de vous permettre de passer aux versions précédentes.

Vous souhaitez générer les rapports de qualité dans le système DS, la validation des données et la documentation. Où pouvez-vous voir cela?

Console de gestion des services de données

Qu'est-ce que la table modèle?

Dans Data Services, vous pouvez créer une table modèle à déplacer vers le système cible qui a la même structure et le même type de données que la table source.

Comment vérifier l'historique d'exécution d'un job ou d'un flux de données?

Console de gestion DS → Historique d’exécution des travaux

Qu'est-ce que SAP Data Services Designer? Quelles sont les principales fonctions ETL pouvant être exécutées dans Designer Tool?

Il s'agit d'un outil de développement utilisé pour créer des objets composés de mappage de données, de transformation et de logique. Il est basé sur l'interface graphique et travaille en tant que concepteur pour les services de données.

Vous pouvez créer divers objets à l'aide de Data Services Designer tels que Projet, Travaux, Flux de travail, Flux de données, mappage, transformations, etc.

Comment vérifiez-vous les objets existants dans le référentiel DS?

Dans la bibliothèque d'objets dans DS Designer

Comment améliorer les performances des flux de données à l'aide de la banque de données en mémoire?

Vous pouvez créer une banque de données en utilisant la mémoire comme type de base de données. Memory Datastore est utilisé pour améliorer les performances des flux de données dans les travaux en temps réel car il stocke les données en mémoire pour faciliter un accès rapide et ne nécessite pas d'aller à la source de données d'origine.

Une banque de données mémoire est utilisée pour stocker les schémas de table mémoire dans le référentiel. Ces tables de mémoire obtiennent des données à partir de tables dans la base de données relationnelle ou à l'aide de fichiers de données hiérarchiques tels que les messages XML et les IDocs.

Les tables de mémoire restent actives jusqu'à ce que le travail s'exécute et les données des tables de mémoire ne peuvent pas être partagées entre différents travaux en temps réel.

Qu'est-ce qu'une banque de données liée? Expliquez avec un exemple?

Il existe différents fournisseurs de bases de données qui ne fournissent qu'un chemin de communication à sens unique d'une base de données à une autre base de données. Ces chemins sont appelés liens de base de données. Dans SQL Server, le serveur lié autorise un chemin de communication à sens unique d'une base de données à une autre.

Example -

Considérez un nom de serveur de base de données local «Produit» stocke le lien de base de données pour accéder aux informations sur le serveur de base de données distant appelé Client. Désormais, les utilisateurs connectés au serveur de base de données distant Le client ne peut pas utiliser le même lien pour accéder aux données du serveur de base de données Produit. L'utilisateur connecté à «Client» doit disposer d'un lien distinct dans le dictionnaire de données du serveur pour accéder aux données du serveur de base de données Produit.

Ce chemin de communication entre deux bases de données est appelé lien de base de données et les banques de données créées entre ces relations de base de données liées sont appelées banques de données liées.

Il est possible de connecter Datastore à un autre Datastore et d'importer un lien de base de données externe en option de Datastore.

Vous souhaitez importer des métadonnées d'application dans le référentiel. Comment pouvez-vous effectuer cela?

Adapter Datastore vous permet d'importer des métadonnées d'application dans le référentiel. Vous pouvez également accéder aux métadonnées des applications et vous pouvez également déplacer des données par lots et en temps réel entre différentes applications et logiciels.

Quels sont les différents types de fichiers pouvant être utilisés comme format de fichier source et cible?

Delimited
Transport SAP
Texte non structuré
Binaire non structuré
Largeur fixe

Vous souhaitez extraire des données d'un classeur Excel. Comment pouvez-vous faire cela?

Vous pouvez utiliser le classeur Microsoft Excel comme source de données à l'aide des formats de fichier dans Data Services. Le livre de travail Excel doit être disponible sur le système de fichiers Windows ou le système de fichiers Unix.

À quoi sert le flux de données dans DS?

Le flux de données est utilisé pour extraire, transformer et charger des données du système source au système cible. Toutes les transformations, le chargement et le formatage se produisent dans le flux de données.

Quels sont les différents objets que vous pouvez ajouter à un flux de données?

Source
Target
Transforms

Quelles sont les différentes propriétés que vous pouvez définir pour un flux de données?

Exécuter une fois
Parallelism
Liens de base de données
Cache

Pourquoi utilisez-vous le flux de travail dans DS?

Les workflows sont utilisés pour déterminer le processus d'exécution des workflows. L'objectif principal du flux de travail est de se préparer à l'exécution des flux de données et de définir l'état du système une fois que l'exécution du flux de données est terminée.

Quels sont les différents objets que vous pouvez ajouter au flux de travail?

Flux de travail
Flux de données
Scripts
Loops
Conditions
Essayez ou attrapez des blocs

Est-il possible qu'un flux de travail s'appelle lui-même dans l'emploi des services Daa?

Oui

Donnez un exemple de flux de travail en production?

Il existe une table de faits que vous souhaitez mettre à jour et vous avez créé un flux de données avec la transformation. Maintenant, si vous souhaitez déplacer les données du système source, vous devez vérifier la dernière modification de la table de faits afin d'extraire uniquement les lignes qui ont été ajoutées après la dernière mise à jour.

Pour ce faire, vous devez créer un script qui détermine la date de la dernière mise à jour, puis le transmettre comme paramètre d'entrée au flux de données.

Vous devez également vérifier si la connexion de données à une table de faits particulière est active ou non. S'il n'est pas actif, vous devez configurer un bloc catch qui envoie automatiquement un e-mail à l'administrateur pour l'informer de ce problème.

À quoi servent les conditionnelles?

Vous pouvez également ajouter des conditions au flux de travail. Cela vous permet d'implémenter la logique If / Else / Then sur les workflows.

Qu'est-ce qu'une transformation dans les services de données?

Les transformations sont utilisées pour manipuler des ensembles de données en tant qu'entrées et créer une ou plusieurs sorties. Il existe différentes transformations qui peuvent être utilisées dans les services de données.

Quelles sont les transformations courantes disponibles dans Data Services?

Intégration de données
Qualité des données
Platform
Merge
Query
Traitement des données textuelles

Quelles sont les différentes transformations sous intégration de données?

Data_Generator
Data_Transfer
Effective_Date
Hierarchy_flattening
Table_Comparision, etc.

À quoi sert la transformation de requête?

Il s'agit de la transformation la plus courante utilisée dans les services de données et vous pouvez effectuer les fonctions ci-dessous -

Filtrage des données à partir des sources
Joindre des données provenant de plusieurs sources
Effectuer des fonctions et des transformations sur les données
Mappage de colonne des schémas d'entrée aux schémas de sortie
Attribution de clés primaires
L'ajout de nouvelles colonnes, schémas et fonctions a abouti aux schémas de sortie
Comme la transformation de requête est la transformation la plus couramment utilisée, un raccourci est fourni pour cette requête dans la palette d'outils.

Qu'est-ce que la transformation de traitement de données textuelles?

Cela vous permet d'extraire les informations spécifiques d'un grand volume de texte. Vous pouvez rechercher des faits et des entités tels que des clients, des produits et des données financières spécifiques à une organisation.

Cette transformation vérifie également la relation entre les entités et permet l'extraction.

Les données extraites à l'aide du traitement de données textuelles peuvent être utilisées dans la Business Intelligence, la création de rapports, les requêtes et l'analyse.

Quelle est la différence entre le traitement des données textuelles et le nettoyage des données?

Le traitement des données de texte est utilisé pour trouver des informations pertinentes à partir de données de texte non structurées, mais le nettoyage des données est utilisé pour la normalisation et le nettoyage des données structurées.

Qu'est-ce qu'un travail en temps réel dans les services de données?

Vous pouvez créer des tâches en temps réel pour traiter les messages en temps réel dans le concepteur de services de données. Comme un travail par lots, le travail en temps réel extrait les données, les transforme et les charge.

Chaque travail en temps réel peut extraire des données d'un seul message ou vous pouvez également extraire des données d'autres sources telles que des tables ou des fichiers.

Expliquez la différence entre le travail en temps réel et le travail par lots dans Data Services?

La transformation comme les branches et la logique de contrôle sont utilisées plus souvent dans les tâches en temps réel, contrairement aux tâches par lots dans Designer.

Les jobs en temps réel ne sont pas exécutés en réponse à une planification ou à un déclencheur interne contrairement aux jobs batch.

Qu'est-ce qu'un flux de données intégré?

Le flux de données intégré est connu sous le nom de flux de données qui sont appelés à partir d'un autre flux de données dans la conception. Le flux de données intégré peut contenir plusieurs nombres de sources et de cibles, mais une seule entrée ou sortie transmet les données au flux de données principal.

Quels sont les différents types de flux de données embarqués?

One Input - Le flux de données intégré est ajouté à la fin du flux de données.

One Output - Le flux de données intégré est ajouté au début d'un flux de données.

No input or output - Répliquez un flux de données existant.

Quelles sont les variables locales et globales dans l'emploi des services de données?

Les variables locales dans les services de données sont limitées à l'objet dans lequel elles sont créées.

Les variables globales sont limitées aux emplois dans lesquels elles sont créées. À l'aide de variables globales, vous pouvez modifier les valeurs des variables globales par défaut au moment de l'exécution.

En quoi les variables sont-elles des paramètres de formulaire différents dans un travail Data Services?

Les expressions utilisées dans le flux de travail et le flux de données sont appelées paramètres.

Toutes les variables et paramètres du flux de travail et des flux de données sont affichés dans la fenêtre des variables et des paramètres.

Quels sont les différents mécanismes de récupération qui peuvent être utilisés dans les travaux ayant échoué?

Récupération automatique - Cela vous permet d'exécuter des travaux infructueux en mode de récupération.

Récupération manuelle - Cela vous permet de réexécuter les travaux sans tenir compte de la réexécution partielle la fois précédente.

À quoi sert le profilage des données?

Data Services Designer fournit une fonctionnalité de profilage des données pour garantir et améliorer la qualité et la structure des données source. Data Profiler vous permet de -

Trouvez les anomalies dans les données sources, la validation et les actions correctives et la qualité des données sources.

La structure et la relation des données sources pour une meilleure exécution des travaux, des flux de travail et des flux de données.

Le contenu du système source et cible pour déterminer que votre travail renvoie le résultat comme prévu.

Expliquer les différentes techniques d'optimisation des performances dans BODS?

Les performances d'un travail ETL dépendent du système sur lequel vous utilisez le logiciel Data Services, du nombre de mouvements, etc. Il existe divers autres facteurs qui contribuent à la performance d'une tâche ETL -

Base de données source
Système d'exploitation source
Base de données cible
Système d'exploitation cible
Network
Système d'exploitation Job Server
Base de données du référentiel BODs

Qu'entendez-vous par développement multi-utilisateur dans BODS? Comment gérez-vous le développement multi-utilisateur?

SAP BO Data Services prend en charge le développement multi-utilisateur où chaque utilisateur peut travailler sur l'application dans son propre référentiel local. Chaque équipe utilise un référentiel central pour enregistrer la copie principale d'une application et toutes les versions des objets de l'application.

Vous souhaitez effectuer une migration multi-utilisateur dans SAP BODS. Comment pouvez-vous effectuer cela?

Dans SAP Data Services, la migration de travail peut être appliquée à différents niveaux: niveau de l'application, niveau du référentiel, niveau de mise à niveau.

Pour copier le contenu d'un référentiel central vers un autre référentiel central, vous ne pouvez pas le faire directement et vous devez utiliser le référentiel local.

La première consiste à obtenir la dernière version de tous les objets du référentiel central au référentiel local. Activez le référentiel central dans lequel vous souhaitez copier le contenu.

Ajoutez tous les objets que vous souhaitez copier du référentiel local au référentiel central.

Supposons que vous ayez mis à jour la version du logiciel Data Services? Est-il nécessaire de mettre à jour la version du référentiel?

Si vous mettez à jour la version de SAP Data Services, il est nécessaire de mettre à jour la version du référentiel. Les points ci-dessous doivent être pris en compte lors de la migration d'un référentiel central vers la version de mise à niveau -

Point 1

Prenez la sauvegarde du référentiel central de toutes les tables et objets.

Point 2

Pour conserver la version des objets dans les services de données, maintenez un référentiel central pour chaque version. Créez un nouvel historique central avec la nouvelle version du logiciel Data Services et copiez tous les objets dans ce référentiel.

Point 3

Il est toujours recommandé si vous installez une nouvelle version de Data Services, vous devez mettre à niveau votre référentiel central vers une nouvelle version d'objets.

Point 4

La mise à niveau de votre référentiel local vers la même version qu'une version différente du référentiel central et local peut ne pas fonctionner en même temps.

Point 5

Avant de migrer le référentiel central, archivez tous les objets. Comme vous ne mettez pas à niveau le référentiel central et local simultanément, il est donc nécessaire d'archiver tous les objets. Comme une fois que votre référentiel central a été mis à niveau vers la nouvelle version, vous ne pourrez pas archiver les objets du référentiel local qui possède une ancienne version de Data Services.

Qu'est-ce qui change lentement de dimension?

Les SCD sont des dimensions dont les données changent avec le temps.

Comment gérez-vous des dimensions qui changent lentement? Quels sont les champs requis dans la gestion des différents types de SCD?

SCD Type 1 Pas de conservation de l'histoire

Conséquence naturelle de la normalisation

SCD Type 2 Préservation de tout l'historique et des nouvelles lignes

De nouvelles lignes sont générées pour des changements importants

Vous devez utiliser une clé unique

De nouveaux champs sont générés pour stocker les données d'historique

Vous devez gérer un champ Effective_Date.

SCD Type 3 Préservation limitée de l'histoire

Dans ce cas, seuls deux états des données sont conservés - actuel et ancien

Le format de fichier dans Data Services est-il du type d'un magasin de données?

Non, le format de fichier n'est pas un type de banque de données.

Flux de données et flux de travail

DW et ETL

Développement multi-utilisateurs

Services de données SAP BO

Administration SAP BODS

Banques de données et formats SAP BODS

Référentiel SAP BODS

Transformations SAP BODS

Tutoriel SAP BODS

Ressources utiles SAP BODS