SAP HANA - Profilage des données SQL

La tâche de profilage de données SQL est utilisée pour comprendre et analyser les données de plusieurs sources de données. Il est utilisé pour supprimer les données incorrectes et incomplètes et éviter les problèmes de qualité des données avant leur chargement dans l'entrepôt de données.

Voici les avantages des tâches de profilage de données SQL -

  • Cela aide à analyser les données sources plus efficacement.

  • Cela aide à mieux comprendre les données sources.

  • Il supprime les données incorrectes et incomplètes et améliore la qualité des données avant leur chargement dans l'entrepôt de données.

  • Il est utilisé avec la tâche d'extraction, de transformation et de chargement.

La tâche de profilage des données vérifie les profils qui aident à comprendre une source de données et à identifier les problèmes dans les données à résoudre.

Vous pouvez utiliser la tâche de profilage des données dans un package Integration Services pour profiler les données stockées dans SQL Server et pour identifier les problèmes potentiels de qualité des données.

Note - La tâche de profilage des données fonctionne uniquement avec les sources de données SQL Server et ne prend en charge aucune autre source de données basée sur des fichiers ou tierce.

Exigence d'accès

Pour exécuter un package contenant une tâche de profilage de données, le compte d'utilisateur doit disposer des autorisations de lecture / écriture avec les autorisations CREATE TABLE sur la base de données tempdb.

Visionneuse du profileur de données

La visionneuse de profil de données est utilisée pour examiner la sortie du profileur. La visionneuse de profil de données prend également en charge la fonction d'exploration pour vous aider à comprendre les problèmes de qualité des données identifiés dans la sortie du profil. Cette fonctionnalité d'analyse descendante envoie des requêtes en direct à la source de données d'origine.

Configuration et révision des tâches de profilage des données

Configuration de la tâche de profilage des données

Cela implique l'exécution d'un package contenant une tâche de profilage de données pour calculer les profils. La tâche enregistre la sortie au format XML dans un fichier ou une variable de package.

Examen des profils

Pour afficher les profils de données, envoyez la sortie vers un fichier, puis utilisez la visionneuse de profil de données. Cette visionneuse est un utilitaire autonome qui affiche la sortie du profil au format récapitulatif et détaillé avec une fonction d'exploration en option.

Profilage des données - Options de configuration

La tâche de profilage des données a ces options de configuration pratiques -

Colonnes génériques

Lors de la configuration d'une demande de profil, la tâche accepte le caractère générique «*» à la place d'un nom de colonne. Cela simplifie la configuration et facilite la découverte des caractéristiques des données inconnues. Lorsque la tâche s'exécute, la tâche profile chaque colonne qui a un type de données approprié.

Profil rapide

Vous pouvez sélectionner Profil rapide pour configurer rapidement la tâche. Un profil rapide profile une table ou une vue en utilisant tous les profils et paramètres par défaut.

La tâche de profilage des données peut calculer huit profils de données différents. Cinq de ces profils peuvent vérifier des colonnes individuelles et les trois autres analysent plusieurs colonnes ou relations entre les colonnes.

Profilage des données - Sorties de tâches

La tâche de profilage des données génère les profils sélectionnés au format XML qui est structuré comme le schéma DataProfile.xsd.

Vous pouvez enregistrer une copie locale du schéma et afficher la copie locale du schéma dans Microsoft Visual Studio ou un autre éditeur de schéma, dans un éditeur XML ou dans un éditeur de texte tel que le Bloc-notes.