Test ETL - Exhaustivité des données

La vérification de l'exhaustivité des données est effectuée pour vérifier que les données du système cible sont conformes aux attentes après le chargement.

Les tests courants qui peuvent être effectués pour cela sont les suivants -

  • Vérification des fonctions d'agrégation (sum, max, min, count),

  • Vérifier et valider les décomptes et les données réelles entre la source et la cible pour des colonnes sans transformations ou avec des transformations simples.

Validation du comptage

Comparez le nombre d'enregistrements dans les tables source et cible. Cela peut être fait en écrivant les requêtes suivantes -

SELECT count (1) FROM employee; 
SELECT count (1) FROM emp_dim;

Validation du profil de données

Il s'agit de vérifier les fonctions d'agrégation telles que count, sum et max dans les tables source et cible (fait ou dimension).

Validation du profil de données de colonne

Il s'agit de comparer les valeurs distinctes et le nombre de lignes pour chaque valeur distincte.

SELECT city, count(*) FROM employee GROUP BY city; 
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

Validation des données en double

Il s'agit de valider la clé primaire et la clé unique dans une colonne ou dans une combinaison de colonnes qui doivent être uniques selon les besoins de l'entreprise. Vous pouvez utiliser la requête suivante pour effectuer la validation des données en double -

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;