Teradata - Questions et réponses

Expliquez l'architecture de Teradata.

Teradata Architecture se compose de trois composants.

Parsing Engine - Parsing Engine reçoit la requête de l'utilisateur, l'analyse et prépare le plan d'exécution.
BYNET - BYNET reçoit le plan d'exécution du moteur d'analyse et l'envoie à l'AMP approprié.
AMP- AMP est responsable du stockage et de la récupération des lignes. Il stocke les données sur le disque virtuel qui lui est associé. De plus, AMP est responsable de la gestion des serrures, de la gestion de l'espace, du tri et de l'agrégation.

Quelle est la différence entre FastLoad et MultiLoad?

FastLoad	MultiLoad
La table cible doit être vide	La table cible n'a pas besoin d'être vide
Une seule table peut être chargée à l'aide d'un seul script	Peut charger / mettre à jour jusqu'à 5 tables
Prend en charge uniquement l'instruction CREATE / INSERT	Prend en charge jusqu'à 20 instructions DML dans un seul script
Ne prend pas en charge les tables avec RI, SI et Triggers	Prend en charge les tables avec NUSI

Pourquoi FastLoad est-il incapable de charger des enregistrements en double?

FastLoad offre une capacité de redémarrage via des points de contrôle. Lorsque le script est redémarré à partir du dernier point de contrôle, il est possible que les mêmes lignes soient renvoyées aux AMP. C'est la raison pour laquelle FastLoad ne prend pas en charge les doublons.

Quelle est la différence entre les tables SET et MULTISET?

La table SET n'autorise pas les enregistrements en double alors que MULTISET autorise les enregistrements en double.

Comment la table SET vérifie-t-elle les enregistrements en double?

Pour chaque ligne insérée, le système vérifie s'il existe un enregistrement avec le même hachage de ligne. Si la table a UPI défini, alors il rejettera l'enregistrement comme dupliqué. Sinon, il comparera l'enregistrement entier pour le duplicata. Cela affectera gravement les performances du système.

Quelle est la méthode efficace pour éviter la vérification des lignes en double pour les tables SET?

Vous pouvez définir un index primaire unique ou un index secondaire unique pour éviter la vérification des lignes en double.

Quelles sont les différentes manières de créer des tableaux?

Les tables sont créées à l'aide de l'instruction CREATE TABLE. Les tableaux peuvent être créés en utilisant

Instruction CREATE TABLE avec définition de colonne.
CREATE TABLE à partir d'une table existante.
Instruction CREATE TABLE avec une instruction SELECT.

Comment trouver des enregistrements en double dans une table?

Les enregistrements en double peuvent être identifiés à l'aide de l'instruction DISTINCT ou de l'instruction GROUP BY.

SELECT DISTINCT column 1, column 2… 
FROM tablename;
  
OR
  
SELECT column 1, column 2,… 
FROM tablename 
GROUP BY column 1, column 2….;

Quelle est la différence entre l'index primaire et la clé primaire?

Les clés primaires ne sont pas obligatoires dans Teradata tandis que l'index primaire est obligatoire.
La distribution des données est basée sur la valeur de l'index primaire.
Les clés primaires n'acceptent pas les valeurs NULL alors que l'index primaire accepte les valeurs NULL.
Les clés primaires sont uniques tandis que l'index primaire peut être unique (UPI) ou non unique (NUPI).
Les clés primaires ne changent pas tandis que les index primaires changent.

Quelles sont les différentes manières d'accéder aux données dans les tables Teradata?

Les données sont accessibles de 3 manières différentes -

Via l'index primaire
Via l'index secondaire
Analyse complète de la table

Comment identifier le nombre de SAP dans le système?

Il peut être identifié en utilisant la requête SELECT HASHAMP () + 1;

Comment identifier le nombre de lignes dans chaque AMP pour une table spécifique?

La requête suivante peut être utilisée à cet effet.

SELECT HASHMAP(HASHBUCKET(HASHROW(primaryindexvalue))), COUNT(*) 
FROM tablename GROUP BY 1;

Quels sont les modes de transaction disponibles dans Teradata?

Teradata prend en charge deux modes de transaction.

Teradata
ANSI

Le mode Teradata est défini à l'aide de SET SESSION TRANSACTION BTET; Le mode ANSI est défini à l'aide de SET SESSION TRANSACTION ANSI;

Comment exécuter des transactions avec Teradata?

Les transactions peuvent être exécutées à l'aide d'instructions BT et ET.

Comment accéder aux données stockées dans Join Indexes?

Les index de jointure ne sont pas directement accessibles par l'utilisateur. Seul l'optimiseur peut y accéder.

Que se passe-t-il si le fichier d'entrée d'un script FastLoad contient des enregistrements en double?

Les enregistrements en double seront rejetés lors du chargement des tables cible et seront insérés dans la table UV.

A quoi sert FALLBACK?

FALLBACK est un mécanisme de protection utilisé par Teradata pour gérer les pannes AMP. Pour chaque ligne de données, une autre copie de la ligne est stockée dans un AMP différent au sein d'un cluster. Si un AMP échoue, les lignes correspondantes seront accessibles en utilisant FALLBACK AMP.

Comment spécifiez-vous l'option FALLBACK pour une table?

FALLBACK peut être mentionné lors de la création de la table à l'aide de l'instruction CREATE TABLE ou après la création de la table à l'aide de l'instruction ALTER TABLE.

Quand obtiendrez-vous une erreur Spool Space?

Une erreur d'espace de spoule se produit si les résultats intermédiaires de la requête dépassent la limite d'espace de spoule AMP définie pour l'utilisateur qui a soumis la requête.

À quoi sert la commande SLEEP?

La commande SLEEP spécifie le temps d'attente avant que Teradata tente d'établir la connexion.

A quoi sert la commande TENACITY?

La commande TENACITY spécifie le temps d'attente total de Teradata pour établir une nouvelle connexion.

Comment libérer le verrou sur la table après l'échec de FASTLOAD?

Vous pouvez simplement conserver les instructions BEGIN LOADING et END LOADING et soumettre le script FASTLOAD. Une autre option consiste à supprimer la table et à créer à nouveau la table.

À quoi sert la mise en cache dans Teradata?

La mise en cache dans Teradata fonctionne avec la source et reste dans le même ordre, c'est-à-dire qu'elle ne change pas fréquemment. Le cache est généralement partagé entre les applications. C'est un avantage supplémentaire d'utiliser Teradata.

Qu'est-ce que le RAID?

RAID est un mécanisme de protection pour gérer les pannes de disque. Il signifie Redundant Array of Independent Disks. RAID 1 est couramment utilisé dans Teradata.

Quels sont les avantages et les inconvénients de l'index secondaire?

L'index secondaire fournit un autre chemin d'accès aux données. Ils sont utilisés pour éviter le balayage complet de la table. Cependant, les index secondaires nécessitent une structure physique supplémentaire pour gérer les sous-tables et nécessitent également des E / S supplémentaires car la sous-table doit être mise à jour pour chaque ligne.

Quels sont les différents types de serrures disponibles dans Teradata?

Il existe quatre verrous différents dans Teradata: exclusif, écriture, lecture et accès.

Quels sont les différents niveaux de verrouillage disponibles dans Teradata?

Les verrous peuvent être appliqués à trois niveaux différents: base de données, table et ligne.

Combien de valeurs peuvent être compressées dans une table?

À l'aide de la compression à valeurs multiples (MVC), vous pouvez compresser jusqu'à 255 valeurs, y compris les valeurs NULL.

Comment FastLoad charge les données dans Teradata?

FastLoad charge les données dans des blocs de 64 Ko. Il y a 2 phases dans FastLoad.

Dans la phase 1, il apporte les données dans des blocs de 64 Ko et les envoie aux AMP cibles. Chaque AMP redistribuera ensuite les lignes vers leurs AMP cibles.
Dans la phase 2, les lignes sont triées par ordre de hachage des lignes et écrites dans la table cible.

Quelles sont toutes les différentes phases de MultiLoad?

L'importation MultiLoad comporte cinq phases.

Phase 1 - Phase préliminaire - Exécute les activités de configuration de base.
Phase 2 - Phase de transaction DML - Vérifie la syntaxe des instructions DML et les apporte au système Teradata.
Phase 3 - Phase d'acquisition - Apporte les données d'entrée dans les tables de travail et verrouille la table.
Phase 4 - Phase d'application - Applique toutes les opérations DML.
Phase 5 - Phase de nettoyage - Libère le verrouillage de la table.

Quel est le moyen le plus rapide de supprimer des données des tables? Instruction DELETE FROM ou MultiLoad DELETE

MULTILOAD DELETE est plus rapide car il supprime les enregistrements par blocs. DELETE FROM supprimera ligne par ligne.

Quelle est la différence entre procédure stockée et macro?

La procédure stockée renvoie une ou plusieurs valeurs tandis que les macros peuvent renvoyer une ou plusieurs lignes. En plus de SQL, la procédure stockée peut contenir des instructions SPL.

Quelle est la meilleure façon de charger des données dans Teradata? FastLoad / BTEQ / MultiLoad?

FastLoad et MultiLoad chargent les données dans des blocs de 64 Ko, tandis que BTEQ traitera une ligne à la fois.

Quelle est la meilleure façon d'extraire des données de Teradata? BTEQ / FastExport?

FastExport exporte les données dans des blocs de 64 Ko tandis que BTEQ exporte une ligne à la fois.

Qu'est-ce que TPT?

Teradata Parallel Transporter (TPT) est l'utilitaire pour charger / exporter des données. Il combine toutes les fonctionnalités de FastLoad, MultiLoad, BTEQ, TPUMP et FastExport.

Qu'est-ce qu'un journal permanent dans Teradata?

Les journaux permanents gardent une trace des données avant ou après l'application des modifications. Cela aide à reculer ou à faire avancer la table vers un état particulier. Les journaux permanents peuvent être activés au niveau de la table ou de la base de données.

Pourquoi l'architecture Teradata s'appelle l'architecture Shared Nothing?

Dans Teradata, chaque AMP est associé à un disque virtuel. Seul l'AMP qui possède le disque virtuel peut accéder aux données de ce disque virtuel. C'est ce qu'on appelle l'architecture Shared Nothing.

Quel est l'avantage de l'index primaire de partition?

Si la requête utilise des colonnes partitionnées, cela entraînera l'élimination de la partition, ce qui améliorera considérablement les performances.
La partition élimine les autres partitions et accède uniquement aux partitions contenant les données.
Vous pouvez facilement supprimer les anciennes partitions et créer de nouvelles partitions.

Si un index secondaire est créé sur une table, la taille de la table augmentera-t-elle? Pourquoi?

Oui. L'index secondaire nécessite des sous-tables qui nécessitent un espace permanent.

Si un index primaire partitionné est ajouté à une table, la taille de la table augmentera-t-elle? Pourquoi?

Oui. Chaque fois qu'un index primaire partitionné est ajouté, chaque ligne occupe 2 ou 8 octets supplémentaires pour le numéro de partition.

Comment identifiez-vous la 2 ^ème valeur la plus élevée d'une table?

Vous pouvez utiliser la fonction RANK sur la colonne spécifiée avec un ordre décroissant avec la condition Qualify = 2.

Comment gérez-vous l'erreur d'espace de spoule?

Vous pouvez vérifier le plan EXPLAIN de la requête pour identifier les étapes qui consomment plus d'espace de spoule et essayer d'optimiser la requête. Des filtres peuvent être appliqués pour réduire le nombre d'enregistrements en cours de traitement ou vous pouvez diviser la grande requête en plusieurs requêtes plus petites.

Quels sont les niveaux de confiance de Teradata?

Lorsque la commande EXPLAIN est utilisée pour la requête, elle spécifie la confiance de l'optimiseur pour récupérer les enregistrements.

Il existe trois niveaux de confiance dans Teradata: confiance élevée, confiance moyenne et confiance faible.

Quelle est la différence entre NUSI et l'analyse de table complète?

NUSI et Full Table Scan (FTS) accèderont à tous les AMP mais FTS accédera à tous les blocs dans l'AMP tandis que NUSI accédera aux blocs uniquement si la sous-table contient les lignes de qualification.

Comment sauter les premiers enregistrements du fichier d'entrée lors du chargement dans Teradata?

En mode BTEQ, la commande SKIP peut être utilisée pour sauter les enregistrements.

Quel type de données est le meilleur pour stocker les informations sur l'âge des employés?

BYTEINT. Il n'occupe qu'un seul octet et peut stocker des valeurs jusqu'à +127.

Spécifiez le nombre d'AMP accessibles par chaque méthode.

Grâce à un index primaire unique - 1 AMP
Via un index primaire non unique - 1 AMP
Grâce à un index secondaire unique - 2 AMP
Via un index secondaire non unique - Tous les SAP

Qu'est-ce qu'une clique?

Clique est un mécanisme de protection pour gérer les pannes de nœuds. C'est un groupe de nœuds. Lorsqu'un nœud au sein d'une clique tombe en panne, les vprocs (Parsing Engine et AMP) migrent vers d'autres nœuds et continuent à effectuer des opérations de lecture / écriture sur leurs disques virtuels.

Quels sont les mécanismes de protection disponibles dans Teradata?

Teradata fournit différents niveaux de mécanisme de protection.

Transient Journal - Pour gérer l'échec de transaction.
Fallback - Pour gérer l'échec AMP.
Cliques - Pour gérer l'échec du nœud.
RAID - Pour gérer une panne de disque.
Hot standby Node - Pour gérer l'échec du nœud sans affecter les performances et redémarrer.

A quoi sert ACTIVITYCOUNT?

ACTIVITYCOUNT donne le nombre de lignes affectées par la requête SQL précédente dans BTEQ. Si l'instruction ACTIVITYCOUNT suit une instruction d'insertion, elle renvoie le nombre de lignes insérées. Si l'instruction ACTIVITYCOUNT suit l'instruction select, elle renvoie le nombre de lignes sélectionnées.

Teradata avancé

Les bases de Teradata

Tutoriel Teradata

Ressources utiles Teradata