Apache Pig - SOUS-TIRER ()

le SUBTRACT()La fonction de Pig Latin est utilisée pour soustraire deux sacs. Il prend deux sacs comme entrées et retourne un sac qui contient les n-uplets du premier sac qui ne sont pas dans le second sac.

Syntaxe

Ci-dessous, la syntaxe du SUBTRACT() fonction.

grunt> SUBTRACT(expression, expression)

Exemple

Supposons que nous ayons deux fichiers à savoir emp_sales.txt et emp_bonus.txt dans le répertoire HDFS /pig_data/comme indiqué ci-dessous. leemp_sales.txt contient les coordonnées des employés du service commercial et du emp_bonus.txt contient les détails de l'employé qui a obtenu la prime.

emp_sales.txt

1,Robin,22,25000,sales 
2,BOB,23,30000,sales 
3,Maya,23,25000,sales 
4,Sara,25,40000,sales 
5,David,23,45000,sales 
6,Maggy,22,35000,sales

emp_bonus.txt

1,Robin,22,25000,sales 
2,Jaya,23,20000,admin 
3,Maya,23,25000,sales 
4,Alia,25,50000,admin 
5,David,23,45000,sales 
6,Omar,30,30000,admin

Et nous avons chargé ces fichiers dans Pig, avec les noms des relations emp_sales et emp_bonus respectivement.

grunt> emp_sales = LOAD 'hdfs://localhost:9000/pig_data/emp_sales.txt' USING PigStorage(',')
   as (sno:int, name:chararray, age:int, salary:int, dept:chararray);
	
grunt> emp_bonus = LOAD 'hdfs://localhost:9000/pig_data/emp_bonus.txt' USING PigStorage(',')
   as (sno:int, name:chararray, age:int, salary:int, dept:chararray);

Regroupons maintenant les enregistrements / tuples des relations emp_sales et emp_bonus avec la clé sno, en utilisant l'opérateur COGROUP comme indiqué ci-dessous.

grunt> cogroup_data = COGROUP emp_sales by sno, emp_bonus by sno;

Vérifier la relation cogroup_data en utilisant le DUMP opérateur comme indiqué ci-dessous.

grunt> Dump cogroup_data; 

(1,{(1,Robin,22,25000,sales)},{(1,Robin,22,25000,sales)}) 
(2,{(2,BOB,23,30000,sales)},{(2,Jaya,23,30000,admin)}) 
(3,{(3,Maya,23,25000,sales)},{(3,Maya,23,25000,sales)}) 
(4,{(4,Sara,25,40000,sales)},{(4,Alia,25,50000,admin)}) 
(5,{(5,David,23,45000,sales)},{(5,David,23,45000,sales)}) 
(6,{(6,Maggy,22,35000,sales)},{(6,Omar,30,30000,admin)})

Soustraire une relation de l'autre

Soustrayons maintenant les tuples de emp_bonus relation de emp_salesrelation. La relation résultante contient les tuples deemp_sales qui ne sont pas là emp_bonus.

grunt> sub_data = FOREACH cogroup_data GENERATE SUBTRACT(emp_sales, emp_bonus);

Vérification

Vérifier la relation sub_dataen utilisant l'opérateur DUMP comme indiqué ci-dessous. leemp_sales relation contient les tuples qui ne sont pas là dans la relation emp_bonus.

grunt> Dump sub_data;
   
({})
({(2,BOB,23,30000,sales)})
({})
({(4,Sara,25,40000,sales)})
({})
({(6,Maggy,22,35000,sales)})

De la même manière, soustrayons le emp_sales relation de emp_bonus relation comme indiqué ci-dessous.

grunt> sub_data = FOREACH cogroup_data GENERATE SUBTRACT(emp_bonus, emp_sales);

Vérifiez le contenu du sub_data relation à l'aide de l'opérateur Dump comme indiqué ci-dessous.

grunt> Dump sub_data;

({}) 
({(2,Jaya,23,20000,admin)})
({})
({(4,Alia,25,50000,admin)})
({})
({(6,Omar,30,30000,admin)})

↰ Previous page

Apache Pig - SOUS-TIRER ()

Syntaxe

Exemple

Soustraire une relation de l'autre

Vérification

Environnement Apache Pig

Introduction à Apache Pig

Tutoriel Apache Pig

Combinaison et fractionnement

Opérateurs de diagnostic

Filtration

Regroupement et jointure

Opérateurs de chargement et de magasin

Autres modes d'exécution

Cochon latin

Fonctions intégrées Pig Latin

Tri