SAS - Ensembles de données de sous-ensembles

Le sous-ensemble d'un ensemble de données SAS signifie extraire une partie de l'ensemble de données en sélectionnant moins de variables ou moins d'observations ou les deux. Alors que le sous-ensemble de variables est effectué en utilisantKEEP et DROP déclaration, le sous-ensemble des observations se fait en utilisant DELETE déclaration.

De même, les données résultantes de l'opération de sous-ensemble sont conservées dans un nouvel ensemble de données qui peut être utilisé pour une analyse ultérieure. Le sous-réglage est principalement utilisé dans le but d'analyser une partie de l'ensemble de données sans utiliser ces variables ou observations qui peuvent ne pas être pertinentes pour l'analyse.

Variables de sous-ensemble

Dans cette méthode, nous extrayons seulement quelques variables de l'ensemble de données.

Syntaxe

La syntaxe de base des variables de sous-paramétrage dans SAS est -

KEEP var1 var2 ... ;
DROP var1 var2 ... ;

Voici la description des paramètres utilisés -

  • var1 and var2 sont les noms de variables de l'ensemble de données qui doivent être conservés ou supprimés.

Exemple

Considérez l'ensemble de données SAS ci-dessous contenant les détails des employés d'une organisation. Si nous souhaitons uniquement obtenir les valeurs Nom et Département de l'ensemble de données, nous pouvons utiliser le code ci-dessous.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   KEEP ename DEPT;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Lorsque le code ci-dessus est exécuté, nous obtenons la sortie suivante.

Le même résultat peut être obtenu en supprimant les variables qui ne sont pas requises. Le code ci-dessous illustre cela.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   DROP empid salary;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Observations de sous-ensembles

Dans cette méthode, nous extrayons seulement quelques observations de l'ensemble de données.

Syntaxe

Nous utilisons PROC FREQ qui garde la trace des observations sélectionnées pour le nouvel ensemble de données.

La syntaxe des observations de sous-paramètres est -

IF Var Condition THEN DELETE ;

Voici la description des paramètres utilisés -

  • Var est le nom de la variable en fonction de la valeur de laquelle les observations seront supprimées à l'aide de la condition spécifiée.

Exemple

Considérez l'ensemble de données SAS ci-dessous contenant les détails des employés d'une organisation. Si nous voulons uniquement obtenir les données des employés dont le salaire est supérieur à 700, nous utilisons le code ci-dessous.

DATA Employee; 
   INPUT empid name $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   IF salary < 700 THEN DELETE;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Lorsque le code ci-dessus est exécuté, nous obtenons la sortie suivante.