SAS - Box Plots

Un Boxplot est une représentation graphique de groupes de données numériques à travers leurs quartiles. Les boîtes à moustaches peuvent également avoir des lignes s'étendant verticalement à partir des boîtes (moustaches) indiquant la variabilité à l'extérieur des quartiles supérieur et inférieur. Le bas et le haut de la boîte sont toujours les premier et troisième quartiles, et la bande à l'intérieur de la boîte est toujours le deuxième quartile (la médiane). Dans SAS, un boxplot simple est créé en utilisantPROC SGPLOT et la boîte à moustaches en panneaux est créée en utilisant PROC SGPANEL.

Veuillez noter que nous créons l'ensemble de données nommé CARS1 dans le premier exemple et utilisons le même ensemble de données pour tous les ensembles de données suivants. Cet ensemble de données reste dans la bibliothèque de travail jusqu'à la fin de la session SAS.

Syntaxe

La syntaxe de base pour créer un boxplot dans SAS est -

PROC SGPLOT  DATA = DATASET;
   VBOX VARIABLE / category = VARIABLE;
RUN; 

PROC SGPANEL  DATA = DATASET;;
PANELBY VARIABLE;
   VBOX VARIABLE> / category = VARIABLE;
RUN;

Voici la description des paramètres utilisés -

  • DATASET - est le nom de l'ensemble de données utilisé.

  • VARIABLE - est la valeur utilisée pour tracer le Boxplot.

Boîte à moustaches simple

Dans un Boxplot simple, nous choisissons une variable dans l'ensemble de données et une autre pour former une catégorie. Les valeurs de la première variable sont classées en autant de nombre de groupes que le nombre de valeurs distinctes dans la deuxième variable.

Exemple

Dans l'exemple ci-dessous, nous choisissons la puissance variable comme première variable et le type comme variable de catégorie. Nous obtenons donc des boîtes à moustaches pour la distribution des valeurs de puissance pour chaque type de voiture.

PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
   FROM 
   SASHELP.CARS
   WHERE make in ('Audi','BMW')
;
RUN;

PROC SGPLOT  DATA = CARS1;
   VBOX horsepower 
   / category = type;

   title 'Horsepower of cars by types';
RUN;

Lorsque nous exécutons le code ci-dessus, nous obtenons la sortie suivante -

Boîte à moustaches dans les panneaux verticaux

Nous pouvons diviser les Boxplots d'une variable en plusieurs panneaux verticaux (colonnes). Chaque panneau contient les boîtes à moustaches pour toutes les variables catégorielles. Mais les boîtes à moustaches sont encore regroupées en utilisant une autre troisième variable qui divise le graphique en plusieurs panneaux.

Exemple

Dans l'exemple ci-dessous, nous avons laminé le graphique en utilisant la variable «make». Comme il y a deux valeurs distinctes de «make», nous obtenons deux panneaux verticaux.

PROC SGPANEL  DATA = CARS1;
PANELBY MAKE;
   VBOX horsepower   / category = type;

   title 'Horsepower of cars by types';
RUN;

Lorsque nous exécutons le code ci-dessus, nous obtenons la sortie suivante -

Boîte à moustaches dans les panneaux horizontaux

Nous pouvons diviser les Boxplots d'une variable en plusieurs panneaux horizontaux (lignes). Chaque panneau contient les boîtes à moustaches pour toutes les variables catégorielles. Mais les boîtes à moustaches sont encore regroupées en utilisant une autre troisième variable qui divise le graphique en plusieurs panneaux. Dans l'exemple ci-dessous, nous avons laminé le graphique en utilisant la variable «make». Comme il y a deux valeurs distinctes de «faire», nous obtenons deux panneaux horizontaux.

PROC SGPANEL  DATA = CARS1;
PANELBY MAKE / columns = 1 novarname;

   VBOX horsepower   / category = type;

   title 'Horsepower of cars by types';
RUN;

Lorsque nous exécutons le code ci-dessus, nous obtenons la sortie suivante -