SAS - Nuage de points

Un nuage de points est un type de graphique qui utilise les valeurs de deux variables tracées dans un plan cartésien. Il est généralement utilisé pour découvrir la relation entre deux variables. En SAS, nous utilisonsPROC SGSCATTER pour créer des nuages ​​de points.

Veuillez noter que nous créons l'ensemble de données nommé CARS1 dans le premier exemple et utilisons le même ensemble de données pour tous les ensembles de données suivants. Cet ensemble de données reste dans la bibliothèque de travail jusqu'à la fin de la session SAS.

Syntaxe

La syntaxe de base pour créer un nuage de points dans SAS est -

PROC sgscatter  DATA = DATASET;
   PLOT VARIABLE_1 * VARIABLE_2
   / datalabel = VARIABLE group = VARIABLE;
RUN;

Voici la description des paramètres utilisés -

  • DATASET est le nom de l'ensemble de données.

  • VARIABLE est la variable utilisée à partir de l'ensemble de données.

Nuage de points simple

Dans un nuage de points simple, nous choisissons deux variables de l'ensemble de données et les regroupons par rapport à une troisième variable. Nous pouvons également étiqueter les données. Le résultat montre comment les deux variables sont dispersées dans leCartesian plane.

Exemple

PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
FROM 
SASHELP.CARS
WHERE make in ('Audi','BMW')
;
RUN;

TITLE 'Scatterplot - Two Variables';
PROC sgscatter  DATA = CARS1;
   PLOT horsepower*Invoice 
   / datalabel = make group = type grid;
   title 'Horsepower vs. Invoice for car makers by types';
RUN;

Lorsque nous exécutons le code ci-dessus, nous obtenons la sortie suivante -

Nuage de points avec prédiction

nous pouvons utiliser un paramètre d'estimation pour prédire la force de la corrélation entre en dessinant une ellipse autour des valeurs. Nous utilisons les options supplémentaires de la procédure pour dessiner l'ellipse comme indiqué ci-dessous.

Exemple

proc sgscatter data = cars1; 
compare y = Invoice  x = (horsepower length)  
         / group = type  ellipse =(alpha = 0.05 type = predicted); 
title
'Average Invoice vs. horsepower for cars by length'; 
title2
'-- with 95% prediction ellipse --'
; 
format
Invoice dollar6.0;
run;

Lorsque nous exécutons le code ci-dessus, nous obtenons la sortie suivante -

Matrice de dispersion

Nous pouvons également avoir un nuage de points impliquant plus de deux variables en les regroupant par paires. Dans l'exemple ci-dessous, nous considérons trois variables et dessinons une matrice de nuage de points. Nous obtenons 3 paires de matrice résultante.

Exemple

PROC sgscatter  DATA = CARS1;
   matrix horsepower invoice length
   / group = type;

   title 'Horsepower vs. Invoice vs. Length for car makers by types';
RUN;

Lorsque nous exécutons le code ci-dessus, nous obtenons la sortie suivante -