SAS - Analyse de corrélation

L'analyse de corrélation traite des relations entre les variables. Le coefficient de corrélation est une mesure d'association linéaire entre deux variables. Les valeurs du coefficient de corrélation sont toujours comprises entre -1 et +1. SAS fournit la procédurePROC CORR pour trouver les coefficients de corrélation entre une paire de variables dans un ensemble de données.

Syntaxe

La syntaxe de base pour appliquer PROC CORR dans SAS est -

PROC CORR DATA = dataset options;
VAR variable;

Voici la description des paramètres utilisés -

  • Dataset est le nom de l'ensemble de données.

  • Options est l'option supplémentaire avec une procédure comme le traçage d'une matrice, etc.

  • Variable est le nom de la variable de l'ensemble de données utilisé pour trouver la corrélation.

Exemple

Les coefficients de corrélation entre une paire de variables disponibles dans un ensemble de données peuvent être obtenus en utilisant leurs noms dans l'instruction VAR.Dans l'exemple ci-dessous, nous utilisons l'ensemble de données CARS1 et obtenons le résultat montrant les coefficients de corrélation entre la puissance et le poids.

PROC SQL;
create table CARS1 as
SELECT invoice, horsepower, length, weight
   FROM 
   SASHELP.CARS
   WHERE make in ('Audi','BMW')
;
RUN;

proc corr data = cars1 ;
VAR horsepower weight ;
BY make;
run;

Lorsque le code ci-dessus est exécuté, nous obtenons le résultat suivant -

Corrélation entre toutes les variables

Les coefficients de corrélation entre toutes les variables disponibles dans un ensemble de données peuvent être obtenus en appliquant simplement la procédure avec le nom de l'ensemble de données.

Exemple

Dans l'exemple ci-dessous, nous utilisons l'ensemble de données CARS1 et obtenons le résultat montrant les coefficients de corrélation entre chaque paire de variables.

proc corr data = cars1 ;
run;

Lorsque le code ci-dessus est exécuté, nous obtenons le résultat suivant -

Matrice de corrélation

Nous pouvons obtenir une matrice de nuage de points entre les variables en choisissant l'option de tracer la matrice dans le PROC déclaration.

Exemple

Dans l'exemple ci-dessous, nous obtenons la matrice entre la puissance et le poids.

proc corr data = cars1 plots = matrix ;
VAR horsepower weight ;
run;

Lorsque le code ci-dessus est exécuté, nous obtenons le résultat suivant -