SAS - Distributions de fréquences

Une distribution de fréquence est un tableau montrant la fréquence des points de données dans un ensemble de données. Chaque entrée du tableau contient la fréquence ou le nombre d'occurrences de valeurs dans un groupe ou un intervalle particulier, et de cette manière, le tableau résume la distribution des valeurs dans l'échantillon.

SAS fournit une procédure appelée PROC FREQ pour calculer la distribution de fréquence des points de données dans un ensemble de données.

Syntaxe

La syntaxe de base pour le calcul de la distribution de fréquence dans SAS est -

PROC FREQ DATA = Dataset ;
TABLES Variable_1 ;
BY Variable_2 ;

Voici la description des paramètres utilisés -

  • Dataset est le nom de l'ensemble de données.

  • Variables_1 est le nom des variables de l'ensemble de données dont la distribution de fréquence doit être calculée.

  • Variables_2 sont les variables qui ont catégorisé le résultat de la distribution de fréquence.

Distribution de fréquence variable unique

Nous pouvons déterminer la distribution de fréquence d'une seule variable en utilisant PROC FREQ.Dans ce cas, le résultat affichera la fréquence de chaque valeur de la variable. Le résultat montre également la distribution en pourcentage, la fréquence cumulée et le pourcentage cumulé.

Exemple

Dans l'exemple ci-dessous, nous trouvons la distribution de fréquence de la puissance variable pour l'ensemble de données nommé CARS1 qui est créé à partir de la bibliothèque SASHELP.CARS.Nous pouvons voir le résultat divisé en deux catégories de résultats. Un pour chaque marque de voiture.

PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
   FROM 
   SASHELP.CARS
   WHERE make in ('Audi','BMW')
;
RUN;

proc FREQ data = CARS1 ;
tables horsepower; 
by make;
run;

Lorsque le code ci-dessus est exécuté, nous obtenons le résultat suivant -

Distribution de fréquence variable multiple

Nous pouvons trouver les distributions de fréquence pour plusieurs variables qui les regroupent dans toutes les combinaisons possibles.

Exemple

Dans l'exemple ci-dessous, nous calculons la distribution de fréquence pour la marque d'une voiture pour grouped by car type et aussi la distribution de fréquence de chaque type de voiture grouped by each make.

proc FREQ data = CARS1 ;
tables make type; 
run;

Lorsque le code ci-dessus est exécuté, nous obtenons le résultat suivant -

Distribution de fréquence avec poids

Avec l'option de pondération, nous pouvons calculer la distribution de fréquence biaisée par le poids de la variable. Ici, la valeur de la variable est considérée comme le nombre d'observations au lieu du nombre de valeurs.

Exemple

Dans l'exemple ci-dessous, nous calculons la distribution de fréquence des variables make et type avec le poids attribué à la puissance.

proc FREQ data = CARS1 ;
tables make type; 
weight horsepower;
run;

Lorsque le code ci-dessus est exécuté, nous obtenons le résultat suivant -