Big Data Analytics - Graphiques et graphiques

La première approche pour analyser les données consiste à les analyser visuellement. Les objectifs pour ce faire sont normalement de trouver des relations entre les variables et des descriptions univariées des variables. Nous pouvons diviser ces stratégies comme -

  • Analyse univariée
  • Analyse multivariée

Méthodes graphiques univariées

Univariateest un terme statistique. En pratique, cela signifie que nous voulons analyser une variable indépendamment du reste des données. Les parcelles qui permettent de le faire efficacement sont -

Boîtes à moustaches

Les boîtes à moustaches sont normalement utilisées pour comparer les distributions. C'est un excellent moyen d'inspecter visuellement s'il existe des différences entre les distributions. Nous pouvons voir s'il existe des différences entre le prix des diamants pour une taille différente.

# We will be using the ggplot2 library for plotting
library(ggplot2)  
data("diamonds")  

# We will be using the diamonds dataset to analyze distributions of numeric variables 
head(diamonds) 

#    carat   cut       color  clarity  depth  table   price    x     y     z 
# 1  0.23    Ideal       E      SI2    61.5    55     326     3.95  3.98  2.43 
# 2  0.21    Premium     E      SI1    59.8    61     326     3.89  3.84  2.31 
# 3  0.23    Good        E      VS1    56.9    65     327     4.05  4.07  2.31 
# 4  0.29    Premium     I      VS2    62.4    58     334     4.20  4.23  2.63 
# 5  0.31    Good        J      SI2    63.3    58     335     4.34  4.35  2.75 
# 6  0.24    Very Good   J      VVS2   62.8    57     336     3.94  3.96  2.48 

### Box-Plots
p = ggplot(diamonds, aes(x = cut, y = price, fill = cut)) + 
   geom_box-plot() + 
   theme_bw() 
print(p)

Nous pouvons voir sur le graphique qu'il existe des différences dans la distribution du prix des diamants selon les types de taille.

Histogrammes

source('01_box_plots.R')

# We can plot histograms for each level of the cut factor variable using 
facet_grid 
p = ggplot(diamonds, aes(x = price, fill = cut)) + 
   geom_histogram() + 
   facet_grid(cut ~ .) + 
   theme_bw() 

p  
# the previous plot doesn’t allow to visuallize correctly the data because of 
the differences in scale 
# we can turn this off using the scales argument of facet_grid  

p = ggplot(diamonds, aes(x = price, fill = cut)) + 
   geom_histogram() + 
   facet_grid(cut ~ ., scales = 'free') + 
   theme_bw() 
p  

png('02_histogram_diamonds_cut.png') 
print(p) 
dev.off()

La sortie du code ci-dessus sera la suivante -

Méthodes graphiques multivariées

Les méthodes graphiques multivariées dans l'analyse exploratoire des données ont pour objectif de trouver des relations entre différentes variables. Il existe deux méthodes couramment utilisées pour y parvenir: tracer une matrice de corrélation de variables numériques ou simplement tracer les données brutes sous forme de matrice de nuages ​​de points.

Afin de démontrer cela, nous utiliserons l'ensemble de données des diamants. Pour suivre le code, ouvrez le scriptbda/part2/charts/03_multivariate_analysis.R.

library(ggplot2)
data(diamonds) 

# Correlation matrix plots  
keep_vars = c('carat', 'depth', 'price', 'table') 
df = diamonds[, keep_vars]  
# compute the correlation matrix 
M_cor = cor(df) 

#          carat       depth      price      table 
# carat 1.00000000  0.02822431  0.9215913  0.1816175 
# depth 0.02822431  1.00000000 -0.0106474 -0.2957785 
# price 0.92159130 -0.01064740  1.0000000  0.1271339 
# table 0.18161755 -0.29577852  0.1271339  1.0000000  

# plots 
heat-map(M_cor)

Le code produira la sortie suivante -

Ceci est un résumé, cela nous dit qu'il existe une forte corrélation entre le prix et le caret, et pas beaucoup parmi les autres variables.

Une matrice de corrélation peut être utile lorsque nous avons un grand nombre de variables, auquel cas le traçage des données brutes ne serait pas pratique. Comme mentionné, il est possible d'afficher également les données brutes -

library(GGally)
ggpairs(df)

Nous pouvons voir dans le graphique que les résultats affichés dans la carte thermique sont confirmés, il existe une corrélation de 0,922 entre les variables de prix et de carats.

Il est possible de visualiser cette relation dans le nuage de points prix-carat situé dans l'indice (3, 1) de la matrice de nuage de points.