Big Data Analytics - Exploration de données

Exploratory data analysisest un concept développé par John Tuckey (1977) qui consiste en une nouvelle perspective des statistiques. L'idée de Tuckey était que dans les statistiques traditionnelles, les données n'étaient pas explorées graphiquement, elles étaient simplement utilisées pour tester des hypothèses. La première tentative de développement d'un outil a été faite à Stanford, le projet s'appelait prim9 . L'outil était capable de visualiser les données en neuf dimensions, donc il était capable de fournir une perspective multivariée des données.

Ces derniers jours, l'analyse exploratoire des données est un must et a été incluse dans le cycle de vie de l'analyse des mégadonnées. La capacité de trouver des informations et d'être en mesure de les communiquer efficacement dans une organisation est alimentée par de solides capacités EDA.

Sur la base des idées de Tuckey, Bell Labs a développé le S programming languageafin de fournir une interface interactive pour faire des statistiques. L'idée de S était de fournir des capacités graphiques étendues avec un langage facile à utiliser. Dans le monde d'aujourd'hui, dans le contexte du Big Data,R qui est basé sur le S Le langage de programmation est le logiciel d'analyse le plus populaire.

Le programme suivant illustre l'utilisation de l'analyse exploratoire des données.

Voici un exemple d'analyse exploratoire des données. Ce code est également disponible danspart1/eda/exploratory_data_analysis.R fichier.

library(nycflights13) 
library(ggplot2) 
library(data.table) 
library(reshape2)  

# Using the code from the previous section 
# This computes the mean arrival and departure delays by carrier. 
DT <- as.data.table(flights) 
mean2 = DT[, list(mean_departure_delay = mean(dep_delay, na.rm = TRUE), 
   mean_arrival_delay = mean(arr_delay, na.rm = TRUE)), 
   by = carrier]  

# In order to plot data in R usign ggplot, it is normally needed to reshape the data 
# We want to have the data in long format for plotting with ggplot 
dt = melt(mean2, id.vars = ’carrier’)  

# Take a look at the first rows 
print(head(dt))  

# Take a look at the help for ?geom_point and geom_line to find similar examples 
# Here we take the carrier code as the x axis 
# the value from the dt data.table goes in the y axis 

# The variable column represents the color 
p = ggplot(dt, aes(x = carrier, y = value, color = variable, group = variable)) +
   geom_point() + # Plots points 
   geom_line() + # Plots lines 
   theme_bw() + # Uses a white background 
   labs(list(title = 'Mean arrival and departure delay by carrier', 
      x = 'Carrier', y = 'Mean delay')) 
print(p)  

# Save the plot to disk 
ggsave('mean_delay_by_carrier.png', p,  
   width = 10.4, height = 5.07)

Le code doit produire une image telle que la suivante -