Agile Data Science - Visualisation des données

La visualisation des données joue un rôle très important dans la science des données. Nous pouvons considérer la visualisation de données comme un module de science des données. La science des données comprend plus que la création de modèles prédictifs. Il comprend l'explication des modèles et leur utilisation pour comprendre les données et prendre des décisions. La visualisation des données fait partie intégrante de la présentation des données de la manière la plus convaincante.

Du point de vue de la science des données, la visualisation des données est une fonction de mise en évidence qui montre les changements et les tendances.

Tenez compte des consignes suivantes pour une visualisation efficace des données -

  • Positionnez les données sur une échelle commune.

  • L'utilisation de barres est plus efficace par rapport aux cercles et aux carrés.

  • Une couleur appropriée doit être utilisée pour les nuages ​​de points.

  • Utilisez un graphique à secteurs pour afficher les proportions.

  • La visualisation Sunburst est plus efficace pour les tracés hiérarchiques.

Agile a besoin d'un langage de script simple pour la visualisation des données et avec la science des données en collaboration «Python» est le langage suggéré pour la visualisation des données.

Exemple 1

L'exemple suivant illustre la visualisation des données du PIB calculé pour des années spécifiques. «Matplotlib» est la meilleure bibliothèque pour la visualisation de données en Python. L'installation de cette bibliothèque est illustrée ci-dessous -

Considérez le code suivant pour comprendre cela -

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

Production

Le code ci-dessus génère la sortie suivante -

Il existe de nombreuses façons de personnaliser les graphiques avec des étiquettes d'axe, des styles de ligne et des marqueurs de points. Concentrons-nous sur l'exemple suivant qui démontre la meilleure visualisation des données. Ces résultats peuvent être utilisés pour une meilleure sortie.

Exemple 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

Production

Le code ci-dessus génère la sortie suivante -