Seaborn - Répartition des observations

Dans les nuages ​​de points catégoriels que nous avons traités dans le chapitre précédent, l'approche devient limitée dans les informations qu'elle peut fournir sur la distribution des valeurs au sein de chaque catégorie. Maintenant, en allant plus loin, voyons ce qui peut nous faciliter la comparaison avec les catégories.

Boîtes à moustaches

Boxplot est un moyen pratique de visualiser la distribution des données à travers leurs quartiles.

Les boîtes à moustaches ont généralement des lignes verticales s'étendant des boîtes qui sont appelées moustaches. Ces moustaches indiquent une variabilité en dehors des quartiles supérieur et inférieur, c'est pourquoi les boîtes à moustaches sont également appeléesbox-and-whisker intrigue et box-and-whisker diagramme. Toutes les valeurs aberrantes dans les données sont tracées sous forme de points individuels.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.swarmplot(x = "species", y = "petal_length", data = df)
plt.show()

Production

Les points sur le graphique indiquent la valeur aberrante.

Parcelles de violon

Les graphiques de violon sont une combinaison de la boîte à moustaches et des estimations de densité du noyau. Ainsi, ces graphiques sont plus faciles à analyser et à comprendre la distribution des données.

Utilisons l'ensemble de données de conseils appelé pour en savoir plus sur les parcelles de violon. Cet ensemble de données contient les informations relatives aux pourboires donnés par les clients d'un restaurant.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill", data=df)
plt.show()

Production

Les valeurs de quartile et de moustache de la boîte à moustaches sont affichées à l'intérieur du violon. Comme l'intrigue du violon utilise KDE, la partie la plus large du violon indique la densité la plus élevée et la région étroite représente une densité relativement plus faible. La gamme Inter-Quartile en boxplot et la portion de densité plus élevée en kde tombent dans la même région de chaque catégorie de violon plot.

Le graphique ci-dessus montre la distribution de total_bill sur quatre jours de la semaine. Mais, en plus de cela, si nous voulons voir comment la distribution se comporte par rapport au sexe, explorons-la dans l'exemple ci-dessous.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y = "total_bill",hue = 'sex', data = df)
plt.show()

Production

Maintenant, nous pouvons clairement voir le comportement de dépenses entre les hommes et les femmes. On peut facilement dire que les hommes font plus de factures que les femmes en regardant l'intrigue.

Et, si la variable de teinte n'a que deux classes, nous pouvons embellir l'intrigue en divisant chaque violon en deux au lieu de deux violons un jour donné. Les deux parties du violon se réfèrent à chaque classe dans la variable de teinte.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.violinplot(x = "day", y="total_bill",hue = 'sex', data = df)
plt.show()

Production