Seaborn - Grille de facettes

Une approche utile pour explorer les données de dimension moyenne consiste à dessiner plusieurs instances du même graphique sur différents sous-ensembles de votre ensemble de données.

Cette technique est communément appelée «tracé en treillis» ou «trellis» et elle est liée à l'idée de «petits multiples».

Pour utiliser ces fonctionnalités, vos données doivent se trouver dans un Pandas DataFrame.

Tracer de petits multiples de sous-ensembles de données

Dans le chapitre précédent, nous avons vu l'exemple FacetGrid où la classe FacetGrid aide à visualiser la distribution d'une variable ainsi que la relation entre plusieurs variables séparément dans des sous-ensembles de votre ensemble de données à l'aide de plusieurs panneaux.

Un FacetGrid peut être dessiné avec jusqu'à trois dimensions - ligne, col et teinte. Les deux premiers ont une correspondance évidente avec le tableau d'axes résultant; Considérez la variable de teinte comme une troisième dimension le long d'un axe de profondeur, où différents niveaux sont tracés avec des couleurs différentes.

FacetGrid object prend un dataframe comme entrée et les noms des variables qui formeront les dimensions de ligne, de colonne ou de teinte de la grille.

Les variables doivent être catégoriques et les données à chaque niveau de la variable seront utilisées pour une facette le long de cet axe.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
g = sb.FacetGrid(df, col = "time")
plt.show()

Production

Dans l'exemple ci-dessus, nous venons d'initialiser le facetgrid objet qui ne dessine rien dessus.

La principale approche pour visualiser les données sur cette grille consiste à FacetGrid.map()méthode. Regardons la distribution des pointes dans chacun de ces sous-ensembles, à l'aide d'un histogramme.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
g = sb.FacetGrid(df, col = "time")
g.map(plt.hist, "tip")
plt.show()

Production

Le nombre de tracés est supérieur à un en raison du paramètre col. Nous avons discuté du paramètre col dans nos chapitres précédents.

Pour créer un tracé relationnel, transmettez les noms de variables multiples.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
g = sb.FacetGrid(df, col = "sex", hue = "smoker")
g.map(plt.scatter, "total_bill", "tip")
plt.show()

Production