Seaborn - Estimations de la densité du noyau

L'estimation de densité de noyau (KDE) est un moyen d'estimer la fonction de densité de probabilité d'une variable aléatoire continue. Il est utilisé pour l'analyse non paramétrique.

Réglage du hist flag à False in distplot donnera le tracé d'estimation de la densité du noyau.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.distplot(df['petal_length'],hist=False)
plt.show()

Production

Ajustement de la distribution paramétrique

distplot() est utilisé pour visualiser la distribution paramétrique d'un jeu de données.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.distplot(df['petal_length'])
plt.show()

Production

Tracé de la distribution bivariée

La distribution bivariée est utilisée pour déterminer la relation entre deux variables. Cela concerne principalement la relation entre deux variables et la façon dont une variable se comporte par rapport à l'autre.

La meilleure façon d'analyser la distribution bivariée dans seaborn est d'utiliser le jointplot() fonction.

Jointplot crée une figure multi-panneaux qui projette la relation bivariée entre deux variables ainsi que la distribution univariée de chaque variable sur des axes séparés.

Nuage de points

Le nuage de points est le moyen le plus pratique de visualiser la distribution où chaque observation est représentée dans un tracé bidimensionnel via les axes x et y.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.jointplot(x = 'petal_length',y = 'petal_width',data = df)
plt.show()

Production

La figure ci-dessus montre la relation entre les petal_length et petal_widthdans les données Iris. Une tendance dans le graphique indique qu'il existe une corrélation positive entre les variables à l'étude.

Tracé Hexbin

Le regroupement hexagonal est utilisé dans l'analyse de données bivariées lorsque la densité des données est clairsemée, c'est-à-dire lorsque les données sont très dispersées et difficiles à analyser à travers des nuages ​​de points.

Un paramètre d'addition appelé «kind» et une valeur «hex» trace le tracé hexbin.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.jointplot(x = 'petal_length',y = 'petal_width',data = df,kind = 'hex')
plt.show()

Estimation de la densité du noyau

L'estimation de la densité par noyau est une manière non paramétrique d'estimer la distribution d'une variable. Dans seaborn, nous pouvons tracer un kde en utilisantjointplot().

Passez la valeur 'kde' au paramètre kind pour tracer le tracé du noyau.

Exemple

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('iris')
sb.jointplot(x = 'petal_length',y = 'petal_width',data = df,kind = 'hex')
plt.show()

Production