Python - Mesurer la tendance centrale

La tendance mathématiquement centrale signifie mesurer le centre ou la distribution de l'emplacement des valeurs d'un ensemble de données. Il donne une idée de la valeur moyenne des données dans l'ensemble de données et aussi une indication de l'ampleur de la répartition des valeurs dans l'ensemble de données. Cela aide à son tour à évaluer les chances qu'une nouvelle entrée s'intègre dans l'ensemble de données existant et donc la probabilité de succès.

Il existe trois mesures principales de la tendance centrale qui peuvent être calculées à l'aide des méthodes de la bibliothèque pandas python.

  • Moyenne - C'est la valeur moyenne des données qui est une division de la somme des valeurs avec le nombre de valeurs.

  • Médiane - Il s'agit de la valeur médiane de la distribution lorsque les valeurs sont classées par ordre croissant ou décroissant.

  • Mode - Il s'agit de la valeur la plus courante dans une distribution.

Calcul de la moyenne et de la médiane

Les fonctions pandas peuvent être directement utilisées pour calculer ces valeurs.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print "Mean Values in the Distribution"
print df.mean()
print "*******************************"
print "Median Values in the Distribution"
print df.median()

Ses output est comme suit -

Mean Values in the Distribution
Age       31.833333
Rating     3.743333
dtype: float64
*******************************
Median Values in the Distribution
Age       29.50
Rating     3.79
dtype: float64

Mode de calcul

Le mode peut ou non être disponible dans une distribution selon que les données sont continues ou s'il existe des valeurs qui ont une fréquence maximale. Nous prenons une distribution simple ci-dessous pour connaître le mode. Ici, nous avons une valeur qui a une fréquence maximale dans la distribution.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46])}
#Create a DataFrame
df = pd.DataFrame(d)

print df.mode()

Ses output est comme suit -

Age      Name
0   25.0    Andres
1    NaN  Chanchal
2    NaN    Gasper
3    NaN      Jack
4    NaN     James
5    NaN       Lee
6    NaN    Naviya
7    NaN     Ricky
8    NaN     Smith
9    NaN     Steve
10   NaN       Tom
11   NaN       Vin