Python Pandas - Fonctionnalités de base

À présent, nous avons découvert les trois structures de données Pandas et comment les créer. Nous nous concentrerons principalement sur les objets DataFrame en raison de son importance dans le traitement des données en temps réel et discuterons également de quelques autres DataStructures.

Fonctionnalité de base de la série

N ° Sr. Attribut ou méthode et description
1

axes

Renvoie une liste des étiquettes des axes de ligne

2

dtype

Renvoie le dtype de l'objet.

3

empty

Renvoie True si la série est vide.

4

ndim

Renvoie le nombre de dimensions des données sous-jacentes, par définition 1.

5

size

Renvoie le nombre d'éléments dans les données sous-jacentes.

6

values

Renvoie la série sous la forme ndarray.

sept

head()

Renvoie les n premières lignes.

8

tail()

Renvoie les n dernières lignes.

Créons maintenant une série et voyons toutes les opérations d'attributs tabulés ci-dessus.

Exemple

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print s

Ses output est comme suit -

0   0.967853
1  -0.148368
2  -1.395906
3  -1.758394
dtype: float64

axes

Renvoie la liste des étiquettes de la série.

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("The axes are:")
print s.axes

Ses output est comme suit -

The axes are:
[RangeIndex(start=0, stop=4, step=1)]

Le résultat ci-dessus est un format compact d'une liste de valeurs de 0 à 5, c'est-à-dire [0,1,2,3,4].

vide

Renvoie la valeur booléenne indiquant si l'objet est vide ou non. True indique que l'objet est vide.

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("Is the Object empty?")
print s.empty

Ses output est comme suit -

Is the Object empty?
False

ndim

Renvoie le nombre de dimensions de l'objet. Par définition, une série est une structure de données 1D, elle renvoie donc

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s

print ("The dimensions of the object:")
print s.ndim

Ses output est comme suit -

0   0.175898
1   0.166197
2  -0.609712
3  -1.377000
dtype: float64

The dimensions of the object:
1

Taille

Renvoie la taille (longueur) de la série.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(2))
print s
print ("The size of the object:")
print s.size

Ses output est comme suit -

0   3.078058
1  -1.207803
dtype: float64

The size of the object:
2

valeurs

Renvoie les données réelles de la série sous forme de tableau.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s

print ("The actual data series is:")
print s.values

Ses output est comme suit -

0   1.787373
1  -0.605159
2   0.180477
3  -0.140922
dtype: float64

The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]

Tête et queue

Pour afficher un petit échantillon d'une série ou de l'objet DataFrame, utilisez les méthodes head () et tail ().

head() renvoie le premier nlignes (observez les valeurs d'index). Le nombre d'éléments à afficher par défaut est de cinq, mais vous pouvez passer un nombre personnalisé.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s

print ("The first two rows of the data series:")
print s.head(2)

Ses output est comme suit -

The original series is:
0   0.720876
1  -0.765898
2   0.479221
3  -0.139547
dtype: float64

The first two rows of the data series:
0   0.720876
1  -0.765898
dtype: float64

tail() renvoie le dernier nlignes (observez les valeurs d'index). Le nombre d'éléments à afficher par défaut est de cinq, mais vous pouvez passer un nombre personnalisé.

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s

print ("The last two rows of the data series:")
print s.tail(2)

Ses output est comme suit -

The original series is:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64

The last two rows of the data series:
2 -0.608592
3 -2.341413
dtype: float64

Fonctionnalité de base DataFrame

Voyons maintenant ce qu'est la fonctionnalité de base de DataFrame. Les tableaux suivants répertorient les attributs ou méthodes importants qui aident dans la fonctionnalité de base de DataFrame.

N ° Sr. Attribut ou méthode et description
1

T

Transpose les lignes et les colonnes.

2

axes

Renvoie une liste avec les étiquettes d'axe de ligne et d'axe de colonne comme seuls membres.

3

dtypes

Renvoie les dtypes de cet objet.

4

empty

Vrai si NDFrame est entièrement vide [aucun élément]; si l'un des axes est de longueur 0.

5

ndim

Nombre d'axes / dimensions du tableau.

6

shape

Renvoie un tuple représentant la dimensionnalité du DataFrame.

sept

size

Nombre d'éléments dans le NDFrame.

8

values

Représentation numpy de NDFrame.

9

head()

Renvoie les n premières lignes.

dix

tail()

Renvoie les n dernières lignes.

Créons maintenant un DataFrame et voyons comment fonctionnent les attributs mentionnés ci-dessus.

Exemple

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data series is:")
print df

Ses output est comme suit -

Our data series is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

T (Transposer)

Renvoie la transposition du DataFrame. Les lignes et les colonnes seront échangées.

import pandas as pd
import numpy as np
 
# Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

# Create a DataFrame
df = pd.DataFrame(d)
print ("The transpose of the data series is:")
print df.T

Ses output est comme suit -

The transpose of the data series is:
         0     1       2      3      4      5       6
Age      25    26      25     23     30     29      23
Name     Tom   James   Ricky  Vin    Steve  Smith   Jack
Rating   4.23  3.24    3.98   2.56   3.2    4.6     3.8

axes

Renvoie la liste des étiquettes d'axe de ligne et d'axe de colonne.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Row axis labels and column axis labels are:")
print df.axes

Ses output est comme suit -

Row axis labels and column axis labels are:

[RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
dtype='object')]

dtypes

Renvoie le type de données de chaque colonne.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("The data types of each column are:")
print df.dtypes

Ses output est comme suit -

The data types of each column are:
Age     int64
Name    object
Rating  float64
dtype: object

vide

Renvoie la valeur booléenne indiquant si l'objet est vide ou non; True indique que l'objet est vide.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Is the object empty?")
print df.empty

Ses output est comme suit -

Is the object empty?
False

ndim

Renvoie le nombre de dimensions de l'objet. Par définition, DataFrame est un objet 2D.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The dimension of the object is:")
print df.ndim

Ses output est comme suit -

Our object is:
      Age    Name     Rating
0     25     Tom      4.23
1     26     James    3.24
2     25     Ricky    3.98
3     23     Vin      2.56
4     30     Steve    3.20
5     29     Smith    4.60
6     23     Jack     3.80

The dimension of the object is:
2

forme

Renvoie un tuple représentant la dimensionnalité du DataFrame. Tuple (a, b), où a représente le nombre de lignes etb représente le nombre de colonnes.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The shape of the object is:")
print df.shape

Ses output est comme suit -

Our object is:
   Age   Name    Rating
0  25    Tom     4.23
1  26    James   3.24
2  25    Ricky   3.98
3  23    Vin     2.56
4  30    Steve   3.20
5  29    Smith   4.60
6  23    Jack    3.80

The shape of the object is:
(7, 3)

Taille

Renvoie le nombre d'éléments dans le DataFrame.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The total number of elements in our object is:")
print df.size

Ses output est comme suit -

Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The total number of elements in our object is:
21

valeurs

Renvoie les données réelles du DataFrame sous la forme d'un NDarray.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The actual data in our data frame is:")
print df.values

Ses output est comme suit -

Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]

Tête et queue

Pour afficher un petit échantillon d'un objet DataFrame, utilisez le head() et les méthodes tail (). head() renvoie le premier nlignes (observez les valeurs d'index). Le nombre d'éléments à afficher par défaut est de cinq, mais vous pouvez transmettre un nombre personnalisé.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The first two rows of the data frame is:")
print df.head(2)

Ses output est comme suit -

Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The first two rows of the data frame is:
   Age   Name   Rating
0  25    Tom    4.23
1  26    James  3.24

tail() renvoie le dernier nlignes (observez les valeurs d'index). Le nombre d'éléments à afficher par défaut est de cinq, mais vous pouvez transmettre un nombre personnalisé.

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]), 
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The last two rows of the data frame is:")
print df.tail(2)

Ses output est comme suit -

Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The last two rows of the data frame is:
    Age   Name    Rating
5   29    Smith    4.6
6   23    Jack     3.8