Introduction aux structures de données

Pandas traite les trois structures de données suivantes -

  • Series
  • DataFrame
  • Panel

Ces structures de données sont construites au-dessus du tableau Numpy, ce qui signifie qu'elles sont rapides.

Dimension et description

La meilleure façon de penser à ces structures de données est que la structure de données de dimension supérieure est un conteneur de sa structure de données de dimension inférieure. Par exemple, DataFrame est un conteneur de Series, Panel est un conteneur de DataFrame.

Structure de données Dimensions La description
Séries 1 Tableau homogène marqué 1D, taille immuable.
Cadres de données 2 Structure tabulaire générale 2D étiquetée et modifiable en taille avec des colonnes de typage potentiellement hétérogène.
Panneau 3 Tableau général étiqueté 3D, taille-mutable.

La construction et la gestion de tableaux à deux dimensions ou plus est une tâche fastidieuse, la charge incombe à l'utilisateur de prendre en compte l'orientation de l'ensemble de données lors de l'écriture des fonctions. Mais en utilisant les structures de données Pandas, l'effort mental de l'utilisateur est réduit.

Par exemple, avec des données tabulaires (DataFrame), il est plus sémantiquement utile de penser à la index (les lignes) et le columns plutôt que l'axe 0 et l'axe 1.

Mutabilité

Toutes les structures de données Pandas sont modifiables en valeur (peuvent être modifiées) et à l'exception des séries, toutes sont modifiables en taille. La série est de taille immuable.

Note- DataFrame est largement utilisé et l'une des structures de données les plus importantes. Le panneau est beaucoup moins utilisé.

Séries

La série est une structure de type tableau unidimensionnelle avec des données homogènes. Par exemple, la série suivante est une collection d'entiers 10, 23, 56,…

dix 23 56 17 52 61 73 90 26 72

Points clés

  • Données homogènes
  • Taille immuable
  • Valeurs de données mutables

Trame de données

DataFrame est un tableau à deux dimensions avec des données hétérogènes. Par exemple,

Nom Âge Le sexe Évaluation
Steve 32 Masculin 3,45
Lia 28 Femme 4.6
Vin 45 Masculin 3,9
Katie 38 Femme 2,78

Le tableau représente les données d'une équipe de vente d'une organisation avec leur note de performance globale. Les données sont représentées en lignes et en colonnes. Chaque colonne représente un attribut et chaque ligne représente une personne.

Type de données des colonnes

Les types de données des quatre colonnes sont les suivants -

Colonne Type
Nom Chaîne
Âge Entier
Le sexe Chaîne
Évaluation Flotte

Points clés

  • Données hétérogènes
  • Taille Mutable
  • Données mutables

Panneau

Panel est une structure de données tridimensionnelle avec des données hétérogènes. Il est difficile de représenter le panneau sous forme de représentation graphique. Mais un panneau peut être illustré comme un conteneur de DataFrame.

Points clés

  • Données hétérogènes
  • Taille Mutable
  • Données mutables