Python - Pandas

Pandas est une bibliothèque Python open source utilisée pour la manipulation et l'analyse de données haute performance à l'aide de ses puissantes structures de données. Python with pandas est utilisé dans une variété de domaines académiques et commerciaux, y compris la finance, l'économie, les statistiques, la publicité, l'analyse Web, etc. En utilisant Pandas, nous pouvons accomplir cinq étapes typiques dans le traitement et l'analyse des données, quelle que soit l'origine des données: charger, organiser, manipuler, modéliser et analyser les données.

Vous trouverez ci-dessous quelques-unes des caractéristiques importantes de Pandas qui sont utilisées spécifiquement pour le traitement des données et les travaux d'analyse des données.

Principales caractéristiques des pandas

  • Objet DataFrame rapide et efficace avec indexation par défaut et personnalisée.
  • Outils de chargement de données dans des objets de données en mémoire à partir de différents formats de fichiers.
  • Alignement des données et traitement intégré des données manquantes.
  • Remodelage et pivotement des ensembles de dates.
  • Découpage, indexation et sous-ensemble basés sur des étiquettes de grands ensembles de données.
  • Les colonnes d'une structure de données peuvent être supprimées ou insérées.
  • Regrouper par données pour l'agrégation et les transformations.
  • Fusion et jonction de données haute performance.
  • Fonctionnalité de série temporelle.

Pandas traite les trois structures de données suivantes -

  • Series
  • DataFrame

Ces structures de données sont construites au-dessus du tableau Numpy, ce qui les rend rapides et efficaces.

Dimension et description

La meilleure façon de penser à ces structures de données est que la structure de données de dimension supérieure est un conteneur de sa structure de données de dimension inférieure. Par exemple, DataFrame est un conteneur de Series, Panel est un conteneur de DataFrame.

Structure de données Dimensions La description
Séries 1 Tableau homogène étiqueté 1D, taille immuable.
Cadres de données 2 Structure tabulaire générale 2D étiquetée et modifiable en taille avec des colonnes de typage potentiellement hétérogène.

DataFrame est largement utilisé et ce sont les structures de données les plus importantes.

Séries

La série est une structure de type tableau unidimensionnelle avec des données homogènes. Par exemple, la série suivante est une collection d'entiers 10, 23, 56,…

dix 23 56 17 52 61 73 90 26 72

Points clés de la série

  • Données homogènes
  • Taille immuable
  • Valeurs de données mutables

Trame de données

DataFrame est un tableau à deux dimensions avec des données hétérogènes. Par exemple,

Nom Âge Le sexe Évaluation
Steve 32 Masculin 3,45
Lia 28 Femme 4.6
Vin 45 Masculin 3,9
Katie 38 Femme 2,78

Le tableau représente les données d'une équipe de vente d'une organisation avec leur note de performance globale. Les données sont représentées en lignes et en colonnes. Chaque colonne représente un attribut et chaque ligne représente une personne.

Type de données des colonnes

Les types de données des quatre colonnes sont les suivants -

Colonne Type
Nom Chaîne
Âge Entier
Le sexe Chaîne
Évaluation Flotte

Points clés de la base de données

  • Données hétérogènes
  • Taille Mutable
  • Données mutables

Nous verrons de nombreux exemples d'utilisation de la bibliothèque pandas de python dans les travaux de science des données dans les chapitres suivants.