Python - Pandas

Pandas est une bibliothèque Python open source utilisée pour la manipulation et l'analyse de données haute performance à l'aide de ses puissantes structures de données. Python with pandas est utilisé dans une variété de domaines académiques et commerciaux, y compris la finance, l'économie, les statistiques, la publicité, l'analyse Web, etc. En utilisant Pandas, nous pouvons accomplir cinq étapes typiques dans le traitement et l'analyse des données, quelle que soit l'origine des données: charger, organiser, manipuler, modéliser et analyser les données.

Vous trouverez ci-dessous quelques-unes des caractéristiques importantes de Pandas qui sont utilisées spécifiquement pour le traitement des données et les travaux d'analyse des données.

Principales caractéristiques des pandas

Objet DataFrame rapide et efficace avec indexation par défaut et personnalisée.
Outils de chargement de données dans des objets de données en mémoire à partir de différents formats de fichiers.
Alignement des données et traitement intégré des données manquantes.
Remodelage et pivotement des ensembles de dates.
Découpage, indexation et sous-ensemble basés sur des étiquettes de grands ensembles de données.
Les colonnes d'une structure de données peuvent être supprimées ou insérées.
Regrouper par données pour l'agrégation et les transformations.
Fusion et jonction de données haute performance.
Fonctionnalité de série temporelle.

Pandas traite les trois structures de données suivantes -

Series
DataFrame

Ces structures de données sont construites au-dessus du tableau Numpy, ce qui les rend rapides et efficaces.

Dimension et description

La meilleure façon de penser à ces structures de données est que la structure de données de dimension supérieure est un conteneur de sa structure de données de dimension inférieure. Par exemple, DataFrame est un conteneur de Series, Panel est un conteneur de DataFrame.

Structure de données	Dimensions	La description
Séries	1	Tableau homogène étiqueté 1D, taille immuable.
Cadres de données	2	Structure tabulaire générale 2D étiquetée et modifiable en taille avec des colonnes de typage potentiellement hétérogène.

DataFrame est largement utilisé et ce sont les structures de données les plus importantes.

Séries

La série est une structure de type tableau unidimensionnelle avec des données homogènes. Par exemple, la série suivante est une collection d'entiers 10, 23, 56,…

dix	23	56	17	52	61	73	90	26	72

Points clés de la série

Données homogènes
Taille immuable
Valeurs de données mutables

Trame de données

DataFrame est un tableau à deux dimensions avec des données hétérogènes. Par exemple,

Nom	Âge	Le sexe	Évaluation
Steve	32	Masculin	3,45
Lia	28	Femme	4.6
Vin	45	Masculin	3,9
Katie	38	Femme	2,78

Le tableau représente les données d'une équipe de vente d'une organisation avec leur note de performance globale. Les données sont représentées en lignes et en colonnes. Chaque colonne représente un attribut et chaque ligne représente une personne.

Type de données des colonnes

Les types de données des quatre colonnes sont les suivants -

Colonne	Type
Nom	Chaîne
Âge	Entier
Le sexe	Chaîne
Évaluation	Flotte

Points clés de la base de données

Données hétérogènes
Taille Mutable
Données mutables

Nous verrons de nombreux exemples d'utilisation de la bibliothèque pandas de python dans les travaux de science des données dans les chapitres suivants.

↰ Previous page Next page ↱

Python - Pandas

Principales caractéristiques des pandas

Dimension et description

Séries

Points clés de la série

Trame de données

Type de données des colonnes

Points clés de la base de données

Traitement des données Python

Tutoriel sur la science des données Python

Visualisation des données Python

Analyse des données statistiques