Régression logistique en Python - Obtenir des données

Les étapes à suivre pour obtenir des données pour effectuer une régression logistique en Python sont décrites en détail dans ce chapitre.

Téléchargement de l'ensemble de données

Si vous n'avez pas encore téléchargé le jeu de données UCI mentionné précédemment, téléchargez-le maintenant à partir d' ici . Cliquez sur le dossier de données. Vous verrez l'écran suivant -

Téléchargez le fichier bank.zip en cliquant sur le lien indiqué. Le fichier zip contient les fichiers suivants -

Nous utiliserons le fichier bank.csv pour le développement de notre modèle. Le fichier bank-names.txt contient la description de la base de données dont vous aurez besoin ultérieurement. Le fichier bank-full.csv contient un ensemble de données beaucoup plus volumineux que vous pouvez utiliser pour des développements plus avancés.

Ici, nous avons inclus le fichier bank.csv dans le zip source téléchargeable. Ce fichier contient les champs délimités par des virgules. Nous avons également apporté quelques modifications au fichier. Il est recommandé d'utiliser le fichier inclus dans le zip source du projet pour votre apprentissage.

Chargement des données

Pour charger les données du fichier csv que vous venez de copier, tapez l'instruction suivante et exécutez le code.

In [2]: df = pd.read_csv('bank.csv', header=0)

Vous pourrez également examiner les données chargées en exécutant l'instruction de code suivante -

IN [3]: df.head()

Une fois la commande exécutée, vous verrez la sortie suivante -

Fondamentalement, il a imprimé les cinq premières lignes des données chargées. Examinez les 21 colonnes présentes. Nous n'utiliserons que quelques colonnes de celles-ci pour le développement de notre modèle.

Ensuite, nous devons nettoyer les données. Les données peuvent contenir des lignes avecNaN. Pour éliminer ces lignes, utilisez la commande suivante -

IN [4]: df = df.dropna()

Heureusement, le fichier bank.csv ne contient aucune ligne avec NaN, donc cette étape n'est pas vraiment nécessaire dans notre cas. Cependant, en général, il est difficile de découvrir de telles lignes dans une énorme base de données. Il est donc toujours plus sûr d'exécuter l'instruction ci-dessus pour nettoyer les données.

Note - Vous pouvez facilement examiner la taille des données à tout moment en utilisant l'instruction suivante -

IN [5]: print (df.shape)
(41188, 21)

Le nombre de lignes et de colonnes serait imprimé dans la sortie comme indiqué dans la deuxième ligne ci-dessus.

La prochaine chose à faire est d'examiner l'adéquation de chaque colonne pour le modèle que nous essayons de construire.