Régression logistique en Python - Fractionnement des données

Nous avons environ quarante et un mille disques. Si nous utilisons toutes les données pour la création de modèles, nous ne disposerons d'aucune donnée à tester. Donc, généralement, nous divisons l'ensemble de données en deux parties, disons un pourcentage de 70/30. Nous utilisons 70% des données pour la construction de modèles et le reste pour tester la précision de la prédiction de notre modèle créé. Vous pouvez utiliser un ratio de fractionnement différent selon vos besoins.

Création d'un tableau d'entités

Avant de diviser les données, nous séparons les données en deux tableaux X et Y. Le tableau X contient toutes les fonctionnalités (colonnes de données) que nous voulons analyser et le tableau Y est un tableau unidimensionnel de valeurs booléennes qui est la sortie de la prédiction. Pour comprendre cela, exécutons du code.

Tout d'abord, exécutez l'instruction Python suivante pour créer le tableau X -

In [17]: X = data.iloc[:,1:]

Pour examiner le contenu de X utilisation headpour imprimer quelques enregistrements initiaux. L'écran suivant montre le contenu du tableau X.

In [18]: X.head ()

Le tableau comporte plusieurs lignes et 23 colonnes.

Ensuite, nous allons créer un tableau de sortie contenant "y" valeurs.

Création d'un tableau de sortie

Pour créer un tableau pour la colonne de valeur prédite, utilisez l'instruction Python suivante -

In [19]: Y = data.iloc[:,0]

Examinez son contenu en appelant head. La sortie d'écran ci-dessous montre le résultat -

In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

Maintenant, divisez les données à l'aide de la commande suivante -

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

Cela créera les quatre tableaux appelés X_train, Y_train, X_test, and Y_test. Comme précédemment, vous pouvez examiner le contenu de ces tableaux en utilisant la commande head. Nous utiliserons les tableaux X_train et Y_train pour entraîner notre modèle et les tableaux X_test et Y_test pour tester et valider.

Maintenant, nous sommes prêts à construire notre classificateur. Nous l'examinerons dans le prochain chapitre.