Nettoyage des données avec des fonctions de texte

Les données que vous obtenez de différentes sources ne sont souvent pas sous une forme prête pour l'analyse. Dans ce chapitre, vous comprendrez comment préparer vos données sous forme de texte pour analyse.

Au départ, vous devez nettoyer les données. Le nettoyage des données comprend la suppression des caractères indésirables du texte. Ensuite, vous devez structurer les données sous la forme dont vous avez besoin pour une analyse plus approfondie. Vous pouvez faire de même en -

  • Recherche des modèles de texte requis avec les fonctions de texte.
  • Extraction de valeurs de données à partir de texte.
  • Formatage des données avec des fonctions de texte.
  • Exécuter des opérations de données avec les fonctions de texte.

Suppression des caractères indésirables du texte

Lorsque vous importez des données depuis une autre application, elles peuvent contenir des caractères non imprimables et / ou des espaces en excès. Les espaces excédentaires peuvent être -

  • des espaces de premier plan, et / ou
  • des espaces supplémentaires entre les mots.

Si vous triez ou analysez ces données, vous obtiendrez des résultats erronés.

Prenons l'exemple suivant -

Il s'agit des données brutes que vous avez obtenues sur les informations sur le produit contenant l'identifiant du produit, la description du produit et le prix. Le caractère «|» sépare le champ de chaque ligne.

Lorsque vous importez ces données dans une feuille de calcul Excel, il se présente comme suit -

Comme vous le voyez, toutes les données se trouvent dans une seule colonne. Vous devez structurer ces données pour effectuer l'analyse des données. Cependant, vous devez d'abord nettoyer les données.

Vous devez supprimer tous les caractères non imprimables et les espaces en excès qui pourraient être présents dans les données. Vous pouvez utiliser la fonction CLEAN et la fonction TRIM à cet effet.

S.No. Description de la fonction
1.

CLEAN

Supprime tous les caractères non imprimables du texte

2.

TRIM

Supprime les espaces du texte

  • Sélectionnez les cellules C3 - C11.
  • Tapez = TRIM (CLEAN (B3)), puis appuyez sur CTRL + Entrée.

La formule est remplie dans les cellules C3 - C11.

Le résultat sera comme indiqué ci-dessous -

Recherche des modèles de texte requis avec les fonctions de texte

Pour structurer vos données, vous devrez peut-être effectuer certaines correspondances de modèles de texte sur la base desquelles vous pouvez extraire les valeurs de données. Certaines des fonctions de texte utiles à cet effet sont:

S.No. Description de la fonction
1.

EXACT

Vérifie si deux valeurs de texte sont identiques

2.

FIND

Recherche une valeur de texte dans une autre (sensible à la casse)

3.

SEARCH

Recherche une valeur de texte dans une autre (non sensible à la casse)

Extraction de valeurs de données à partir de texte

Vous devez extraire les données requises du texte afin de le structurer. Dans l'exemple ci-dessus, par exemple, vous devez placer les données dans trois colonnes: ProductID, Product_Description et Price.

Vous pouvez extraire des données de l'une des manières suivantes:

  • Extraction de valeurs de données avec l'assistant de conversion de texte en colonnes
  • Extraction de valeurs de données avec des fonctions de texte
  • Extraction de valeurs de données avec remplissage flash

Extraction de valeurs de données avec l'assistant de conversion de texte en colonnes

Vous pouvez utiliser le Convert Text to Columns Wizard pour extraire les valeurs de données dans des colonnes Excel si vos champs sont -

  • Délimité par un caractère, ou
  • Aligné en colonnes avec des espaces entre chaque champ.

Dans l'exemple ci-dessus, les champs sont délimités par le caractère «|». Par conséquent, vous pouvez utiliser leConvert Text to Columns sorcier.

  • Sélectionnez les données.

  • Copiez et collez les valeurs au même endroit. Autrement,Convert Text to Columns prend les fonctions plutôt que les données elles-mêmes comme entrée.

  • Sélectionnez les données.

  • Cliquer sur Text to Columns dans le Data Tools groupe sous Data Tab sur le ruban.

Step 1 - Assistant de conversion de texte en colonnes - L'étape 1 sur 3 apparaît.

  • Sélectionnez Délimité.
  • Cliquez sur Suivant.

Step 2 - Assistant de conversion de texte en colonnes - L'étape 2 sur 3 apparaît.

  • Sous Delimiters, sélectionnez Other.

  • Dans la case à côté de Other, tapez le caractère |

  • Cliquez sur Next.

Step 3 - Assistant de conversion de texte en colonnes - L'étape 3 sur 3 apparaît.

Dans cet écran, vous pouvez sélectionner chaque colonne de vos données dans l'assistant et définir le format de cette colonne.

  • Pour Destination, sélectionnez la cellule D3.

  • Vous pouvez cliquer Advanced, Et mettre Decimal Separator et Thousands Separator dans le Advanced Text Import Settings boîte de dialogue qui apparaît.

  • Cliquez sur Finish.

Vos données, qui sont converties en colonnes, apparaissent dans les trois colonnes - D, E et F.

  • Nommez les en-têtes de colonne comme ProductID, Product_Description et Price.

Extraction de valeurs de données avec des fonctions de texte

Supposons que les champs de vos données ne soient ni délimités par un caractère ni alignés dans des colonnes avec des espaces entre chaque champ, vous pouvez utiliser des fonctions de texte pour extraire des valeurs de données. Même dans le cas où les champs sont délimités, vous pouvez toujours utiliser des fonctions de texte pour extraire des données.

Certaines des fonctions de texte utiles à cette fin sont:

S.No. Description de la fonction
1.

LEFT

Renvoie les caractères les plus à gauche d'une valeur de texte

2.

RIGHT

Renvoie les caractères les plus à droite d'une valeur de texte

3.

MID

Renvoie un nombre spécifique de caractères d'une chaîne de texte commençant à la position que vous spécifiez

4.

LEN

Renvoie le nombre de caractères dans une chaîne de texte

Vous pouvez également combiner deux ou plusieurs de ces fonctions de texte selon les données dont vous disposez, pour extraire les valeurs de données requises. Par exemple, en utilisant une combinaison de fonctions LEFT, RIGHT et VALUE ou en utilisant une combinaison de fonctions FIND, LEFT, LEN et MID.

Dans l'exemple ci-dessus,

  • Tous les personnages laissés au premier | donnez le nom ProductID.

  • Tous les personnages jusqu'au second | donnez le nom Prix.

  • Tous les personnages qui se trouvent entre le premier | et deuxième | donnez le nom Product_Description.

  • Chacun | a un espace avant et après.

En observant ces informations, vous pouvez extraire les valeurs de données avec les étapes suivantes -

  • Trouvez la position du premier | -First | Position

    • Vous pouvez utiliser la fonction FIND

  • Trouvez la position du second | -Second | Position

    • Vous pouvez à nouveau utiliser la fonction FIND

  • Commençant à (First | Position - 2) Les caractères du texte donnent le ProductID

    • Vous pouvez utiliser la fonction GAUCHE

  • (First | Position + 2) à (Second | Position - 2) Les caractères du texte donnent la description du produit

    • Vous pouvez utiliser la fonction MID

  • (Second | Position + 2) pour terminer les caractères du texte donner un prix

    • Vous pouvez utiliser la fonction DROITE

Le résultat sera comme indiqué ci-dessous -

Vous pouvez observer que les valeurs de la colonne de prix sont des valeurs textuelles. Pour effectuer des calculs sur ces valeurs, vous devez formater les cellules correspondantes. Vous pouvez consulter la section ci-dessous pour comprendre le formatage du texte.

Extraction de valeurs de données avec remplissage flash

Utilisation d'Excel Flash Fillest une autre façon d'extraire des valeurs de données du texte. Cependant, cela ne fonctionne que lorsque Excel est capable de trouver un modèle dans les données.

Step 1 - Créez trois colonnes pour ProductID, Product_Description et Price à côté des données.

Step 2 - Copiez et collez les valeurs de C3, D3 et E3 à partir de B3.

Step 3 - Sélectionnez la cellule C3 et cliquez sur Flash Fill dans le Data Tools groupe sur le Datalanguette. Toutes les valeurs de ProductID sont remplies.

Step 4- Répétez les étapes ci-dessus pour Product_Description et Price. Les données sont remplies.

Formatage des données avec des fonctions de texte

Excel dispose de plusieurs fonctions de texte intégrées que vous pouvez utiliser pour mettre en forme des données contenant du texte. Ceux-ci comprennent -

Functions that format the Text as per your need -

S.No. Description de la fonction
1.

LOWER

Convertit le texte en minuscules

S.No. Description de la fonction
1.

UPPER

Convertit le texte en majuscules

2.

PROPER

Met en majuscule la première lettre de chaque mot d'une valeur de texte

Functions that convert and/or format the Numbers as Text -

S.No. Description de la fonction
1.

DOLLAR

Convertit un nombre en texte, en utilisant le format monétaire $ (dollar)

2.

FIXED

Formate un nombre sous forme de texte avec un nombre fixe de décimales

3.

TEXT

Formate un nombre et le convertit en texte

Functions that convert the Text to Numbers -

S.No. Description de la fonction
1.

VALUE

Convertit un argument de texte en nombre

Executing Data Operations with the Text Functions

Vous devrez peut-être effectuer certaines opérations de texte sur vos données. Par exemple, si les identifiants de connexion pour les employés sont modifiés en un nouveau format dans une organisation, en fonction du changement de format, des remplacements de texte peuvent être nécessaires.

Les fonctions de texte suivantes vous aident à effectuer des opérations de texte sur vos données contenant du texte -

S.No. Description de la fonction
1.

REPLACE

Remplace les caractères dans le texte

2.

SUBSTITUTE

Remplace le nouveau texte par l'ancien texte dans une chaîne de texte

3.

CONCATENATE

Joint plusieurs éléments de texte en un seul élément de texte

4.

CONCAT

Combine le texte de plusieurs plages et / ou chaînes, mais il ne fournit pas le délimiteur ou les arguments IgnoreEmpty.

5.

TEXTJOIN

Combine le texte de plusieurs plages et / ou chaînes, et inclut un délimiteur que vous spécifiez entre chaque valeur de texte qui sera combinée. Si le délimiteur est une chaîne de texte vide, cette fonction concaténera efficacement les plages.

6.

REPT

Répète le texte un certain nombre de fois