Python - Supprimer les mots vides

Les mots vides sont les mots anglais qui n'ajoutent pas beaucoup de sens à une phrase. Ils peuvent être ignorés en toute sécurité sans sacrifier le sens de la phrase. Par exemple, les mots comme le, il, ont etc. De tels mots sont déjà capturés dans le corpus nommé corpus. Nous le téléchargeons d'abord dans notre environnement python.

import nltk
nltk.download('stopwords')

Il téléchargera un fichier avec des mots vides en anglais.

Vérification des mots vides

from nltk.corpus import stopwords
stopwords.words('english')
print stopwords.words() [620:680]

Lorsque nous exécutons le programme ci-dessus, nous obtenons la sortie suivante -

[u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she', 
u"she's", u'her', u'hers', u'herself', u'it', u"it's", u'its', u'itself', u'they', u'them', 
u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this', 
u'that', u"that'll", u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be',
u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing',
u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until',
u'while', u'of', u'at']

Les différentes langues autres que l'anglais qui ont ces mots vides sont comme ci-dessous.

from nltk.corpus import stopwords
print stopwords.fileids()

Lorsque nous exécutons le programme ci-dessus, nous obtenons la sortie suivante -

[u'arabic', u'azerbaijani', u'danish', u'dutch', u'english', u'finnish', 
u'french', u'german', u'greek', u'hungarian', u'indonesian', u'italian', 
u'kazakh', u'nepali', u'norwegian', u'portuguese', u'romanian', u'russian',
u'spanish', u'swedish', u'turkish']

Exemple

Nous utilisons l'exemple ci-dessous pour montrer comment les mots vides sont supprimés de la liste de mots.

from nltk.corpus import stopwords
en_stops = set(stopwords.words('english'))
all_words = ['There', 'is', 'a', 'tree','near','the','river']
for word in all_words: 
    if word not in en_stops:
        print(word)

Lorsque nous exécutons le programme ci-dessus, nous obtenons la sortie suivante -

There
tree
near
river