Python - Bigrammes

Certains mots anglais se produisent ensemble plus fréquemment. Par exemple - Sky High, faire ou mourir, meilleures performances, fortes pluies, etc. Ainsi, dans un document texte, nous pouvons avoir besoin d'identifier une telle paire de mots qui aidera à l'analyse des sentiments. Tout d'abord, nous devons générer de telles paires de mots à partir de la phrase existante en conservant leurs séquences actuelles. De telles paires sont appelées bigrammes. Python a une fonction bigram dans le cadre de la bibliothèque NLTK qui nous aide à générer ces paires.

Exemple

import nltk
word_data = "The best performance can bring in sky high success."
nltk_tokens = nltk.word_tokenize(word_data)  	
print(list(nltk.bigrams(nltk_tokens)))

Lorsque nous exécutons le programme ci-dessus, nous obtenons la sortie suivante -

[('The', 'best'), ('best', 'performance'), ('performance', 'can'), ('can', 'bring'), 
('bring', 'in'), ('in', 'sky'), ('sky', 'high'), ('high', 'success'), ('success', '.')]

Ce résultat peut être utilisé dans des constatations statistiques sur la fréquence de telles paires dans un texte donné. Cela correspondra au sentiment général des descriptions présentes dans le corps du texte.