Python - Introduction au traitement de texte

Le traitement de texte a une application directe au traitement du langage naturel, également connu sous le nom de NLP. La PNL vise à traiter les langues parlées ou écrites par les humains lorsqu'ils communiquent entre eux. Ceci est différent de la communication entre un ordinateur et un humain où la communication se fane un programme informatique écrit par un humain ou un geste humain comme un clic de souris à une certaine position. La PNL essaie de comprendre le langage naturel parlé par les humains et de le classer, de l'analyser également si nécessaire, d'y répondre. Python dispose d'un riche ensemble de bibliothèques qui répondent aux besoins de la PNL. Le kit d'outils en langage naturel (NLTK) est une suite de telles bibliothèques qui fournit les fonctionnalités requises pour la PNL.

Voici quelques applications qui utilisent NLP et indirectement NLTK de python.

Récapitulation

Plusieurs fois, nous devons obtenir le résumé d'un article de presse, d'une intrigue de film ou d'une grande histoire. Ils sont tous écrits en langage humain et sans PNL, nous devons nous fier à l'interprétation et à la présentation d'un autre humain d'un tel résumé. Mais avec l'aide de la PNL, nous pouvons écrire des programmes pour utiliser NLTK et résumer le texte long avec divers paramètres, comme le pourcentage de texte que nous voulons dans la sortie finale, choisir les mots positifs et négatifs pour le résumé, etc. sur ces techniques de synthèse pour présenter des informations sur l'actualité.

Outils basés sur la voix

Les outils vocaux comme les pommes Siri ou Amazon Alexa s'appuient sur la PNL pour comprendre l'interaction folle avec les humains. Ils ont un grand ensemble de données de formation de mots, de phrases et de grammaire pour interpréter la question ou la commande venant d'un humain et la traiter. Bien qu'il s'agisse de voix, indirectement, il est également traduit en texte et le texte résultant de la voix est pris à travers le système PNL pour produire un résultat.

Extraction d'informations

La mise au rebut Web est un exemple courant d'extraction de données des pages Web à l'aide de code Python. Ici, il peut ne pas être strictement basé sur la PNL mais cela implique un traitement de texte. Par exemple, si nous devons extraire uniquement les en-têtes présents dans une page html, alors nous cherchons la balise h1 dans la structure de la page et trouvons un moyen d'extraire le texte entre ces balises uniquement. Cela nécessite un programme de traitement de texte de python.

Filtrage du spam

Le spam dans les e-mails peut être identifié et éliminé en analysant le texte dans la ligne d'objet ainsi que dans le contenu du message. Comme les e-mails de spam sont généralement envoyés en masse à de nombreux destinataires, même si leurs sujets et contenus ont peu de variations, ils peuvent être mis en correspondance et étiquetés pour les marquer comme spam. Encore une fois, il faut utiliser les bibliothèques NLTK.

La traduction de la langue

La traduction informatisée des langues repose fortement sur la PNL. Comme de plus en plus de langues sont utilisées sur la plateforme en ligne, il devient nécessaire d'automatiser la traduction d'une langue humaine à une autre. Cela impliquera une programmation pour gérer le vocabulaire, la grammaire et le balisage de contexte des langues impliquées dans la traduction. Là encore, NLTK est utilisé pour gérer ces exigences.

Analyse des sentiments

Pour connaître la réaction globale à la performance d'un film, nous devrons peut-être lire des milliers de commentaires du public. Mais cela aussi peut être automatisé en utilisant la classification des commentaires positifs et négatifs à travers l'analyse des mots et des phrases. Et puis mesurer la fréquence des critiques positives et négatives pour trouver le sentiment général du public. Cela nécessite évidemment l'analyse du langage humain écrit par le public et NLTK est ici largement utilisé pour traiter le texte.