AI - Traitement du langage naturel

Le traitement du langage naturel (PNL) fait référence à une méthode de communication par IA avec des systèmes intelligents utilisant un langage naturel tel que l'anglais.

Le traitement du langage naturel est nécessaire lorsque vous souhaitez qu'un système intelligent tel qu'un robot fonctionne selon vos instructions, lorsque vous souhaitez entendre la décision d'un système expert clinique basé sur le dialogue, etc.

Le domaine de la PNL consiste à fabriquer des ordinateurs pour effectuer des tâches utiles avec les langages naturels que les humains utilisent. L'entrée et la sortie d'un système NLP peuvent être -

  • Speech
  • Texte écrit

Composantes de la PNL

Il y a deux composants de la PNL comme donné -

Compréhension du langage naturel (NLU)

La compréhension implique les tâches suivantes -

  • Cartographie de l'entrée donnée en langage naturel en représentations utiles.
  • Analyser différents aspects de la langue.

Génération du langage naturel (NLG)

C'est le processus de production de phrases et de phrases significatives sous forme de langage naturel à partir d'une représentation interne.

Cela implique -

  • Text planning - Cela comprend la récupération du contenu pertinent de la base de connaissances.

  • Sentence planning - Cela comprend le choix des mots requis, la formation de phrases significatives, la définition du ton de la phrase.

  • Text Realization - Il mappe le plan de la phrase dans la structure de la phrase.

Le NLU est plus difficile que le NLG.

Difficultés en NLU

NL a une forme et une structure extrêmement riches.

C'est très ambigu. Il peut y avoir différents niveaux d'ambiguïté -

  • Lexical ambiguity - C'est à un niveau très primitif tel que le niveau des mots.

  • Par exemple, traiter le mot «planche» comme un nom ou un verbe?

  • Syntax Level ambiguity - Une phrase peut être analysée de différentes manières.

  • Par exemple, "Il a soulevé le scarabée avec un bonnet rouge." - A-t-il utilisé une casquette pour soulever le scarabée ou il a soulevé un scarabée qui avait une casquette rouge?

  • Referential ambiguity- Se référant à quelque chose utilisant des pronoms. Par exemple, Rima est allée à Gauri. Elle a dit: «Je suis fatiguée.» - Qui est exactement fatigué?

  • Une entrée peut signifier différentes significations.

  • De nombreuses entrées peuvent signifier la même chose.

Terminologie PNL

  • Phonology - C'est l'étude de l'organisation systématique du son.

  • Morphology - C'est une étude de la construction de mots à partir d'unités primitives significatives.

  • Morpheme - C'est l'unité primitive de signification dans une langue.

  • Syntax- Il se réfère à l'arrangement des mots pour faire une phrase. Il s'agit également de déterminer le rôle structurel des mots dans la phrase et dans les phrases.

  • Semantics - Il s'intéresse à la signification des mots et à la manière de combiner les mots en phrases et phrases significatives.

  • Pragmatics - Il traite de l'utilisation et de la compréhension des phrases dans différentes situations et de la manière dont l'interprétation de la phrase est affectée.

  • Discourse - Il traite de la façon dont la phrase immédiatement précédente peut affecter l'interprétation de la phrase suivante.

  • World Knowledge - Il comprend les connaissances générales sur le monde.

Étapes de la PNL

Il y a cinq étapes générales -

  • Lexical Analysis- Il s'agit d'identifier et d'analyser la structure des mots. Lexique d'une langue désigne l'ensemble des mots et des phrases d'une langue. L'analyse lexicale divise l'ensemble du txt en paragraphes, phrases et mots.

  • Syntactic Analysis (Parsing)- Cela implique l'analyse des mots dans la phrase pour la grammaire et l'organisation des mots d'une manière qui montre la relation entre les mots. La phrase telle que «L'école va au garçon» est rejetée par l'analyseur syntaxique anglais.

  • Semantic Analysis- Il tire la signification exacte ou la signification du dictionnaire à partir du texte. La signification du texte est vérifiée. Cela se fait en mappant des structures syntaxiques et des objets dans le domaine de la tâche. L'analyseur sémantique ne tient pas compte des phrases telles que «crème glacée chaude».

  • Discourse Integration- La signification de toute phrase dépend de la signification de la phrase juste avant. En outre, il apporte également le sens de la phrase immédiatement suivante.

  • Pragmatic Analysis- Pendant ce temps, ce qui a été dit est réinterprété sur ce que cela signifiait réellement. Il s'agit de dériver les aspects de la langue qui nécessitent une connaissance du monde réel.

Aspects de mise en œuvre de l'analyse syntaxique

Il existe un certain nombre d'algorithmes que les chercheurs ont développés pour l'analyse syntaxique, mais nous ne considérons que les méthodes simples suivantes -

  • Grammaire sans contexte
  • Analyseur de haut en bas

Voyons-les en détail -

Grammaire sans contexte

C'est la grammaire qui consiste en des règles avec un seul symbole sur le côté gauche des règles de réécriture. Créons une grammaire pour analyser une phrase -

"L'oiseau picore les grains"

Articles (DET)- a | un | la

Nouns- oiseau | oiseaux | grain | céréales

Noun Phrase (NP)- Article + Nom | Article + Adjectif + Nom

= DET N | DET ADJ N

Verbs- coups de bec | picorer | picoré

Verb Phrase (VP)- NP V | V NP

Adjectives (ADJ)- beau | petit | chant

L'arbre d'analyse décompose la phrase en parties structurées afin que l'ordinateur puisse facilement la comprendre et la traiter. Pour que l'algorithme d'analyse puisse construire cet arbre d'analyse, un ensemble de règles de réécriture, qui décrivent quelles arborescences sont légales, doit être construit.

Ces règles disent qu'un certain symbole peut être développé dans l'arborescence par une séquence d'autres symboles. Selon la règle logique du premier ordre, s'il y a deux chaînes Noun Phrase (NP) et Verb Phrase (VP), alors la chaîne combinée par NP suivie de VP est une phrase. Les règles de réécriture de la phrase sont les suivantes -

S → NP VP

NP → DET N | DET ADJ N

VP → V NP

Lexocon −

DET → a | la

ADJ → belle | percher

N → oiseau | oiseaux | grain | céréales

V → picorer | picore | picorer

L'arbre d'analyse peut être créé comme indiqué -

Considérez maintenant les règles de réécriture ci-dessus. Puisque V peut être remplacé par les deux, «picorer» ou «picorer», des phrases telles que «l'oiseau picore les grains» peuvent être incorrectement autorisées. c'est-à-dire que l'erreur d'accord sujet-verbe est approuvée comme correcte.

Merit - Le style de grammaire le plus simple, donc largement utilisé.

Demerits −

  • Ils ne sont pas très précis. Par exemple, «Les grains picorent l'oiseau», est une syntaxe correcte selon l'analyseur, mais même si cela n'a aucun sens, l'analyseur le prend comme une phrase correcte.

  • Pour faire ressortir une haute précision, plusieurs ensembles de grammaire doivent être préparés. Cela peut nécessiter un ensemble de règles complètement différentes pour analyser les variations singulières et plurielles, les phrases passives, etc., ce qui peut conduire à la création d'un vaste ensemble de règles ingérables.

Analyseur de haut en bas

Ici, l'analyseur commence par le symbole S et tente de le réécrire dans une séquence de symboles terminaux qui correspond aux classes des mots de la phrase d'entrée jusqu'à ce qu'il se compose entièrement de symboles terminaux.

Ceux-ci sont ensuite vérifiés avec la phrase d'entrée pour voir si elle correspond. Sinon, le processus est recommencé avec un ensemble de règles différent. Ceci est répété jusqu'à ce qu'une règle spécifique soit trouvée qui décrit la structure de la phrase.

Merit - Il est simple à mettre en œuvre.

Demerits −

  • Elle est inefficace, car le processus de recherche doit être répété si une erreur se produit.
  • Vitesse de travail lente.