Gensim - Modélisation de sujets

Ce chapitre traite de la modélisation des sujets concernant Gensim.

Pour annoter nos données et comprendre la structure des phrases, l'une des meilleures méthodes consiste à utiliser des algorithmes linguistiques informatiques. Sans aucun doute, avec l'aide de ces algorithmes linguistiques informatiques, nous pouvons comprendre quelques détails plus fins sur nos données, mais,

  • Pouvons-nous savoir quels types de mots apparaissent plus souvent que d'autres dans notre corpus?

  • Pouvons-nous regrouper nos données?

  • Pouvons-nous être des thèmes sous-jacents dans nos données?

Nous pourrions réaliser tout cela avec l'aide de la modélisation de sujets. Examinons donc en profondeur le concept de modèles de sujets.

Que sont les modèles thématiques?

Un modèle de sujet peut être défini comme le modèle probabiliste contenant des informations sur les sujets de notre texte. Mais ici, deux questions importantes se posent qui sont les suivantes -

Première, what exactly a topic is?

Le sujet, comme son nom l'indique, concerne les idées sous-jacentes ou les thèmes représentés dans notre texte. Pour vous donner un exemple, le corpus contenantnewspaper articles aurait les sujets liés à finance, weather, politics, sports, various states news etc.

Seconde, what is the importance of topic models in text processing?

Comme nous savons que, afin d'identifier la similitude dans le texte, nous pouvons faire des techniques de recherche d'informations et de recherche en utilisant des mots. Mais, avec l'aide de modèles de sujets, nous pouvons maintenant rechercher et organiser nos fichiers texte en utilisant des sujets plutôt que des mots.

En ce sens, nous pouvons dire que les sujets sont la distribution probabiliste des mots. C'est pourquoi, en utilisant des modèles de sujets, nous pouvons décrire nos documents comme des distributions probabilistes de sujets.

Objectifs des modèles thématiques

Comme indiqué ci-dessus, la modélisation des sujets se concentre sur les idées et les thèmes sous-jacents. Ses principaux objectifs sont les suivants -

  • Les modèles de sujets peuvent être utilisés pour la synthèse de texte.

  • Ils peuvent être utilisés pour organiser les documents. Par exemple, nous pouvons utiliser la modélisation de sujets pour regrouper des articles de presse dans une section organisée / interconnectée, comme organiser tous les articles de presse liés àcricket.

  • Ils peuvent améliorer les résultats de la recherche. Comment? Pour une requête de recherche, nous pouvons utiliser des modèles de sujets pour révéler le document contenant un mélange de mots-clés différents, mais qui ont la même idée.

  • Le concept de recommandations est très utile pour le marketing. Il est utilisé par divers sites Web d'achats en ligne, sites Web d'actualités et bien d'autres. Les modèles de sujets aident à faire des recommandations sur ce qu'il faut acheter, ce qu'il faut lire ensuite, etc. Ils le font en trouvant des matériaux ayant un sujet commun dans la liste.

Algorithmes de modélisation de sujet dans Gensim

Sans aucun doute, Gensim est la boîte à outils de modélisation de sujet la plus populaire. Sa disponibilité gratuite et être en Python le rendent plus populaire. Dans cette section, nous discuterons de certains algorithmes de modélisation de sujets les plus populaires. Ici, nous nous concentrerons sur «quoi» plutôt que «comment» car Gensim les résume très bien pour nous.

Allocation de dirichlet latente (LDA)

L'allocation de Dirichlet latente (LDA) est la technique la plus courante et la plus populaire actuellement utilisée pour la modélisation de sujets. C'est celui que les chercheurs de Facebook ont ​​utilisé dans leur article de recherche publié en 2013. Il a été proposé pour la première fois par David Blei, Andrew Ng et Michael Jordan en 2003. Ils ont proposé LDA dans leur article intitulé simplementLatent Dirichlet allocation.

Caractéristiques de LDA

En savoir plus sur cette merveilleuse technique à travers ses caractéristiques -

Probabilistic topic modeling technique

LDA est une technique de modélisation probabiliste de sujets. Comme nous l'avons mentionné ci-dessus, dans la modélisation de sujets, nous supposons que dans toute collection de documents interdépendants (il peut s'agir d'articles universitaires, d'articles de journaux, de publications Facebook, de Tweets, de courriers électroniques, etc.), il existe des combinaisons de sujets inclus dans chaque document. .

Le principal objectif de la modélisation probabiliste de sujets est de découvrir la structure de sujets cachés pour la collection de documents interdépendants. Les trois éléments suivants sont généralement inclus dans une structure thématique -

  • Topics

  • Répartition statistique des thèmes parmi les documents

  • Mots dans un document comprenant le sujet

Work in an unsupervised way

LDA fonctionne de manière non supervisée. C'est parce que LDA utilise des probabilités conditionnelles pour découvrir la structure de rubrique cachée. Cela suppose que les sujets sont inégalement répartis dans la collection de documents interdépendants.

Very easy to create it in Gensim

Dans Gensim, il est très facile de créer un modèle LDA. nous devons juste spécifier le corpus, le mappage du dictionnaire et le nombre de sujets que nous aimerions utiliser dans notre modèle.

Model=models.LdaModel(corpus, id2word=dictionary, num_topics=100)

May face computationally intractable problem

Le calcul de la probabilité de chaque structure de sujet possible est un défi de calcul auquel LDA est confronté. C'est difficile car il doit calculer la probabilité de chaque mot observé sous chaque structure de sujet possible. Si nous avons un grand nombre de sujets et de mots, LDA peut être confronté à un problème insoluble sur le plan informatique.

Indexation sémantique latente (LSI)

Les algorithmes de modélisation de sujets qui ont été implémentés pour la première fois dans Gensim avec Latent Dirichlet Allocation (LDA) est Latent Semantic Indexing (LSI). Il est également appeléLatent Semantic Analysis (LSA).

Il a été breveté en 1988 par Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landaur, Karen Lochbaum et Lynn Streeter. Dans cette section, nous allons configurer notre modèle LSI. Cela peut être fait de la même manière que pour la configuration du modèle LDA. nous devons importer le modèle LSI degensim.models.

Rôle de LSI

En fait, LSI est une technique NLP, en particulier dans la sémantique distributionnelle. Il analyse la relation entre un ensemble de documents et les termes que ces documents contiennent. Si nous parlons de son fonctionnement, alors il construit une matrice qui contient le nombre de mots par document à partir d'un grand morceau de texte.

Une fois construit, pour réduire le nombre de lignes, le modèle LSI utilise une technique mathématique appelée décomposition en valeurs singulières (SVD). En plus de réduire le nombre de lignes, il préserve également la structure de similitude entre les colonnes. Dans la matrice, les lignes représentent des mots uniques et les colonnes représentent chaque document. Il fonctionne sur la base d'une hypothèse distributionnelle, c'est-à-dire qu'il suppose que les mots dont le sens est proche apparaîtront dans le même type de texte.

Model=models.LsiModel(corpus, id2word=dictionary, num_topics=100)

Processus de Dirichlet hiérarchique (HDP)

Les modèles de sujets tels que LDA et LSI aident à résumer et à organiser de grandes archives de textes qu'il n'est pas possible d'analyser à la main. Outre LDA et LSI, un autre modèle de sujet puissant dans Gensim est HDP (Hierarchical Dirichlet Process). Il s'agit essentiellement d'un modèle à composition mixte pour une analyse non supervisée de données groupées. Contrairement à LDA (son homologue fini), HDP déduit le nombre de sujets à partir des données.

Model=models.HdpModel(corpus, id2word=dictionary