Les modèles de regroupement de documents puissants sont essentiels car ils peuvent traiter efficacement de grands ensembles de documents. Ces modèles peuvent être utiles dans de nombreux domaines, y compris des recherches générales. La recherche dans les grandes corpus de publications peut être une tâche lente et fastidieuse; Ces modèles peuvent réduire considérablement ce temps. Nous avons étudié différentes variations d'un modèle Bert pré-formé pour trouver la mieux à même de produire des intérêts de mots pour représenter des documents dans un corpus plus grand. Ces intérêts sont réduits dans la dimensionnalité à l'aide de PCA et en grappes avec des k-means pour mieux comprendre quel modèle peut le mieux différencier les sujets dans un corpus. Nous avons constaté que SBERT était le meilleur modèle pour cette tâche à partir des variations Bert testées.
Prérequis:
Dépendances: le projet utilise plusieurs bibliothèques Python, qui sont nécessaires pour exécuter ce code. Pour installer le code, veuillez exécuter l'extrait de code ci-dessous dans l'invite Anaconda.
pip install -r requirements.txt
Python Notebook: Il y a deux ordinateurs portables Python: [1] NLP_FINAL_PROJECT_CODE.IPynb et [2] Bert Cosine Simility test.ipynb
Le NLP_FINAL_PROject_code.ipynb contient la base de code pour évaluer les incorporations textuelles Bert pour le clustering. Nous avons utilisé PCA pour la réduction de la dimensionnalité et les k-means pour le clustering. Les incorporations sont calculées séparément et stockées dans le fichier CSV dans le dossier ./Data .
Dans le test de similitude de Bert Cosine.IPYNB, nous testons la capacité de l'incorporation de Bert à capturer la similitude entre les documents. Pour cela, nous avons groupé manuellement des fichiers en fonction de leur contenu 1) groupe de fichiers similaires et 2) groupe de fichiers différents. Ensuite, nous avons mesuré la similitude du cosinus entre chaque groupe. Nous avons émis l'hypothèse que les intérêts Bert pourraient détecter des similitudes entre le document en fonction de leur représentation pré-étendue. Nous avons également évalué SBERT, qui s'est avéré fournir une meilleure représentation que les différentes variantes de Bert.