Clustering with BERT Download - Clustering with BERT Code source Télécharger

Clustering with BERT

Code Source AI

1.0.0

Télécharger

CSCI 6509 Winter Term Project

Titre: Représentation du modèle de langage profond du regroupement de documents

Abstrait :

Les modèles de regroupement de documents puissants sont essentiels car ils peuvent traiter efficacement de grands ensembles de documents. Ces modèles peuvent être utiles dans de nombreux domaines, y compris des recherches générales. La recherche dans les grandes corpus de publications peut être une tâche lente et fastidieuse; Ces modèles peuvent réduire considérablement ce temps. Nous avons étudié différentes variations d'un modèle Bert pré-formé pour trouver la mieux à même de produire des intérêts de mots pour représenter des documents dans un corpus plus grand. Ces intérêts sont réduits dans la dimensionnalité à l'aide de PCA et en grappes avec des k-means pour mieux comprendre quel modèle peut le mieux différencier les sujets dans un corpus. Nous avons constaté que SBERT était le meilleur modèle pour cette tâche à partir des variations Bert testées.

Implémentations de code:

Prérequis:
- Python 3.7 ou plus tard
- Cahier de jupyter
Dépendances: le projet utilise plusieurs bibliothèques Python, qui sont nécessaires pour exécuter ce code. Pour installer le code, veuillez exécuter l'extrait de code ci-dessous dans l'invite Anaconda.
pip install -r requirements.txt
Python Notebook: Il y a deux ordinateurs portables Python: [1] NLP_FINAL_PROJECT_CODE.IPynb et [2] Bert Cosine Simility test.ipynb
- Le NLP_FINAL_PROject_code.ipynb contient la base de code pour évaluer les incorporations textuelles Bert pour le clustering. Nous avons utilisé PCA pour la réduction de la dimensionnalité et les k-means pour le clustering. Les incorporations sont calculées séparément et stockées dans le fichier CSV dans le dossier ./Data .
- Dans le test de similitude de Bert Cosine.IPYNB, nous testons la capacité de l'incorporation de Bert à capturer la similitude entre les documents. Pour cela, nous avons groupé manuellement des fichiers en fonction de leur contenu 1) groupe de fichiers similaires et 2) groupe de fichiers différents. Ensuite, nous avons mesuré la similitude du cosinus entre chaque groupe. Nous avons émis l'hypothèse que les intérêts Bert pourraient détecter des similitudes entre le document en fonction de leur représentation pré-étendue. Nous avons également évalué SBERT, qui s'est avéré fournir une meilleure représentation que les différentes variantes de Bert.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-08
taille 9.72MB
Provenant de Github

Applications connexes

piégé avec Jester

2024-02-23
Créateur de RPG AVEC

2024-02-23
Avec mon passé

2024-02-21
Texte avec Jésus

2023-08-17
Grimper avec une brouette

2022-08-26
Course avec Ryan

2022-08-21

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout