Clustering with BERT Download - Clustering with BERT Código Fonte Download

Clustering with BERT

Código-Fonte de IA

1.0.0

Baixar

Projeto de termo de inverno CSCI 6509

Título: Representação do Modelo de Língua Deep do Cluster de documentos

Resumo:

Modelos poderosos de cluster de documentos são essenciais, pois podem processar com eficiência grandes conjuntos de documentos. Esses modelos podem ser úteis em muitos campos, incluindo pesquisas gerais. Pesquisar através de grandes corpora de publicações pode ser uma tarefa lenta e tediosa; Tais modelos podem reduzir significativamente esse tempo. Investigamos diferentes variações de um modelo BERT pré-treinado para encontrar, que é mais capaz de produzir incorporações de palavras para representar documentos dentro de um corpus maior. Essas incorporações são reduzidas em dimensionalidade usando PCA e agrupadas com K-Means para obter informações sobre qual modelo pode melhor diferenciar os tópicos dentro de um corpus. Descobrimos que Sbert era o melhor modelo para esta tarefa das variações testadas de Bert.

Implementações de código:

Pré -requisitos:
- Python 3.7 ou mais tarde
- Notebook Jupyter
Dependências: o projeto usa várias bibliotecas Python, necessárias para executar esse código. Para instalar o código, execute o snippet de código abaixo no prompt da Anaconda.
pip install -r requirements.txt
Python Notebook: Existem dois notebooks do Python: [1] NLP_FINAL_PROJECT_CODE.IPYNB e [2] BERT COSINE SIMULIDIDADE TEST.IPYNB
- O NLP_FINAL_PROJECT_CODE.IPYNB contém a base de código para avaliar as incorporações textuais Bert para clustering. Utilizamos o PCA para redução de dimensionalidade e K-means para agrupamento. As incorporações são calculadas separadamente e armazenadas no arquivo CSV na pasta ./data .
- No teste de similaridade de Bert Cosine.ipynb, estamos testando a capacidade de incorporar Bert de capturar a semelhança entre os documentos. Para isso, agrupamos manualmente os arquivos com base em seu conteúdo 1) grupo de arquivos semelhantes e 2) grupo de arquivos diferentes. Em seguida, medimos a similaridade de cosseno entre cada grupo. Nossa hipótese foi de que as incorporações de Bert poderiam detectar semelhanças entre os documentos com base em sua representação pré -traida. Também avaliamos Sbert, que provou fornecer uma melhor representação do que as diferentes variantes de Bert.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-08
tamanho 9.72MB
Vindo de Github

Aplicativos Relacionados

preso com Jester

2024-02-23
Criador de RPG COM

2024-02-23
Com meu passado

2024-02-21
Texto com Jesus

2023-08-17
Subir com carrinho de mão

2022-08-26
Corrida com Ryan

2022-08-21

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos