Clustering with BERT Descargar - Descarga de código fuente de Clustering with BERT

Clustering with BERT

Código Fuente de IA

1.0.0

Descargar

CSCI 6509 Proyecto de término de invierno

Título: Representación del modelo de lenguaje profundo de la agrupación de documentos

Abstracto :

Los potentes modelos de agrupación de documentos son esenciales, ya que pueden procesar eficientemente grandes conjuntos de documentos. Estos modelos pueden ser útiles en muchos campos, incluida la investigación general. Buscar grandes corpus de publicaciones puede ser una tarea lenta y tediosa; Tales modelos pueden reducir significativamente este tiempo. Investigamos diferentes variaciones de un modelo Bert previamente capacitado para encontrar, que es mejor producir incrustaciones de palabras para representar documentos dentro de un corpus más grande. Estas incrustaciones se reducen en dimensionalidad utilizando PCA y se agrupan con K-means para obtener información sobre qué modelo puede diferenciar mejor los temas dentro de un corpus. Descubrimos que Sbert era el mejor modelo para esta tarea de las variaciones de Bert probadas.

Implementaciones de código:

Prerrequisitos:
- Python 3.7 o posterior
- Cuaderno de jupyter
Dependencias: el proyecto utiliza múltiples bibliotecas de Python, que se requieren para ejecutar este código. Para instalar el código, ejecute el siguiente fragmento de código en el indicador de Anaconda.
pip install -r requirements.txt
Python Notebook: hay dos cuadernos de Python: [1] nlp_final_project_code.ipynb y [2] test de similitud de coseno bert.ipynb
- El nlp_final_project_code.ipynb contiene la base de código para evaluar los incrustaciones textuales de Bert para la agrupación. Hemos utilizado PCA para la reducción de dimensionalidad y K-medias para la agrupación. Los incrustaciones se calculan por separado y se almacenan en el archivo CSV en la carpeta ./data .
- En la prueba de similitud de Bert Cosine. Para esto, agrupamos manualmente archivos en función de su contenido 1) grupo de archivos similares y 2) grupo de archivos diferentes. Luego medimos la similitud de coseno entre cada grupo. Presumimos que Bert Incrushings podría detectar similitudes entre el documento basados en su representación previa a la petróleo. También evaluamos a Sbert, que demostró proporcionar una mejor representación que las diferentes variantes de Bert.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-08
tamaño 9.72MB
Proviene de Github

Aplicaciones relacionadas

atrapado con bufón

2024-02-23
Creador de juegos de rol CON

2024-02-23
Con mi pasado

2024-02-21
Texto con Jesús

2023-08-17
Subir con carretilla

2022-08-26
Carrera con Ryan

2022-08-21

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo