Descarga character based cnn - Descargar el código fuente character based cnn

character based cnn

Otro código fuente

English Model

Descargar

CNN basado en personajes

Este repositorio contiene una implementación de Pytorch de una red neuronal convolucional a nivel de carácter para la clasificación de texto.

La arquitectura del modelo proviene de este documento: https://arxiv.org/pdf/1509.01626.pdf

Arquitectura de red

Hay dos variantes: una grande y una pequeña. Puede cambiar entre los dos cambiando el archivo de configuración.

Esta arquitectura tiene 6 capas convolucionales:

Capa	Característica grande	Característica	Núcleo	Piscina
1	1024	256	7	3
2	1024	256	7	3
3	1024	256	3	N / A
4	1024	256	3	N / A
5	1024	256	3	N / A
6	1024	256	3	3

y 2 capas totalmente conectadas:

Capa	Unidades de salida grandes	Unidades de salida pequeñas
7	2048	1024
8	2048	1024
9	Depende del problema	Depende del problema

Tutorial de video

Si está interesado en cómo funciona el personaje CNN, así como en la demostración de este proyecto, puede consultar mi video tutorial de YouTube.

Por qué deberías preocuparte por los CNN a nivel de personaje

Tienen muy buenas propiedades:

Son bastante poderosos en la clasificación de texto (ver el punto de referencia del documento) a pesar de que no tienen ninguna noción de semántica.
No necesita aplicar ningún preprocesamiento de texto (tokenización, lemmatización, derivación ...) mientras los usa
Manejan palabras mal escritas y fichas Oov (fuera del vocabulario)
Son más rápidos para entrenar en comparación con las redes neuronales recurrentes
Son livianos ya que no requieren almacenar una matriz de incrustación de palabras grandes. Por lo tanto, puede implementarlos en producción fácilmente

Capacitación de un clasificador de sentimiento en reseñas de clientes franceses

He probado este modelo en un conjunto de revisiones de clientes etiquetadas por francés (de más de 3 millones de filas). Informé las métricas en TensorBoardX.

Tengo los siguientes resultados

	Puntaje F1	Exactitud
tren	0.965	0.9366
prueba	0.945	0.915

Métricas de entrenamiento

Dependencias

numpy
pandas
sklearn
Pytorch 0.4.1
tensorboardx
TensorFlow (para poder ejecutar TensorBoardx)

Estructura del código

En la raíz del proyecto, tendrá:

Train.py : utilizado para entrenar un modelo
Predict.py : utilizado para la prueba e inferencia
config.json : un archivo de configuración para almacenar parámetros del modelo (número de filtros, neuronas)
SRC : una carpeta que contiene:
- cnn_model.py : el modelo CNN real (inicialización del modelo y método de avance)
- data_loader.py : el script responsable de pasar los datos a la capacitación después de procesarlo
- utils.py : un conjunto de funciones de utilidad para el preprocesamiento de texto (url/hashtag/user_mention eliminación)

Cómo usar el código

Capacitación

El código actualmente funciona solo en etiquetas binarias (0/1)

Lanzar trenes.py con los siguientes argumentos:

data_path : ruta de los datos. Los datos deben estar en formato CSV con al menos una columna para el texto y una columna para la etiqueta
validation_split : la relación de los datos de validación. predeterminado a 0.2
label_column : nombre de columna de las etiquetas
text_column : nombre de columna de los textos
max_rows : el número máximo de filas para cargar desde el conjunto de datos. (Principalmente uso esto para las pruebas para ir más rápido)
chunksize : tamaño de los fragmentos al cargar los datos usando pandas. predeterminado a 500000
encoding : predeterminado a UTF-8
steps : preprocesamiento de texto Pasos para incluir en el texto como el hashtag o la eliminación de URL
group_labels : si a las etiquetas agrupar o no. Predeterminado a ninguno.
use_sampler : si usa o no un muestreador ponderado para superar el desequilibrio de clases
alphabet : predeterminado a abcdefghijklmnopqrstuvwxyz0123456789,;.
number_of_characters : predeterminado 70
extra_characters : caracteres adicionales que agregarías al alfabeto. Por ejemplo, letras mayúsculas o caracteres acentuados
max_length : la longitud máxima para arreglar todos los documentos. predeterminado a 150 pero debe adaptarse a sus datos
epochs : número de épocas
batch_size : tamaño por lotes, predeterminado a 128.
optimizer : Adam o SGD, predeterminado a SGD
learning_rate : predeterminado a 0.01
class_weights : si usar pesos de clase o no en la pérdida de entropía cruzada
focal_loss : si usar o no la pérdida focal
gamma : parámetro gamma de la pérdida focal. predeterminado a 2
alpha : parámetro alfa de la pérdida focal. predeterminado a 0.25
schedule : Número de épocas por las cuales la tasa de aprendizaje disminuye a la mitad (la programación de la tasa de aprendizaje solo funciona para SGD), predeterminado a 3. Configurarlo en 0 para deshabilitarla
patience : número máximo de épocas para esperar sin mejorar la pérdida de validación, por defecto a 3
early_stopping : para elegir si detiene o no el entrenamiento temprano. predeterminado a 0. Establecer en 1 para habilitarlo.
checkpoint : para elegir guardar el modelo en el disco o no. predeterminado en 1, establecer en 0 para deshabilitar el punto de control del modelo
workers : Número de trabajadores en Pytorch dataLoader, predeterminado a 1
log_path : ruta del archivo de registro de TensorBoard
output : ruta de la carpeta donde se guardan los modelos
model_name : nombre de prefijo de modelos guardados

Ejemplo de uso:

python train.py --data_path=/data/tweets.csv --max_rows=200000

Trazar resultados para tensorBoardx

Ejecute este comando en la raíz del proyecto:

tensorboard --logdir=./logs/ --port=6006

Luego vaya a: http: // localhost: 6006 (o cualquier host que esté usando)

Predicción

Iniciar Predict.py con los siguientes argumentos:

model : ruta del modelo previamente capacitado
text : texto de entrada
steps : Lista de pasos de preprocesamiento, predeterminado a baja
alphabet : predeterminado a 'abcdefghijklmnopqrstuvwxyz0123456789-,;.
number_of_characters : predeterminado a 70
extra_characters : caracteres adicionales que agregarías al alfabeto. Por ejemplo, letras mayúsculas o caracteres acentuados
max_length : la longitud máxima para arreglar todos los documentos. predeterminado a 150 pero debe adaptarse a sus datos

Ejemplo de uso:

python predict.py ./models/pretrained_model.pth --text= " I love pizza ! " --max_length=150

Descargar modelos previos a la aparición

Modelo de análisis de sentimientos en revisiones de clientes franceses (documentos de 3M): Descargar enlace
Al usarlo:
- Establecer max_length en 300
- Use extra_characters = "Éàèùâêîôûçëïü" (letras acentuadas)

Contribuciones: las relaciones públicas son bienvenidas:

Aquí hay una lista no exhaustiva de posibles características futuras para agregar:

Adaptar la pérdida para la clasificación de múltiples clases
Capacitación de registro y métricas de validación para cada época en un archivo de texto
Proporcionar tutoriales de cuaderno

Licencia

Este proyecto tiene licencia bajo la licencia MIT

Expandir

Información adicional

Versión English Model
Tipo Otro código fuente
Fecha de actualización 2025-04-18
tamaño 213.92KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Ir con todo – Personaje del Zorro

2022-08-20

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo