Download character based cnn - Download de código -fonte character based cnn

character based cnn

Outro código-fonte

English Model

Baixar

CNN baseado em personagem

Este repo contém uma implementação de Pytorch de uma rede neural convolucional no nível do caractere para classificação de texto.

A arquitetura do modelo vem deste artigo: https://arxiv.org/pdf/1509.01626.pdf

Arquitetura de rede

Existem duas variantes: uma grande e uma pequena. Você pode alternar entre os dois alterando o arquivo de configuração.

Esta arquitetura tem 6 camadas convolucionais:

Camada	Grande característica	Pequena característica	Kernel	Piscina
1	1024	256	7	3
2	1024	256	7	3
3	1024	256	3	N / D
4	1024	256	3	N / D
5	1024	256	3	N / D
6	1024	256	3	3

e 2 camadas totalmente conectadas:

Camada	Unidades de saída grandes	Unidades de saída pequenas
7	2048	1024
8	2048	1024
9	Depende do problema	Depende do problema

Tutorial em vídeo

Se você estiver interessado em como o personagem CNN funciona, bem como na demonstração deste projeto, pode verificar meu tutorial em vídeo do YouTube.

Por que você deve se preocupar com o nível de personagem CNNS

Eles têm propriedades muito boas:

Eles são bastante poderosos na classificação de texto (consulte a referência do artigo), embora não tenham nenhuma noção de semântica
Você não precisa aplicar nenhum pré -processamento de texto (tokenização, lematização, Stemming ...) enquanto os usa
Eles lidam com as palavras incorretas e oov (fora do vocabular) tokens
Eles são mais rápidos para treinar em comparação com as redes neurais recorrentes
Eles são leves, pois não precisam de armazenar uma grande matriz de incorporação de palavras. Portanto, você pode implantá -los facilmente em produção

Treinando um classificador de sentimentos em análises de clientes franceses

Eu testei esse modelo em um conjunto de análises de clientes rotuladas em francês (de mais de 3 milhões de linhas). Relatei as métricas no TensorboardX.

Eu recebi os seguintes resultados

	Pontuação F1	Precisão
trem	0,965	0,9366
teste	0,945	0,915

Métricas de treinamento

Dependências

Numpy
Pandas
Sklearn
Pytorch 0.4.1
Tensorboardx
Tensorflow (para poder executar o TensorboardX)

Estrutura do código

Na raiz do projeto, você terá:

TRIN.PY : Usado para treinar um modelo
previc.py : usado para testes e inferência
config.json : um arquivo de configuração para armazenar parâmetros do modelo (número de filtros, neurônios)
SRC : Uma pasta que contém:
- cnn_model.py : o modelo CNN real (inicialização do modelo e método para a frente)
- data_loader.py : o script responsável por transmitir os dados para o treinamento após processá -los
- Utils.py : um conjunto de funções de utilidade para pré -processamento de texto (Remoção de URL/Hashtag/User_mention)

Como usar o código

Treinamento

O código atualmente funciona apenas em rótulos binários (0/1)

Inicie o trem.py com os seguintes argumentos:

data_path : caminho dos dados. Os dados devem estar em formato CSV com pelo menos uma coluna para texto e uma coluna para o rótulo
validation_split : a proporção de dados de validação. padrão para 0,2
label_column : Nome da coluna dos rótulos
text_column : Nome da coluna dos textos
max_rows : o número máximo de linhas para carregar do conjunto de dados. (Eu uso principalmente isso para testar para ir mais rápido)
chunksize : tamanho dos pedaços ao carregar os dados usando pandas. Padrão para 500000
encoding : Padrão para UTF-8
steps : Etapas de pré -processamento de texto para incluir no texto como hashtag ou remoção de URL
group_labels : se deve ou não agrupar os rótulos. Padrão para nenhum.
use_sampler : se deve ou não usar um amostrador ponderado para superar o desequilíbrio da classe
alphabet : padrão para abcdefghijklmnopqrstStuvwxyz0123456789;.!
number_of_characters : padrão 70
extra_characters : caracteres adicionais que você adicionaria ao alfabeto. Por exemplo, letras maiúsculas ou caracteres acentuados
max_length : o comprimento máximo para corrigir para todos os documentos. padrão para 150, mas deve ser adaptado aos seus dados
epochs : número de épocas
batch_size : Tamanho do lote, padrão para 128.
optimizer : Adam ou SGD, padrão para SGD
learning_rate : Padrão para 0,01
class_weights : se deve ou não usar pesos de classe na perda de entropia cruzada
focal_loss : se deve ou não usar a perda focal
gamma : parâmetro gama da perda focal. padrão para 2
alpha : parâmetro alfa da perda focal. padrão para 0,25
schedule : Número de épocas pelas quais a taxa de aprendizagem diminui pela metade (o agendamento da taxa de aprendizado funciona apenas para o SGD), padrão para 3. Defina -o para 0 para desativá -lo
patience : Número máximo de épocas para esperar sem melhorar a perda de validação, padrão para 3
early_stopping : escolher se para interromper ou não o treinamento. padrão para 0. Defina como 1 para ativá -lo.
checkpoint : optar por salvar o modelo no disco ou não. Padrão para 1, defina como 0 para desativar o ponto de verificação do modelo
workers : Número de trabalhadores em Pytorch Dataloader, padrão para 1
log_path : caminho do arquivo de log de tensorboard
output : caminho da pasta onde os modelos são salvos
model_name : Nome do prefixo de modelos salvos

Exemplo de uso:

python train.py --data_path=/data/tweets.csv --max_rows=200000

Plotagem resultados para tensorboardx

Execute este comando na raiz do projeto:

tensorboard --logdir=./logs/ --port=6006

Em seguida, vá para: http: // localhost: 6006 (ou qualquer host que você esteja usando)

Previsão

Lançar prevc.py com os seguintes argumentos:

model : Caminho do modelo pré-treinado
text : texto de entrada
steps : Lista de etapas de pré -processamento, padrão para diminuir
alphabet : padrão 'abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:' "/| _@#$%^&*~` `+-= <> () [] {} n '
number_of_characters : padrão para 70
extra_characters : caracteres adicionais que você adicionaria ao alfabeto. Por exemplo, letras maiúsculas ou caracteres acentuados
max_length : o comprimento máximo para corrigir para todos os documentos. padrão para 150, mas deve ser adaptado aos seus dados

Exemplo de uso:

python predict.py ./models/pretrained_model.pth --text= " I love pizza ! " --max_length=150

Baixe modelos pré -tenhados

Modelo de análise de sentimentos em análises francesas de clientes (documentos 3M): Link para download
Ao usá -lo:
- Defina max_length para 300
- use extra_characters = "Éàèùâê êpense

Contribuições - PR são bem -vindos:

Aqui está uma lista não exaustiva de possíveis recursos futuros a serem adicionados:

Adaptar a perda para classificação de várias classes
Métricas de treinamento e validação de registro para cada época em um arquivo de texto
Forneça tutoriais de notebooks

Licença

Este projeto está licenciado sob a licença do MIT

Expandir

Informações adicionais

Versão English Model
Tipo Outro código-fonte
Data da Última Atualização 2025-04-18
tamanho 213.92KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Vá com tudo – personagem Zorro

2022-08-20

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos