Descrição do projeto
A implementação de tarefas comuns no campo PNL inclui novas descobertas de palavras, bem como vetores de palavras com base em Pytorch, classificação de texto chinês, reconhecimento de entidades, geração de texto, julgamento de similaridade de sentença, extração tripla, modelos pré-treinados, etc.
confiar
python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2
Índice
0. Algoritmo de descoberta de novas palavras
- 0-1. Novas palavras descoberta
1. Vetor de palavras
- 1-1. Word2vec (Skip-Gram)
- 1-2. Luva
2. Classificação de texto (optuna é usada para ajustar os parâmetros internamente)
- 2-1. Textcnn
- 2-2. FastText
- 2-3. Textrcnn
- 2-4. Textrnn_att
- 2-5. Dpcnn
- 2-6. Xgboost
- 2-7. Destill_ & tune bert bert
- 2-8. Treinamento de exploração de padrões Use MLM para classificar o texto
- 2-9. R-Drop
Conjunto de dados (pasta de dados): um conjunto de dados de opinião pública binária, dividida da seguinte forma:
| Conjunto de dados | Volume de dados |
|---|
| Conjunto de treinamento | 56700 |
| Conjunto de verificação | 7000 |
| Conjunto de testes | 6300 |
3. Ner de identificação da entidade
- 3-1. Bert-mrc
- 3-2. Bert-Crf
- 3-3. Bert-Label-semantics
- 3-4. Bert-mlm
4. Geração de resumo do texto
1). Fórmula de geração
- 4-1. Modelo SEQ2SEQ
- 4-2. Modelo SEQ2SEQ + mecanismo de atenção
- 4-3. Modelo do transformador
- 4-4. Geração de resumo do GPT
- 4-5. Bert-seq2seq
2). Extração
- 4-6. Bert-Extractive-Summarizer
5. Discriminação de similaridade da frase
- 5-1. Similaridade da frase
6. Classificação de vários rótulos
- 6-1. Classificação multilabel
7. Extração tripla
8. Modelo pré-treinado (Electra + SIMCSE)
- 8-1. Modelo de linguagem pré-deiada
9. Dica para aprender
10. PaperWithCODE
Esta pasta registra alguns trabalhos e seu código de modelo correspondente:
- 10.1. Co-interativo transformador
- 10.2. LATTICE_LSTM
11. QA
Esta pasta registra um resumo simples de alguns pontos de conhecimento do aprendizado de máquina/aprendizado profundo.