Descripción del proyecto
La implementación de tareas comunes en el campo NLP incluye un nuevo descubrimiento de palabras, así como vectores de palabras basados en Pytorch, clasificación de texto chino, reconocimiento de entidades, generación de texto, juicio de similitud de oraciones, extracción triple, modelos previamente capacitados, etc.
confiar
python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2
Tabla de contenido
0. Algoritmo de descubrimiento de nuevas palabras
- 0-1. Nuevas palabras descubrimiento
1. Vector de palabras
- 1-1. Word2Vec (Skip-Gram)
- 1-2. Guante
2. Clasificación de texto (Optuna se usa para ajustar los parámetros internamente)
- 2-1. Textcnn
- 2-2. Contenedor
- 2-3. Textrcnn
- 2-4. Textrnn_att
- 2-5. Dpcnn
- 2-6. Xgboost
- 2-7. Distill_ & Fine Tune Bert
- 2-8. Patron-explotador de explotación Utilice MLM para clasificar el texto
- 2-9. R-DROP
Conjunto de datos (carpeta de datos): un conjunto de datos de opinión pública binaria, dividido de la siguiente manera:
| Conjunto de datos | Volumen de datos |
|---|
| Set de entrenamiento | 56700 |
| Verificación | 7000 |
| Set de prueba | 6300 |
3. Identificación de entidad ner
- 3-1. Bert-MRC
- 3-2. Bert-crf
- 3-3. Bert-Label-Semantics
- 3-4. Bert-mlm
4. Generación de resumen de texto
1). Fórmula de generación
- 4-1. Modelo SEQ2SEQ
- 4-2. Modelo seq2seq + mecanismo de atención
- 4-3. Modelo de transformador
- 4-4. GPT Generación de resumen
- 4-5. Bert-seq2seq
2). Extracción
- 4-6. Bert-extractivo-sumarizador
5. Discriminación de similitud de oración
- 5-1. Similitud de oración
6. Clasificación de etiqueta múltiple
- 6-1. Clasificación multilabel
7. Triple extracción
8. Modelo previamente capacitado (Electra + SIMCSE)
- 8-1. Modelo de lenguaje previo
9. Consejo para aprender
10. Paperwithcode
Esta carpeta registra algunos documentos y su código de modelo correspondiente:
- 10.1. Co-interactivo-transformador
- 10.2. Lattice_lstm
11. Qa
Esta carpeta registra un resumen simple de algunos puntos de conocimiento del aprendizaje automático/aprendizaje profundo.