Description du projet
La mise en œuvre des tâches communes dans le domaine de la PNL comprend une nouvelle découverte de mots, ainsi que des vecteurs de mots basés sur le pytorch, la classification du texte chinois, la reconnaissance des entités, la génération de texte, le jugement de similitude des phrases, l'extraction triple, les modèles pré-formés, etc.
compter sur
python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2
Table des matières
0. Algorithme de découverte de nouveaux mots
- 0-1. Nouveaux mots découvertes
1. Vector de mot
- 1-1-1. Word2vec (skip-gram)
- 1-2. Gant
2. Classification de texte (Optuna est utilisé pour ajuster les paramètres en interne)
- 2-1-1. Textcnn
- 2-2. Texte rapide
- 2-3. Textrcnn
- 2-4. Textrnn_att
- 2-5. Dpcnn
- 2-6. Xgboost
- 2-7. Distill_ & fine méloger bert
- 2-8. Exploitation de modèle Utiliser MLM pour classer le texte
- 2-9. Drop
Ensemble de données (dossier de données): un ensemble de données d'opinion publique binaire, divisé comme suit:
| Ensemble de données | Volume de données |
|---|
| Ensemble de formation | 56700 |
| Ensemble de vérification | 7000 |
| Test de test | 6300 |
3. Identification de l'entité NER
- 3-1-1. Bert-MRC
- 3-2. Bert-CRF
- 3-3. Bert-label-sémantique
- 3-4. Bert-MLM
4. Génération de résumé du texte
1). Formule de génération
- 4-1. Modèle SEQ2SEQ
- 4-2. Modèle SEQ2SEQ + mécanisme d'attention
- 4-3. Modèle de transformateur
- 4-4. Génération de résumé GPT
- 4-5. Bert-seq2seq
2). Extraction
- 4-6. Bert-extractive-sineur
5. Discrimination de la similitude des phrases
6. Classification multi-étiquettes
- 6-1. Classification multilabel
7. Triple extraction
- 7-1. EXTRACTION DE RELATION
8. Modèle pré-formé (Electra + SimcSe)
- 8-1. Modèle de langue prénaineuse
9. Conseil pour apprendre
10. Paperwithcode
Ce dossier enregistre certains articles et leur code de modèle correspondant:
- 10.1. Transformateur de co-interactif
- 10.2. Lattice_lstm
11. QA
Ce dossier enregistre un résumé simple de certains points de connaissance de l'apprentissage automatique / de l'apprentissage en profondeur.