Projektbeschreibung
Die Implementierung gemeinsamer Aufgaben im Feld NLP enthält neue Word-Entdeckungen sowie Wortvektoren, die auf Pytorch, chinesischer Textklassifizierung, Entitätserkennung, Textgenerierung, Satz Ähnlichkeit, Dreifachextraktion, vorgebliebenen Modellen usw. basieren, basierend
verlassen
python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2
Inhaltsverzeichnis
0. Neues Wort Discovery -Algorithmus
- 0-1. Neue Wörter Entdeckung
1. Wortvektor
- 1-1. Word2VEC (Skip-Gramm)
- 1-2. Handschuh
2. Textklassifizierung (Optuna wird verwendet, um Parameter intern anzupassen)
- 2-1. Textcnn
- 2-2. FastText
- 2-3. Textrcnn
- 2-4. Textrnn_att
- 2-5. Dpcnn
- 2-6. Xgboost
- 2-7. Distill_ & Fine Tune Bert
- 2-8. Muster-Exploiting-Training Verwenden Sie MLM, um Text zu klassifizieren
- 2-9. R-Drop
Datensatz (Datenordner): Ein binärer Datensatz für öffentliche Meinungen, geteilt wie folgt:
| Datensatz | Datenvolumen |
|---|
| Trainingset | 56700 |
| Überprüfungssatz | 7000 |
| Testset | 6300 |
3.. Entität Identifikations -Ner
- 3-1. Bert-MRC
- 3-2. Bert-CRF
- 3-3. Bert-Label-Semantik
- 3-4. Bert-MLM
4. Textzusammenfassungsgenerierung
1). Generationsformel
- 4-1. SEQ2SEQ -Modell
- 4-2. SEQ2SEQ -Modell + Aufmerksamkeitsmechanismus
- 4-3. Transformatormodell
- 4-4. GPT -Zusammenfassungsgenerierung
- 4-5. Bert-seq2seq
2). Extraktion
- 4-6. Bert-Extraktiv-Sumarisator
5. Diskriminierung bei Satz Ähnlichkeit
6. Multi-Label-Klassifizierung
- 6-1. Multilabel-Klassifizierung
7. Dreifachextraktion
- 7-1. Beziehung-Extraktion
8. Vorausgebildeter Modell (Electra + Simcse)
- 8-1. Vorbereitete Sprachmodell
9. Tipp zum Lernen
10. Paper WithCode
Dieser Ordner zeichnet einige Artikel und ihren entsprechenden Modellcode auf:
- 10.1. Co-Interaktive-Transformator
- 10.2. GLATTICE_LSTM
11. QA
Dieser Ordner zeichnet eine einfache Zusammenfassung einiger Wissenspunkte des maschinellen Lernens/Deep -Lernens auf.