Deskripsi proyek
Implementasi tugas umum di bidang NLP mencakup penemuan kata baru, serta vektor kata berdasarkan pytorch, klasifikasi teks Cina, pengakuan entitas, pembuatan teks, penilaian kesamaan kalimat, ekstraksi triple, model pra-terlatih, dll.
mengandalkan
python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2
Daftar isi
0. Algoritma Penemuan Kata Baru
- 0-1. Penemuan Kata -Kata Baru
1. Vektor kata
- 1-1. Word2Vec (Skip-Gram)
- 1-2. Sarung tangan
2. Klasifikasi Teks (Optuna digunakan untuk menyesuaikan parameter secara internal)
- 2-1. Textcnn
- 2-2. FastText
- 2-3. Textrcnn
- 2-4. Textrnn_att
- 2-5. Dpcnn
- 2-6. Xgboost
- 2-7. Distill_ & Fine Tune Bert
- 2-8. Pola-Exploiting-Pelatihan Gunakan MLM untuk mengklasifikasikan teks
- 2-9. R-drop
Kumpulan data (folder data): Kumpulan data opini publik biner, dibagi sebagai berikut:
| Dataset | Volume Data |
|---|
| Set pelatihan | 56700 |
| Set verifikasi | 7000 |
| Set tes | 6300 |
3. Identifikasi Entitas Ner
- 3-1. Bert-Mrc
- 3-2. Bert-CRF
- 3-3. Bert-Label-Semantics
- 3-4. Bert-mlm
4. Generasi Ringkasan Teks
1). Formula Generasi
- 4-1. Model seq2seq
- 4-2. Model seq2seq + mekanisme perhatian
- 4-3. Model Transformer
- 4-4. Generasi ringkasan GPT
- 4-5. Bert-seq2seq
2). Ekstraksi
- 4-6. Bert-Extractive-Summarizer
5. Diskriminasi Kesamaan Kalimat
6. Klasifikasi multi-label
- 6-1. Klasifikasi multilabel
7. Ekstraksi triple
8. Model Pra-Terlatih (Electra + Simcse)
- 8-1. Model berbahasa pretrained
9. Tip untuk belajar
10. PaperWithCode
Folder ini mencatat beberapa makalah dan kode model yang sesuai:
- 10.1. Co-interaktif-transformer
- 10.2. Lattice_lstm
11. Qa
Folder ini mencatat ringkasan sederhana dari beberapa titik pengetahuan pembelajaran mesin/pembelajaran mendalam.