Refactored berdasarkan kode Transformers v2.2.2 terbaru yang diproduksi oleh HuggingFace. Untuk memastikan bahwa kode dapat direproduksi secara langsung di masa depan tanpa masalah kompatibilitas, transformator ditempatkan secara lokal untuk panggilan.
model_type:
Ubah parameter model_type dalam file shell untuk menentukan model
Misalnya, jika Bert diikuti oleh lapisan koneksi penuh FC, model_type=bert secara langsung diatur; Bert diikuti oleh lapisan konvolusional CNN, model_type=bert_cnn secara langsung diatur.
model_type yang didukung oleh setiap model pretrained dalam proyek ini tercantum dalam Support readme ini.
Akhirnya, jalankan cukup file shell secara langsung di terminal, seperti:
bash run_classifier.sh
CATATAN : Dalam tiga model bahasa pra-terlatih dari Roberta China, Ernie, dan Bert_WWM, semua Bert model_type digunakan untuk memuat.
dataset , seperti TestData .utils.py di direktori root, tulis kelas Anda sendiri menurut class THUNewsProcessor , seperti nama class TestDataProcessor , dan tambahkan konten yang sesuai ke tiga tasks_num_labels , processors , dan output_modes .TestData .satu 2080ti, RAM 12GB
Python: 3.6.5
Pytorch: 1.3.1
TensorFlow: 1.14.0 (untuk mendukung Tensorboard saja, tidak ada fungsi lain)
Numpy: 1.14.6
Dataset: Thunews/5_5000
Zaman: 1
Train_steps: 5000
| model | dev set f1 dan acc terbaik | Komentar |
|---|---|---|
| Bert_base | 0.9308869881728941, 0.9324 | BERT CONNECTION FC LAYER, BATCH_SIZE 8, learning_rate 2e-5 |
| Bert_Base+CNN | 0.9136314735833212, 0.9156 | Bert terhubung ke lapisan CNN, Batch_Size 8, learning_rate 2e-5 |
| BERT_BASE+LSTM | 0.9369254464106703, 0.9372 | Bert Connects ke LSTM Layer, Batch_Size 8, Learning_RATE 2E-5 |
| Bert_base+gru | 0.9379539112313108, 0.938 | Bert terhubung ke lapisan gru, batch_size 8, learning_rate 2e-5 |
| Roberta_large | Roberta Connection FC Layer, Batch_Size 2, learning_rate 2e-5 | |
| xlnet_mid | 0.9530066512880131, 0.954 | XLNET Connection FC Layer, Batch_Size 2, learning_rate 2e-5 |
| XLNET_MID+LSTM | 0.9269927348553552, 0.9304 | Xlnet terhubung ke LSTM Layer, Batch_Size 2, learning_rate 2e-5 |
| xlnet_mid+gru | 0.9494631023945569, 0.9508 | Xlnet Terhubung ke Lapisan Gru, Batch_Size 2, Learning_RATE 2E-5 |
| albert_xlarge_183k |
NPL_PEMDC