Refactored basierend auf dem neuesten Transformers v2.2.2 Code, der durch Huggingface erstellt wurde. Um sicherzustellen, dass der Code in Zukunft ohne Kompatibilitätsprobleme direkt reproduziert werden kann, werden Transformatoren lokal für den Anruf platziert.
model_type:
Ändern Sie den Parameter model_type in der Shell -Datei, um das Modell anzugeben
Wenn beispielsweise Bert eine FC -vollständige Verbindungsschicht folgt, wird model_type=bert direkt eingestellt. Bert folgt von CNN -Faltungsschicht, model_type=bert_cnn wird direkt eingestellt.
model_type wird in Support dieses ReadMe aufgeführt.
Führen Sie schließlich die Shell -Datei direkt im Terminal aus, wie z. B.:
bash run_classifier.sh
Hinweis : In den drei vorgeborenen Sprachmodellen von Chinese Roberta, Ernie und Bert_WWM werden alle Bert Model_Type zum Laden verwendet.
dataset , z. B. TestData .output_modes im Root -Verzeichnis tasks_num_labels der utils.py Ihre eigene Klasse gemäß class THUNewsProcessor class TestDataProcessor processors z.TestData .ein 2080ti, 12 GB RAM
Python: 3.6.5
Pytorch: 1.3.1
TensorFlow: 1.14.0 (nur Tensorboard, keine andere Funktion)
Numpy: 1.14.6
Datensatz: Thunews/5_5000
Epoche: 1
Train_steps: 5000
| Modell | Dev Set Best F1 und ACC | Bemerkung |
|---|---|---|
| BERT_BASE | 0,9308869881728941, 0,9324 | Bert Connection FC Layer, batch_size 8, Learning_Rate 2E-5 |
| BERT_BASE+CNN | 0,9136314735833212, 0,9156 | Bert verbindet sich mit CNN-Schicht, batch_size 8, Learning_rate 2E-5 |
| BERT_BASE+LSTM | 0,9369254464106703, 0,9372 | Bert verbindet eine LSTM-Schicht, batch_size 8, Learning_Rate 2E-5 |
| BERT_BASE+Gru | 0,9379539112313108, 0,938 | Bert mit GRU-Schicht verbunden, batch_size 8, Learning_rate 2E-5 |
| Roberta_Large | Roberta Connection FC Layer, Batch_Size 2, Learning_Rate 2E-5 | |
| xlnet_mid | 0,9530066512880131, 0,954 | XLNET Connection FC Layer, batch_size 2, Learning_Rate 2E-5 |
| xlnet_mid+lstm | 0,9269927348553552, 0,9304 | XLNET stellt eine Verbindung zu LSTM Layer, batch_size 2, Learning_rate 2E-5 her |
| xlnet_mid+Gru | 0,9494631023945569, 0,9508 | XLNET mit GRU-Schicht verbunden, batch_size 2, Learning_Rate 2E-5 |
| ALBERT_XLARGE_183K |
NPL_PEMDC