Refactorizado basado en el último código Transformers v2.2.2 producido por Huggingface. Para garantizar que el código se pueda reproducir directamente en el futuro sin problemas de compatibilidad, los transformadores se colocan localmente para llamar.
model_type:
Modifique el parámetro model_type en el archivo de shell para especificar el modelo
Por ejemplo, si Bert es seguido por la capa de conexión completa FC, model_type=bert está directamente configurado; Bert es seguido por CNN Capa convolucional, model_type=bert_cnn está directamente configurado.
model_type compatible con cada modelos previos a la aparición en este proyecto se enumera en Support de este ReadMe.
Finalmente, simplemente ejecute el archivo de shell directamente en el terminal, como:
bash run_classifier.sh
Nota : En los tres modelos de idiomas previamente capacitados de China Roberta, Ernie y Bert_WWM, todos los Bert Model_Type se utilizan para la carga.
dataset , como TestData .utils.py en el directorio raíz, escriba su propia clase de acuerdo con class THUNewsProcessor , como el nombre de class TestDataProcessor , y agregue el contenido correspondiente a las tres tasks_num_labels , processors y output_modes .TestData .Un 2080ti, 12 GB de ram
Python: 3.6.5
Pytorch: 1.3.1
TensorFlow: 1.14.0 (para admitir solo TensorBoard, ninguna otra función)
Numpy: 1.14.6
Conjunto de datos: Thunews/5_5000
época: 1
Train_steps: 5000
| modelo | Dev Set Best F1 y ACC | Observación |
|---|---|---|
| bert_base | 0.9308869881728941, 0.9324 | Bert Connection FC Layer, Batch_Size 8, Learning_Rate 2E-5 |
| bert_base+CNN | 0.9136314735833212, 0.9156 | Bert se conecta a CNN Layer, Batch_Size 8, Learning_Rate 2E-5 |
| bert_base+lstm | 0.93692544644106703, 0.9372 | Bert se conecta a LSTM Layer, Batch_Size 8, Learning_Rate 2E-5 |
| bert_base+gru | 0.9379539112313108, 0.938 | Bert conectado a Gru Layer, Batch_Size 8, Learning_Rate 2E-5 |
| ROBERTA_LARGE | Roberta Connection FC Layer, Batch_Size 2, Learning_Rate 2E-5 | |
| xlnet_mid | 0.9530066512880131, 0.954 | Conexión XLNet FC Layer, Batch_Size 2, Learning_Rate 2E-5 |
| xlnet_mid+LSTM | 0.9269927348553552, 0.9304 | XLNet se conecta a LSTM Layer, Batch_Size 2, Learning_Rate 2E-5 |
| xlnet_mid+gru | 0.9494631023945569, 0.9508 | XLNet conectado a Gru Layer, Batch_Size 2, Learning_Rate 2E-5 |
| albert_xlarge_183k |
Npl_pemdc