Bert Multi Label Text Classification - Bert Multi Label Text Classification Kode Sumber Download

Bert Multi Label Text Classification

Kode sumber lainnya

1.0.0

Unduh

Klasifikasi teks multi-label Bert oleh Pytorch

Repo ini berisi implementasi Pytorch dari model Bert dan XLNET pretrained untuk klasifikasi teks multi-label.

Struktur Kode

Pada akar proyek, Anda akan melihat:

 ├── pybert
|  └── callback
|  |  └── lrscheduler.py　　
|  |  └── trainingmonitor.py　
|  |  └── ...
|  └── config
|  |  └── basic_config.py #a configuration file for storing model parameters
|  └── dataset　　　
|  └── io　　　　
|  |  └── dataset.py　　
|  |  └── data_transformer.py　　
|  └── model
|  |  └── nn　
|  |  └── pretrain　
|  └── output #save the ouput of model
|  └── preprocessing #text preprocessing 
|  └── train #used for training a model
|  |  └── trainer.py 
|  |  └── ...
|  └── common # a set of utility functions
├── run_bert.py
├── run_xlnet.py

Dependensi

CSV
TQDM
Numpy
acar
scikit-learn
Pytorch 1.1+
matplotlib
panda
Transformers = 2.5.1

Cara menggunakan kode

Anda perlu mengunduh model Bert pretrained dan model XLNET.

Bert: Bert-Base-Incased

XLNET: XLNET-BASE-CASED

Unduh model Bert Pretrained dari S3
Unduh file konfigurasi Bert dari S3
Unduh file Vocab Bert dari S3
Ganti nama:
- bert-base-uncased-pytorch_model.bin ke pytorch_model.bin
- bert-base-uncased-config.json ke config.json
- bert-base-uncased-vocab.txt ke bert_vocab.txt
Tempatkan model , config , dan file vocab ke dalam direktori /pybert/pretrain/bert/base-uncased .
pip install pytorch-transformers dari GitHub.
Unduh data kaggle dan tempatkan di pybert/dataset .
- Anda dapat memodifikasi io.task_data.py untuk menyesuaikan data Anda.
Modifikasi informasi konfigurasi di pybert/configs/basic_config.py (jalur data, ...).
Jalankan python run_bert.py --do_data ke data preprocess.
Jalankan python run_bert.py --do_train --save_best --do_lower_case untuk fine tuning Bert model.
Jalankan run_bert.py --do_test --do_lower_case untuk memprediksi data baru.

pelatihan

 [training] 8511/8511 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] -0.8s/step- loss: 0.0640
training result:
[2019-01-14 04:01:05]: bert-multi-label trainer.py[line:176] INFO  
Epoch: 2 - loss: 0.0338 - val_loss: 0.0373 - val_auc: 0.9922

angka pelatihan

hasil

 - - - - train report every label - - - - -
Label : toxic - auc : 0.9903
Label : severe_toxic - auc : 0.9913
Label : obscene - auc : 0.9951
Label : threat - auc : 0.9898
Label : insult - auc : 0.9911
Label : identity_hate - auc : 0.9910
- - - - valid report every label - - - - -
Label : toxic - auc : 0.9892
Label : severe_toxic - auc : 0.9911
Label : obscene - auc : 0.9945
Label : threat - auc : 0.9955
Label : insult - auc : 0.9903
Label : identity_hate - auc : 0.9927

Tips

Saat mengubah pos pemeriksaan TensorFlow menjadi Pytorch, itu diharapkan untuk memilih "Bert_Model.ckpt", bukan "Bert_Model.CKPT.Index", sebagai file input. Jika tidak, Anda akan melihat bahwa model tidak dapat belajar apa pun dan memberikan output acak yang hampir sama untuk setiap input. Ini berarti, pada kenyataannya, Anda belum memuat CKPT yang sebenarnya untuk model Anda
Saat menggunakan beberapa GPU, perhitungan non-tensor, seperti akurasi dan f1_score, tidak didukung oleh instance dataparallel
Seperti yang direkomendasikan oleh Jocob dalam makalahnya https://arxiv.org/pdf/1810.04805.pdf, dalam tugas-tugas yang disempurnakan, hyperparameters diharapkan ditetapkan sebagai berikut: Batch_Size : 16 atau 32, learning_rate : 5e-5 OR 2E-5 atau 3E-5, NUM_TRAIN : 5E: 5E-5 OR 2E-5 atau 3E-5, 5E-5, 5E-5, 5E-5, 5E-5, 5E-5, 5E-5, 5E-5, 5E-5, 5E-5, 5E, 5E, 5E-5, 5E-5, 5E-5, 5E, 5E, 5E-5, 5E-5, 5E, 5E-5, 5E, 5E, 5E-5, 5E, 5E, 5E, 5E,
Model pretrained memiliki batas untuk kalimat input bahwa panjangnya seharusnya tidak lebih besar dari 512, posisi maks yang menanamkan redup. Data mengalir ke model sebagai: raw_data -> wordpieces -> model. Perhatikan bahwa panjang wordpieces umumnya lebih besar dari raw_data, jadi panjang maksimal yang aman dari raw_data berada di ~ 128 - 256
Setelah pengujian, kami menemukan bahwa menyempurnakan semua lapisan bisa mendapatkan hasil yang jauh lebih baik daripada yang hanya menyempurnakan lapisan kelas terakhir. Yang terakhir sebenarnya adalah cara berbasis fitur

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-18
ukuran 154.15KB
Berasal dari Github

Aplikasi Terkait

multi roblox macos

2024-11-14
label studio converter

2024-11-11
TikTok Multi Downloader

2024-11-10
Teks Dengan Yesus Cina

2023-08-23
Teks Dengan Yesus

2023-08-17
Teks atau Mati

2023-07-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua