Bert Multi Label Text ClassificationダウンロードBert Multi Label Text Classificationソースコードダウンロード

Bert Multi Label Text Classification

その他のソースコード

1.0.0

ダウンロード

PytorchによるBert Multi-Label Text分類

このレポは、マルチラベルテキスト分類のための前提条件のBERTおよびXLNETモデルのPytorch実装が含まれています。

コードの構造

プロジェクトの根本に、あなたは次のようになります：

 ├── pybert
|  └── callback
|  |  └── lrscheduler.py　　
|  |  └── trainingmonitor.py　
|  |  └── ...
|  └── config
|  |  └── basic_config.py #a configuration file for storing model parameters
|  └── dataset　　　
|  └── io　　　　
|  |  └── dataset.py　　
|  |  └── data_transformer.py　　
|  └── model
|  |  └── nn　
|  |  └── pretrain　
|  └── output #save the ouput of model
|  └── preprocessing #text preprocessing 
|  └── train #used for training a model
|  |  └── trainer.py 
|  |  └── ...
|  └── common # a set of utility functions
├── run_bert.py
├── run_xlnet.py

依存関係

CSV
TQDM
numpy
ピクルス
Scikit-Learn
Pytorch 1.1+
matplotlib
パンダ
トランス= 2.5.1

コードの使用方法

前提条件のBERTモデルとXLNETモデルをダウンロードする必要があります。

BERT：Bert-Base-Uncased

XLNET：XLNET-Base-Cased

S3からBert Treatreaded Modelをダウンロードしてください
S3からBert Configファイルをダウンロードします
S3からBert Vocabファイルをダウンロードします
改名：
- bert-base-uncased-pytorch_model.bin to pytorch_model.bin
- bert-base-uncased-config.json to config.json
- bert_vocab.txtからbert-base-uncased-vocab.txt
/pybert/pretrain/bert/base-uncasedディレクトリにmodel 、 configおよびvocabファイルを配置します。
GitHubからpip install pytorch-transformers 。
Kaggleデータをダウンロードし、 pybert/datasetに配置します。
- io.task_data.pyを変更してデータを適応させることができます。
pybert/configs/basic_config.py （データのパス、...）の構成情報を変更します。
python run_bert.py --do_dataを実行してください。
python run_bert.py --do_train --save_best --do_lower_case微調整bertモデルを微調整します。
run_bert.py --do_test --do_lower_case新しいデータを予測します。

トレーニング

 [training] 8511/8511 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] -0.8s/step- loss: 0.0640
training result:
[2019-01-14 04:01:05]: bert-multi-label trainer.py[line:176] INFO  
Epoch: 2 - loss: 0.0338 - val_loss: 0.0373 - val_auc: 0.9922

トレーニング図

結果

 - - - - train report every label - - - - -
Label : toxic - auc : 0.9903
Label : severe_toxic - auc : 0.9913
Label : obscene - auc : 0.9951
Label : threat - auc : 0.9898
Label : insult - auc : 0.9911
Label : identity_hate - auc : 0.9910
- - - - valid report every label - - - - -
Label : toxic - auc : 0.9892
Label : severe_toxic - auc : 0.9911
Label : obscene - auc : 0.9945
Label : threat - auc : 0.9955
Label : insult - auc : 0.9903
Label : identity_hate - auc : 0.9927

ヒント

TensorflowチェックポイントをPytorchに変換すると、「bert_model.ckpt.index」ではなく、「bert_model.ckpt」を入力ファイルとして選択することが期待されています。それ以外の場合、モデルは何も学習できず、入力に対してほぼ同じランダム出力を与えることができます。これは、実際には、モデルに真のCKPTをロードしていないことを意味します
複数のGPUを使用する場合、精度やF1_Scoreなどの非テンソル計算は、DataParlaleLインスタンスによってサポートされていません。
Jocobが彼の論文で推奨しているようにhttps://arxiv.org/pdf/1810.04805.pdf、微調整されたタスクでは、 batch_size ：16または32、 Learning_rate ：5e-5または2e-5または3e-5、num-5、num-5、 num_train_epoch ：
前処理されたモデルには、その長さは512より大きくないという入力文の制限があり、最大位置はdimに埋め込まれています。データは、raw_data-> wordpieces->モデルとしてモデルに流れます。ワードピースの長さは一般にraw_dataの長さよりも大きいため、raw_dataの安全な最大長は〜128-256です
テストすると、すべてのレイヤーを微調整すると、最後のクラスフィアレイヤーのみを微調整したレイヤーよりもはるかに優れた結果が得られることがわかりました。後者は実際には機能ベースの方法です

拡大する

追加情報