Bert Multi Label Text Classification 다운로드 -BERT Bert Multi Label Text Classification 소스 코드 다운로드

Bert Multi Label Text Classification

기타 소스코드

1.0.0

다운로드

Pytorch의 Bert Multi-Label 텍스트 분류

이 repo에는 다 레이블 텍스트 분류를위한 사전 배치 된 버트 및 XLNET 모델의 Pytorch 구현이 포함되어 있습니다.

코드의 구조

프로젝트의 근원에서 다음을 볼 수 있습니다.

 ├── pybert
|  └── callback
|  |  └── lrscheduler.py　　
|  |  └── trainingmonitor.py　
|  |  └── ...
|  └── config
|  |  └── basic_config.py #a configuration file for storing model parameters
|  └── dataset　　　
|  └── io　　　　
|  |  └── dataset.py　　
|  |  └── data_transformer.py　　
|  └── model
|  |  └── nn　
|  |  └── pretrain　
|  └── output #save the ouput of model
|  └── preprocessing #text preprocessing 
|  └── train #used for training a model
|  |  └── trainer.py 
|  |  └── ...
|  └── common # a set of utility functions
├── run_bert.py
├── run_xlnet.py

의존성

CSV
TQDM
Numpy
간물
Scikit-Learn
Pytorch 1.1+
matplotlib
팬더
변압기 = 2.5.1

코드 사용 방법

사전 배치 된 버트 모델과 XLNET 모델을 다운로드해야합니다.

Bert : Bert-base-incased

xlnet : xlnet-base-cased

S3에서 Bert Pretrated Model을 다운로드하십시오
S3에서 Bert 구성 파일을 다운로드하십시오
S3에서 Bert Vocab 파일을 다운로드하십시오
이름 바꾸기 :
- bert-base-uncased-pytorch_model.bin to pytorch_model.bin
- bert-base-uncased-config.json to config.json
- bert-base-uncased-vocab.txt to bert_vocab.txt
model , config 및 vocab 파일을 /pybert/pretrain/bert/base-uncased 디렉토리에 배치하십시오.
pip install pytorch-transformers .
Kaggle 데이터를 다운로드하고 pybert/dataset 에서 배치하십시오.
- io.task_data.py 수정하여 데이터를 조정할 수 있습니다.
pybert/configs/basic_config.py 에서 구성 정보를 수정하십시오 (데이터 경로 ...).
python run_bert.py --do_data 전처리 데이터로 실행하십시오.
python run_bert.py --do_train --save_best --do_lower_case 미세 튜닝 버트 모델로 실행하십시오.
run_bert.py --do_test --do_lower_case run을 예측하십시오.

훈련

 [training] 8511/8511 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] -0.8s/step- loss: 0.0640
training result:
[2019-01-14 04:01:05]: bert-multi-label trainer.py[line:176] INFO  
Epoch: 2 - loss: 0.0338 - val_loss: 0.0373 - val_auc: 0.9922

훈련 인물

결과

 - - - - train report every label - - - - -
Label : toxic - auc : 0.9903
Label : severe_toxic - auc : 0.9913
Label : obscene - auc : 0.9951
Label : threat - auc : 0.9898
Label : insult - auc : 0.9911
Label : identity_hate - auc : 0.9910
- - - - valid report every label - - - - -
Label : toxic - auc : 0.9892
Label : severe_toxic - auc : 0.9911
Label : obscene - auc : 0.9945
Label : threat - auc : 0.9955
Label : insult - auc : 0.9903
Label : identity_hate - auc : 0.9927

팁

텐서 플로우 체크 포인트를 Pytorch로 변환 할 때는 입력 파일로 "bert_model.ckpt.index"대신 "bert_model.ckpt"를 선택해야합니다. 그렇지 않으면 모델이 아무것도 배우지 않고 입력에 대해 거의 동일한 임의의 출력을 제공 할 수 있음을 알 수 있습니다. 이것은 실제로 모델에 대한 진정한 CKPT를로드하지 않았다는 것을 의미합니다.
다중 GPU를 사용하는 경우 정확도 및 F1_Score와 같은 비 긴급 계산은 DataparAllel 인스턴스에서 지원되지 않습니다.
Jocob이 그의 논문에서 권장하는대로 https://arxiv.org/pdf/1810.04805.pdf, 미세 조정 작업에서, 하이퍼 파라미터는 다음과 같이 설정 될 것으로 예상됩니다 : batch_size : 16 또는 32, Learning_rate : 5e-5 또는 2e-5 또는 3e-5, num_train_epoch : 3 또는 4.
사전 예방 모델은 길이가 512보다 크지 않다는 입력 문장에 대한 한계를 갖습니다. 데이터는 다음과 같이 모델로 흐릅니다. raw_data-> WordPieces-> 모델. 워드 피스의 길이는 일반적으로 raw_data의 길이보다 크기 때문에 Raw_data의 안전한 최대 길이는 ~ 128-256입니다.
테스트 후, 우리는 모든 레이어를 미세 조정하면 마지막 계층 층을 미세 조정하는 것보다 훨씬 더 나은 결과를 얻을 수 있음을 발견했습니다. 후자는 실제로 기능 기반 방식입니다

확장하다

추가 정보