xlnet Pytorch 다운로드 xlnet Pytorch 소스 코드 다운로드

xlnet Pytorch

기타 소스코드

1.0.0

다운로드

xlnet-pytorch arxiv : 1906.08237

Pytorch 래퍼가있는 간단한 XLNET 구현!

작은 배치 크기 (= 1) 예제로 XLNET 아키텍처가 사전 훈련에서 어떻게 작동하는지 알 수 있습니다.

사용합니다

$ git clone https://github.com/graykode/xlnet-Pytorch && cd xlnet-Pytorch

# To use Sentence Piece Tokenizer(pretrained-BERT Tokenizer)
$ pip install pytorch_pretrained_bert

$ python main.py --data ./data.txt --tokenizer bert-base-uncased 
   --seq_len 512 --reuse_len 256 --perm_size 256 
   --bi_data True --mask_alpha 6 --mask_beta 1 
   --num_predict 85 --mem_len 384 --num_epoch 100

또한 Google Colab에서 코드를 쉽게 실행할 수 있습니다.

종이의 사전 여과를위한 과다 모수.

#### 옵션

—data (string) : .txt 파일을 훈련합니다. 멀티 린 텍스트는 중요하지 않습니다. 또한 하나의 파일은 하나의 배치 텐서입니다. 기본값 : data.txt
—tokenizer (String) : 방금 Huggingface/Pytorch-Prestrained-Bert 's Tokenizer를 서브 워드 Tokenizer로 사용했습니다 (곧 문장 조각으로 편집 할 것입니다). bert-base-uncased , bert-large-uncased , bert-base-cased , bert-large-cased 로 선택할 수 있습니다. 기본값 : bert-base-uncased
—seq_len (정수) : 시퀀스 길이. 기본값 : 512
—reuse_len (interger) : 메모리로 재사용 할 수있는 토큰 수. seq_len 의 절반이 될 수 있습니다. 기본값 : 256
—perm_size (interger) : 가장 긴 순열의 길이. Reuse_len으로 설정할 수 있습니다. 기본값 : 256
--bi_data (부울) : 양방향 데이터 생성 여부. bi_data 가 True 인 경우 biz(batch size) 짝수가되어야합니다. 기본값 : False
—mask_alpha (Interger) : 그룹을 형성하기 위해 얼마나 많은 토큰이. Defalut : 6
—mask_beta (정수) : 각 그룹 내에서 마스크 할 토큰 수. 기본값 : 1
—num_predict (Interger) : 예측할 토큰의 수. 종이에서는 부분 예측을 의미합니다. 기본값 : 85
—mem_len (Interger) : Transformer-XL 아키텍처에서 캐시를위한 단계 수. 기본값 : 384
—num_epoch (interger) : 에포크 수. 기본값 : 100