torchKbert 다운로드 - torchKbert 소스 코드 다운로드

다운로드

Torchkbert

이것은 Meelfy의 pytorch_pretraind_bert 라이브러리를 기반으로 부분적으로 사용자 정의 및 수정 된 모델 라이브러리입니다.

이 프로젝트의 원래 의도는 개인 실험의 편의를 충족시키는 것이므로 자주 업데이트되지 않습니다.

원래 모델 라이브러리의 기능 Pytorch_pretraind_bert의 기능은 여전히 지원됩니다.
계층 적 분해 위치 코딩을 지원합니다.
단어 세분화에 따라 Wobert를 지원합니다. Pytorch 가중치 (Wobert Plus 모델은 여기에 제공됨) :
- Chinese_wobert_plus.zip (추출 코드 : FG6J)

설치하다:
```
pip install torchKbert
```
일반적인 사용 예제는 공식 예제 디렉토리를 참조하십시오.
BERT가 긴 텍스트를 처리 할 수 있도록 계층 적 분해 위치 위치 인코딩을 사용하려면 model 에서 매개 변수 is_hierarchical=True 전달하십시오. 예는 다음과 같습니다.
```
 model = BertModel(config)
encoder_outputs, _ = model(input_ids, token_ids, input_mask, is_hierarchical=True)
```
단어 세분화를 기반으로 중국어를 사용하려면 BertTokenizer 객체를 구축 할 때 새로운 매개 변수를 전달하십시오.
```
 from torchKbert.tokenization import BertTokenizer

tokenizer = BertTokenizer(
    vocab_file=vocab_path, 
    pre_tokenizer=lambda s: jieba.cut(s, HMM=False))
```
통과하지 않으면 기본값은 None . 단어를 참여할 때 기본값은 단어로 사용됩니다. 단어 단위 tokenize 사용을 복원하려면 새로운 매개 변수를 pre_tokenize=False 하십시오.
```
 tokenzier.tokenize(text, pre_tokenize=False)
```

나는 이전에 meelfy에서 pytorch_pretraind_bert를 작성해 왔으며, 사전에 걸린 모델을 부르거나 미세 조정을 수행하는 것이 매우 편리합니다. 나중에 개인적인 요구로 인해 계층 적 분해 위치 코딩을 지원하는 버전을 다시 작성하고 싶었습니다.

Sushen의 Bert4keras는 그러한 기능을 구현했습니다. 그러나 나는 Pytorch를 사용하는 데 익숙했기 때문에 오랫동안 Keras를 사용하지 않았으므로 혼자서 다시 작성할 계획입니다.

2021.03.07 : 계층 적 분해 위치 코딩 추가.
2021.05.27 : 단어 세분화에 따라 중국어를 추가하십시오.
2022.03.27 : Pytorch_transformers를 참조하여 BertprectraindModel 코드 구현을 리팩터링하십시오.

Meelfy의 pytorch_pretraind_bert 구현 덕분 에이 구현은 전적으로 pytorch_pretraind_bert의 소스 코드를 기반으로합니다.
그의 통찰력과 이타적인 공유에 대한 Su Shen 덕분에 : 계층 적 분해 위치 코딩을 통해 Bert는 초대형 텍스트를 처리 할 수 있습니다.
Wobert : 단어 기반 중국어 버트 모델 -Zhuiyiai.

확장하다

추가 정보