torchKbert
1.0.0
이것은 Meelfy의 pytorch_pretraind_bert 라이브러리를 기반으로 부분적으로 사용자 정의 및 수정 된 모델 라이브러리입니다.
이 프로젝트의 원래 의도는 개인 실험의 편의를 충족시키는 것이므로 자주 업데이트되지 않습니다.
설치하다:
pip install torchKbert일반적인 사용 예제는 공식 예제 디렉토리를 참조하십시오.
BERT가 긴 텍스트를 처리 할 수 있도록 계층 적 분해 위치 위치 인코딩을 사용하려면 model 에서 매개 변수 is_hierarchical=True 전달하십시오. 예는 다음과 같습니다.
model = BertModel(config)
encoder_outputs, _ = model(input_ids, token_ids, input_mask, is_hierarchical=True)
단어 세분화를 기반으로 중국어를 사용하려면 BertTokenizer 객체를 구축 할 때 새로운 매개 변수를 전달하십시오.
from torchKbert.tokenization import BertTokenizer
tokenizer = BertTokenizer(
vocab_file=vocab_path,
pre_tokenizer=lambda s: jieba.cut(s, HMM=False))
통과하지 않으면 기본값은 None . 단어를 참여할 때 기본값은 단어로 사용됩니다. 단어 단위 tokenize 사용을 복원하려면 새로운 매개 변수를 pre_tokenize=False 하십시오.
tokenzier.tokenize(text, pre_tokenize=False)
나는 이전에 meelfy에서 pytorch_pretraind_bert를 작성해 왔으며, 사전에 걸린 모델을 부르거나 미세 조정을 수행하는 것이 매우 편리합니다. 나중에 개인적인 요구로 인해 계층 적 분해 위치 코딩을 지원하는 버전을 다시 작성하고 싶었습니다.
Sushen의 Bert4keras는 그러한 기능을 구현했습니다. 그러나 나는 Pytorch를 사용하는 데 익숙했기 때문에 오랫동안 Keras를 사용하지 않았으므로 혼자서 다시 작성할 계획입니다.