torchKbert下載torchKbert源代碼下載

2021.03.07: 添加層次分解位置編碼。
2021.05.27: 添加基於詞顆粒度的中文WoBERT。
2022.03.27: 參照pytorch_transformers 對BertPretrainedModel 代碼實現進行了重構。

下載

torchKbert

這是筆者基於Meelfy 的pytorch_pretrained_BERT 庫進行部分定制化修改的模型庫。

本項目的初衷是為了滿足個人實驗的方便，因此不會經常更新。

原始的模型庫pytorch_pretrained_BERT 中的功能仍然支持；
支持層次分解位置編碼。
支持基於詞顆粒度的woBERT。 Pytorch 權重（這裡提供的是WoBERT Plus模型）：
- chinese_wobert_plus.zip（提取碼: fg6j)

安裝：
```
pip install torchKbert
```
典型的使用例子請參考官方examples 目錄。
若想使用層次分解位置編碼，使BERT 可以處理長文本，在model中傳入參數is_hierarchical=True即可。示例如下：
```
 model = BertModel(config)
encoder_outputs, _ = model(input_ids, token_ids, input_mask, is_hierarchical=True)
```
若想使用基於詞顆粒度的中文WoBERT，只需在構建BertTokenizer對象時傳入新參數：
```
 from torchKbert.tokenization import BertTokenizer

tokenizer = BertTokenizer(
    vocab_file=vocab_path, 
    pre_tokenizer=lambda s: jieba.cut(s, HMM=False))
```
不傳入時，默認為None 。分詞時默認以詞為單位，若想恢復使用以字為單位，只需在tokenize時傳入新參數pre_tokenize=False ：
```
 tokenzier.tokenize(text, pre_tokenize=False)
```