torchKbert下载torchKbert源代码下载

2021.03.07: 添加层次分解位置编码。
2021.05.27: 添加基于词颗粒度的中文WoBERT。
2022.03.27: 参照 pytorch_transformers 对 BertPretrainedModel 代码实现进行了重构。

下载

torchKbert

这是笔者基于 Meelfy 的 pytorch_pretrained_BERT 库进行部分定制化修改的模型库。

本项目的初衷是为了满足个人实验的方便，因此不会经常更新。

原始的模型库 pytorch_pretrained_BERT 中的功能仍然支持；
支持层次分解位置编码。
支持基于词颗粒度的woBERT。 Pytorch 权重（这里提供的是WoBERT Plus模型）：
- chinese_wobert_plus.zip（提取码: fg6j)

安装：
```
pip install torchKbert
```
典型的使用例子请参考官方 examples 目录。
若想使用层次分解位置编码，使 BERT 可以处理长文本，在 model 中传入参数 is_hierarchical=True 即可。示例如下：
```
model = BertModel(config)
encoder_outputs, _ = model(input_ids, token_ids, input_mask, is_hierarchical=True)
```
若想使用基于词颗粒度的中文WoBERT，只需在构建BertTokenizer对象时传入新参数：
```
from torchKbert.tokenization import BertTokenizer

tokenizer = BertTokenizer(
    vocab_file=vocab_path, 
    pre_tokenizer=lambda s: jieba.cut(s, HMM=False))
```
不传入时，默认为None。分词时默认以词为单位，若想恢复使用以字为单位，只需在tokenize时传入新参数pre_tokenize=False：
```
tokenzier.tokenize(text, pre_tokenize=False)
```