torchKbert скачать - скачать исходный код torchKbert

torchKbert

AI Исходный код

1.0.0

Скачать

Торшберт

Наша индивидуальная версия Bert для Pytorch

иллюстрировать

Это модельная библиотека, которую я частично настроен и модифицировал на основе библиотеки Meelfy's Pytorch_pretriend_bert.

Первоначальное намерение этого проекта - удовлетворить удобство личных экспериментов, поэтому оно не будет часто обновляться.

Функция

Функциональность в исходной библиотеке модели pytorch_pretrined_bert все еще поддерживается;
Поддерживает кодирование положения иерархического декомпозиции.
Поддерживает Wobert на основе гранулярности слова. Веса -веса (модель Wobert Plus представлена здесь):
- Китайский_wobert_plus.zip (код извлечения: fg6j)

использовать

Установить:
```
pip install torchKbert
```
Для типичных примеров использования, пожалуйста, обратитесь к официальному каталогу примеров.
Если вы хотите использовать кодирование положения иерархического разложения, чтобы BERT мог обрабатывать длинный текст, просто передайте параметр is_hierarchical=True в model . Примеры следующие:
```
 model = BertModel(config)
encoder_outputs, _ = model(input_ids, token_ids, input_mask, is_hierarchical=True)
```
Если вы хотите использовать китайский Wobert на основе гранулярности слов, просто передайте новые параметры при построении объекта BertTokenizer :
```
 from torchKbert.tokenization import BertTokenizer

tokenizer = BertTokenizer(
    vocab_file=vocab_path, 
    pre_tokenizer=lambda s: jieba.cut(s, HMM=False))
```
Когда они не пройдут, по умолчанию None . При участии слов, по умолчанию следует использовать в качестве слов. Если вы хотите восстановить использование единиц Word, просто передайте новый параметр pre_tokenize=False когда tokenize :
```
 tokenzier.tokenize(text, pre_tokenize=False)
```

фон

Я уже писал Pytorch_pretriend_bert в Meelfy, и очень удобно вызывать предварительные модели или выполнять точную настройку. Позже, из -за личных потребностей, я хотел переписать версию, которая поддерживает кодирование позиции иерархического декомпозиции.

Sushen's Bert4keras реализовал такую функцию. Но поскольку я привык использовать Pytorch, я давно не использовал керас, поэтому я планирую переписать его самостоятельно.

обновлять

2021.03.07 : Добавить кодирование положения иерархического разложения.
2021.05.27 : Добавить китайский Wobert на основе гранулярности слова.
2022.03.27 : См. Pytorch_transformers, чтобы рефактор реализации кода BertPretrainedModel.

обратиться к

Благодаря реализации Meelfy's Pytorch_pretrined_bert, эта реализация полностью основана на исходном коде Pytorch_pretrined_bert.
Благодаря Су Шен за его понимание и самоотверженное обмен: иерархическое положение положения разложения позволяет BERT обрабатывать сверх длинного текста.
Wobert: Word Bert Model - Zhuiyiiai.

Расширять

Дополнительная информация