torchKbert Download - torchKbert Source Code Download

torchKbert

AI-Quellcode

1.0.0

Herunterladen

Torchkbert

Unsere angepasste Version von Bert für Pytorch

veranschaulichen

Dies ist eine Modellbibliothek, die ich basierend auf Meelfys Pytorch_Pretrained_bert -Bibliothek teilweise angepasst und modifiziert habe.

Die ursprüngliche Absicht dieses Projekts ist es, die Bequemlichkeit persönlicher Experimente zu befriedigen, sodass es nicht häufig aktualisiert wird.

Funktion

Die Funktionalität in der ursprünglichen Modellbibliothek Pytorch_Petrier_bert wird noch unterstützt.
Unterstützt hierarchische Zerlegungspositionscodierung.
Unterstützt Wobert basierend auf Wortgranularität. Pytorch -Gewichte (das Wobert Plus -Modell wird hier bereitgestellt):
- Chinese_wobert_plus.zip (Extraktionscode: FG6J)

verwenden

Installieren:
```
pip install torchKbert
```
Für typische Verwendungsbeispiele finden Sie im offiziellen Beispielverzeichnis.
Wenn Sie eine hierarchische Zerlegungspositionscodierung verwenden möchten, damit Bert einen langen Text verarbeiten kann, übergeben Sie einfach den Parameter is_hierarchical=True im model . Beispiele sind wie folgt:
```
 model = BertModel(config)
encoder_outputs, _ = model(input_ids, token_ids, input_mask, is_hierarchical=True)
```
Wenn Sie den chinesischen Wobert basierend auf Wortgranularität verwenden möchten, geben Sie einfach neue Parameter ein, wenn Sie das BertTokenizer -Objekt erstellen:
```
 from torchKbert.tokenization import BertTokenizer

tokenizer = BertTokenizer(
    vocab_file=vocab_path, 
    pre_tokenizer=lambda s: jieba.cut(s, HMM=False))
```
Wenn nicht eingegeben wird, ist der Standard None . Bei Beteiligten ist die Standardeinstellung als Wörter zu verwenden. Wenn Sie die Verwendung von Word -Einheiten wiederherstellen möchten, geben Sie einfach den neuen Parameter pre_tokenize=False ab, wenn tokenize :
```
 tokenzier.tokenize(text, pre_tokenize=False)
```

Hintergrund

Ich habe schon einmal Pytorch_Petretrained_bert in Meelfy geschrieben, und es ist sehr bequem, vorbereitete Modelle anzurufen oder eine Feinabstimmung durchzuführen. Später wollte ich aufgrund persönlicher Bedürfnisse eine Version neu schreiben, die die hierarchische Zerlegungspositionskodierung unterstützt.

Sushens Bert4keras hat eine solche Funktion implementiert. Aber weil ich es gewohnt bin, Pytorch zu verwenden, habe ich schon lange Keras nicht mehr benutzt, also habe ich vor, selbst einen umzuschreiben.

erneuern

2021.03.07 : Hinzufügen einer hierarchischen Zersetzungspositionscodierung.
2021.05.27 : Fügen Sie Chinese Wobert auf der Grundlage von Wortgranularität hinzu.
2022.03.27 : Siehe Pytorch_transformers, um die Implementierung von BertPretrainedModel Code neu zu refaktor.

beziehen sich auf

Dank meiner Implementierung von Pytorch_Petrier_bert basiert diese Implementierung ausschließlich auf dem Quellcode von Pytorch_Petrier_bert.
Vielen Dank an Su Shen für seine Einsicht und seine selbstlose Teile: Hierarchische Zerlegungspositioncodierung ermöglicht es Bert, ultra-langen Text zu verarbeiten.
Wobert: Word -basiertes chinesisches Bert -Modell - Zhuiyiai.

Expandieren

Zusätzliche Informationen