Téléchargement torchKbert - torchKbert Source Téléchargement

torchKbert

Code Source AI

1.0.0

Télécharger

torchkbert

Notre version personnalisée de Bert pour Pytorch

illustrer

Il s'agit d'une bibliothèque de modèles que j'ai partiellement personnalisée et modifiée sur la base de la bibliothèque Pytorch_pretrain_bert de Meelfy.

L'intention initiale de ce projet est de satisfaire la commodité des expériences personnelles, donc elle ne sera pas mise à jour fréquemment.

Fonction

La fonctionnalité de la bibliothèque de modèles d'origine pytorch_pretraind_bert est toujours prise en charge;
Prend en charge le codage de position de décomposition hiérarchique.
Soutient Wobert basé sur la granularité des mots. Poids pytorch (le modèle Wobert Plus est fourni ici):
- chinois_wobert_plus.zip (code d'extraction: fg6j)

utiliser

Installer:
```
pip install torchKbert
```
Pour des exemples d'utilisation typiques, veuillez vous référer au répertoire des exemples officiels.
Si vous souhaitez utiliser le codage de position de décomposition hiérarchique pour que Bert puisse traiter le texte long, passez simplement le paramètre is_hierarchical=True dans model . Les exemples sont les suivants:
```
 model = BertModel(config)
encoder_outputs, _ = model(input_ids, token_ids, input_mask, is_hierarchical=True)
```
Si vous souhaitez utiliser le Wobert chinois en fonction de la granularité des mots, passez simplement de nouveaux paramètres lors de la construction de l'objet BertTokenizer :
```
 from torchKbert.tokenization import BertTokenizer

tokenizer = BertTokenizer(
    vocab_file=vocab_path, 
    pre_tokenizer=lambda s: jieba.cut(s, HMM=False))
```
Lorsqu'il n'est pas passé, la valeur par défaut None . Lors de la participation aux mots, la valeur par défaut doit être utilisée comme mots. Si vous souhaitez restaurer l'utilisation des unités de mots, passez simplement dans le nouveau paramètre pre_tokenize=False quand tokenize :
```
 tokenzier.tokenize(text, pre_tokenize=False)
```

arrière-plan

J'ai déjà écrit pytorch_pretraind_bert à Meelfy, et il est très pratique d'appeler des modèles pré-entraînés ou d'effectuer un réglage fin. Plus tard, en raison des besoins personnels, je voulais réécrire une version qui prend en charge le codage de position de décomposition hiérarchique.

Bert4keras de Sushen a implémenté une telle fonction. Mais parce que j'ai l'habitude d'utiliser Pytorch, je n'ai pas utilisé de keras depuis longtemps, donc je prévois d'en réécrire un seul.

renouveler

2021.03.07 : Ajouter le codage de position de décomposition hiérarchique.
2021.05.27 : Ajouter le Wobert chinois basé sur la granularité des mots.
2022.03.27 : Reportez-vous à Pytorch_Transformateurs pour refactoriser l'implémentation du code BertPretrainModel.

se référer à

Grâce à la mise en œuvre par Meelfy de pytorch_pretraind_bert, cette implémentation est entièrement basée sur le code source de pytorch_pretrained_bert.
Merci à Su Shen pour sa perspicacité et son partage altruiste: le codage de position de décomposition hiérarchique permet à Bert de traiter un texte ultra-long.
WOBERT: Modèle Bert chinois basé sur des mots - Zhuiyiai.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-08
taille 85.53KB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout