Descargar torchKbert - Descargar el código fuente de torchKbert

torchKbert

Código Fuente de IA

1.0.0

Descargar

Torchkbert

Nuestra versión personalizada de Bert para Pytorch

ilustrar

Esta es una biblioteca de modelos que he personalizado y modificado parcialmente en base a la biblioteca PyTorch_Prained_Bert de Meelfy.

La intención original de este proyecto es satisfacer la conveniencia de los experimentos personales, por lo que no se actualizará con frecuencia.

Función

La funcionalidad en la biblioteca de modelos original PyTorch_PreTrainse_Bert todavía es compatible;
Admite la codificación de posición de descomposición jerárquica.
Apoya a Wobert basado en la granularidad de las palabras. Pesos de Pytorch (el modelo Wobert Plus se proporciona aquí):
- chino_wobert_plus.zip (código de extracción: fg6j)

usar

Instalar:
```
pip install torchKbert
```
Para ver ejemplos de uso típicos, consulte el directorio de ejemplos oficiales.
Si desea utilizar la codificación de posición de descomposición jerárquica para que Bert pueda procesar un texto largo, simplemente pase el parámetro is_hierarchical=True en model . Los ejemplos son los siguientes:
```
 model = BertModel(config)
encoder_outputs, _ = model(input_ids, token_ids, input_mask, is_hierarchical=True)
```
Si desea usar Wobert chino en función de la granularidad de las palabras, simplemente pase en nuevos parámetros al construir el objeto BertTokenizer :
```
 from torchKbert.tokenization import BertTokenizer

tokenizer = BertTokenizer(
    vocab_file=vocab_path, 
    pre_tokenizer=lambda s: jieba.cut(s, HMM=False))
```
Cuando no se pasa, el valor predeterminado es None . Al participar en palabras, el valor predeterminado debe usarse como palabras. Si desea restaurar el uso de unidades de palabras, simplemente pase en el nuevo parámetro pre_tokenize=False cuando tokenize :
```
 tokenzier.tokenize(text, pre_tokenize=False)
```

fondo

He estado escribiendo pytorch_preetrainse_bert en Meelfy antes, y es muy conveniente llamar a modelos previos a la aparición o realizar un ajuste fino. Más tarde, debido a las necesidades personales, quería reescribir una versión que admita la codificación de posición de descomposición jerárquica.

Bert4keras de Sushen ha implementado dicha función. Pero debido a que estoy acostumbrado a usar Pytorch, no he usado keras durante mucho tiempo, así que planeo reescribir uno solo.

renovar

2021.03.07 : Agregar codificación de posición de descomposición jerárquica.
2021.05.27 : Agregue Wobert chino basado en la granularidad de las palabras.
2022.03.27 : Consulte Pytorch_transformers para refactorizar la implementación del código BertPreTrainedModel.

referirse a

Gracias a la implementación de Meelfy de PyTorch_Preetrainse_Bert, esta implementación se basa completamente en el código fuente de PyTorch_PreTrained_Bert.
Gracias a Su Shen por su conocimiento y compartir desinteresado: la codificación de posición de descomposición jerárquica le permite a Bert procesar el texto ultra largo.
Wobert: Modelo Bert Chino basado en palabras - Zhuiyiai.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-08
tamaño 85.53KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo