Parsbert es un modelo de lenguaje monolingüe basado en la arquitectura Bert de Google. Este modelo está previamente entrenado en grandes corpus persa con varios estilos de escritura de numerosos temas (por ejemplo, científico, novelas, noticias) con más de 3.9M documentos, oraciones 73M y palabras 1.3B .
Presentación de papel Parsbert: doi: 10.1007/s11063-021-10528-4
Versión actual: V3
Parsbert se formó en una gran cantidad de corpus públicos (Wikidumps persa, Mirastext) y otros seis datos de texto gastados manualmente de un tipo de sitios web (Bigbang Page scientific , Chetor lifestyle , Eligasht itinerary , Digikala digital magazine , Ted habla general conversational , novels, storybooks, short stories from old to the contemporary era ).
Como parte de la metodología de Parsbert, se llevó a cabo un extenso preprocesamiento que combina etiquetado con POS y segmentación de la obra de palabras para llevar a los corpus en un formato adecuado.

Parque
Parsbert se evalúa en tres tareas de NLP aguas abajo: análisis de sentimientos (SA), clasificación de texto y reconocimiento de entidad nombrado (NER). Para este asunto y debido a recursos insuficientes, se compusieron manualmente dos conjuntos de datos grandes para SA y dos para la clasificación de texto, que están disponibles para uso público y evaluación comparativa. Parsbert superó a todos los demás modelos de idiomas, incluido Bert multilingüe y otros modelos de aprendizaje profundo híbrido para todas las tareas, mejorando el rendimiento de vanguardia en el modelado de idiomas persa.
La siguiente tabla resume la puntuación F1 obtenida por Parsbert en comparación con otros modelos y arquitecturas.
| Conjunto de datos | Parsbert v3 | Parsbert v2 | Parsbert V1 | mbert | Profundos |
|---|---|---|---|---|---|
| Comentarios de los usuarios de Digikala | - | 81.72 | 81.74* | 80.74 | - |
| Comentarios de los usuarios de Snappfood | - | 87.98 | 88.12* | 87.87 | - |
| Sentipers (múltiples clase) | - | 71.31* | 71.11 | - | 69.33 |
| Sentipers (clase binaria) | - | 92.42* | 92.13 | - | 91.98 |
| Conjunto de datos | Parsbert v3 | Parsbert v2 | Parsbert v1 | mbert |
|---|---|---|---|---|
| Revista Digikala | - | 93.65* | 93.59 | 90.72 |
| Noticias persa | - | 97.44* | 97.19 | 95.79 |
| Conjunto de datos | Parsbert v3 | Parsbert v2 | Parsbert v1 | mbert | Morfobert | Beheshti-gan | LSTM-CRF | CRF basado en reglas | Bilstm-crf |
|---|---|---|---|---|---|---|---|---|---|
| Paleta | 93.40* | 93.10 | 86.64 | - | 90.59 | - | 84.00 | - | |
| Arman | 99.84* | 98.79 | 95.89 | 89.9 | 84.03 | 86.55 | - | 77.45 |
Si probó Parsbert en un conjunto de datos público y desea agregar sus resultados a la tabla anterior, abra una solicitud de extracción o contáctenos. También asegúrese de tener su código disponible en línea para que podamos agregarlo como referencia.
from transformers import AutoConfig , AutoTokenizer , AutoModel , TFAutoModel
# v3.0
model_name_or_path = "HooshvareLab/bert-fa-zwnj-base"
config = AutoConfig . from_pretrained ( model_name_or_path )
tokenizer = AutoTokenizer . from_pretrained ( model_name_or_path )
# model = TFAutoModel.from_pretrained(model_name_or_path) For TF
model = AutoModel . from_pretrained ( model_name_or_path )
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer . tokenize ( text )
[ 'ما' , 'در' , 'هوش' , '[ZWNJ]' , 'واره' , 'معتقدیم' , 'با' , 'انتقال' , 'صحیح' , 'دانش' , 'و' , 'آ' , '##گاهی' , '،' , 'همه' , 'افراد' , 'میتوانند' , 'از' , 'ابزارهای' , 'هوشمند' , 'استفاده' , 'کنند' , '.' , 'شعار' , 'ما' , 'هوش' , 'مصنوعی' , 'برای' , 'همه' , 'است' , '.' ]| Computadora portátil | |
|---|---|
| Clasificación de texto | |
| Análisis de sentimientos | |
| Reconocimiento de entidad nombrado | |
| Generación de texto |
Cite el siguiente documento en su publicación si está utilizando Parsbert en su investigación:
@article { ParsBERT ,
title = { Parsbert: Transformer-based model for Persian language understanding } ,
DOI = { 10.1007/s11063-021-10528-4 } ,
journal = { Neural Processing Letters } ,
author = { Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri } ,
year = { 2021 }
} Por la presente, expresamos nuestra gratitud al programa TensorFlow Research Cloud (TFRC) para proporcionarnos los recursos de cálculo necesarios. También agradecemos a Hooshvare Research Group por facilitar la recopilación de conjuntos de datos y raspar los recursos de texto en línea.
La nueva versión de Bert V3.0 para Persian está disponible hoy y puede abordar el personaje no unido por la escritura persa. Además, el modelo fue capacitado en nuevos corpus de tipos múltiples con un nuevo conjunto de vocabulario.
Disponible por: Hooshvarelab/Bert-Fa-Zwnj-Base
Parsbert v2.0: Reconstruimos el vocabulario y afinamos el Parsbert V1.1 en los nuevos corpus persa para proporcionar algunas funcionalidades para usar Parsbert en otros ámbitos. Los objetivos objetivos durante el entrenamiento son los siguientes (después de 300k pasos).
***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05Disponible por: Hooshvarelab/Bert-Fa-Base-Inscuye
Parsbert V1.1: Continuamos la capacitación para más de 2.5 millones de pasos basados en los mismos corpus persicos y la configuración de Bert-Base. Los objetivos objetivos durante el entrenamiento son los siguientes (después de 2,5 millones de pasos).
***** Eval results *****
global_step = 2575000
loss = 1.3973521
masked_lm_accuracy = 0.70044917
masked_lm_loss = 1.3974043
next_sentence_accuracy = 0.9976562
next_sentence_loss = 0.0088804625Disponible por: Hooshvarelab/Bert-Base-Parsbert
Parsbert V1: Esta es la primera versión de nuestro Parsbert basada en Bert-Base. El modelo fue entrenado en vastas corpus persa para los pasos de 1920000. Los objetivos objetivos durante el entrenamiento son los siguientes (después de 1.9m pasos).
***** Eval results *****
global_step = 1920000
loss = 2.6646128
masked_lm_accuracy = 0.583321
masked_lm_loss = 2.2517521
next_sentence_accuracy = 0.885625
next_sentence_loss = 0.3884369Disponible por: Hooshvarelab/Bert-Base-Parsbert
Licencia de Apache 2.0