Parsbert é um modelo de linguagem monolíngue com base na arquitetura Bert do Google. Este modelo é pré-treinado em grandes corpora persa, com vários estilos de escrita de vários assuntos (por exemplo, científicos, romances, notícias) com mais de 3.9M de documentos, 73M de frases e 1.3B de palavras.
Artigo Apresentando Parsbert: doi: 10.1007/s11063-021-10528-4
Versão atual: v3
Parsbert treinou em uma quantidade enorme de corpora pública (Wikidumps persa, Mirastext) e seis outros dados de texto rastejados manualmente de vários tipos de sites (Bigbang Page scientific , Chetor lifestyle , Elegasht itinerary , Digikala digital magazine , Treldes Talks general conversational , Livros, novatos, novels, storybooks, short stories from old to the contemporary era .
Como parte da metodologia de Parsbert, uma extensa segmentação de marcação de PDV e Wordpiece pré-processamento foi realizada para trazer o corpora em um formato adequado.

Parsbert Playground
Parsbert é avaliado em três tarefas a jusante de NLP: análise de sentimentos (SA), classificação de texto e reconhecimento de entidade nomeado (NER). Para este assunto e devido a recursos insuficientes, dois grandes conjuntos de dados para SA e dois para classificação de texto foram compostos manualmente, disponíveis para uso público e benchmarking. A Parsbert superou todos os outros modelos de idiomas, incluindo Bert multilíngue e outros modelos de aprendizado profundo híbrido para todas as tarefas, melhorando o desempenho de ponta na modelagem de idiomas persa.
A tabela a seguir resume a pontuação F1 obtida por Parsbert em comparação com outros modelos e arquiteturas.
| Conjunto de dados | Parsbert v3 | Parsbert v2 | Parsbert v1 | Mbert | DeepSentipers |
|---|---|---|---|---|---|
| Comentários do usuário Digikala | - | 81.72 | 81,74* | 80,74 | - |
| Comentários do usuário do Snappfood | - | 87.98 | 88.12* | 87,87 | - |
| Sentipers (multi -classe) | - | 71.31* | 71.11 | - | 69.33 |
| Sentipers (classe binária) | - | 92.42* | 92.13 | - | 91.98 |
| Conjunto de dados | Parsbert v3 | Parsbert v2 | Parsbert v1 | Mbert |
|---|---|---|---|---|
| Revista Digikala | - | 93.65* | 93.59 | 90.72 |
| Notícias persas | - | 97,44* | 97.19 | 95.79 |
| Conjunto de dados | Parsbert v3 | Parsbert v2 | Parsbert v1 | Mbert | Morfobert | Beheshti -ner | LSTM-CRF | CRF baseado em regras | Bilstm-Crf |
|---|---|---|---|---|---|---|---|---|---|
| Peyma | 93.40* | 93.10 | 86.64 | - | 90.59 | - | 84,00 | - | |
| Arman | 99,84* | 98.79 | 95.89 | 89.9 | 84.03 | 86,55 | - | 77.45 |
Se você testou Parsbert em um conjunto de dados público e deseja adicionar seus resultados à tabela acima, abra uma solicitação de tração ou entre em contato conosco. Também certifique -se de ter seu código disponível online para que possamos adicioná -lo como uma referência
from transformers import AutoConfig , AutoTokenizer , AutoModel , TFAutoModel
# v3.0
model_name_or_path = "HooshvareLab/bert-fa-zwnj-base"
config = AutoConfig . from_pretrained ( model_name_or_path )
tokenizer = AutoTokenizer . from_pretrained ( model_name_or_path )
# model = TFAutoModel.from_pretrained(model_name_or_path) For TF
model = AutoModel . from_pretrained ( model_name_or_path )
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer . tokenize ( text )
[ 'ما' , 'در' , 'هوش' , '[ZWNJ]' , 'واره' , 'معتقدیم' , 'با' , 'انتقال' , 'صحیح' , 'دانش' , 'و' , 'آ' , '##گاهی' , '،' , 'همه' , 'افراد' , 'میتوانند' , 'از' , 'ابزارهای' , 'هوشمند' , 'استفاده' , 'کنند' , '.' , 'شعار' , 'ما' , 'هوش' , 'مصنوعی' , 'برای' , 'همه' , 'است' , '.' ]| Caderno | |
|---|---|
| Classificação de texto | |
| Análise de sentimentos | |
| Reconhecimento de entidade nomeado | |
| Geração de texto |
Cite o seguinte artigo em sua publicação se você estiver usando o Parsbert em sua pesquisa:
@article { ParsBERT ,
title = { Parsbert: Transformer-based model for Persian language understanding } ,
DOI = { 10.1007/s11063-021-10528-4 } ,
journal = { Neural Processing Letters } ,
author = { Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri } ,
year = { 2021 }
} Por meio deste, expressamos nossa gratidão ao programa TensorFlow Research Cloud (TFRC) por nos fornecer os recursos de computação necessários. Agradecemos também a Hooshvare Research Group por facilitar a coleta de dados e raspar os recursos de texto on -line.
A nova versão do Bert v3.0 para persa está disponível hoje e pode enfrentar o personagem não-Jero-Width não-jero para a escrita persa. Além disso, o modelo foi treinado em novos corpora de vários tipos com um novo conjunto de vocabulário.
Disponível por: Hooshvarelab/Bert-FA-ZWNJ-BASE
Parsbert v2.0: Reconstruímos o vocabulário e ajustamos o Parsbert v1.1 no novo corpora persa, a fim de fornecer algumas funcionalidades para o uso de Parsbert em outros escopos! Os objetivos objetivos durante o treinamento estão abaixo (após 300 mil passos).
***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05Disponível por: Hooshvarelab/Bert-FA-BASE-ACED
Parsbert v1.1: Continuamos o treinamento para mais de 2,5 milhões de etapas com base na mesma configuração persa corporal e bert-base. Os objetivos objetivos durante o treinamento estão abaixo (após 2,5 milhões de etapas).
***** Eval results *****
global_step = 2575000
loss = 1.3973521
masked_lm_accuracy = 0.70044917
masked_lm_loss = 1.3974043
next_sentence_accuracy = 0.9976562
next_sentence_loss = 0.0088804625Disponível por: Hooshvarelab/Bert-Base-Parsbert-Incased
Parsbert V1: Esta é a primeira versão do nosso Parsbert baseado no Bert-Base. O modelo foi treinado em vastos corpora persa para as etapas de 1920000. Os objetivos objetivos durante o treinamento estão abaixo (após 1,9 milhão de etapas).
***** Eval results *****
global_step = 1920000
loss = 2.6646128
masked_lm_accuracy = 0.583321
masked_lm_loss = 2.2517521
next_sentence_accuracy = 0.885625
next_sentence_loss = 0.3884369Disponível por: Hooshvarelab/Bert-Base-Parsbert-Incased
Licença Apache 2.0