Parsbert是基於Google的Bert體系結構的單語言模型。該模型已在大型波斯語料庫中進行了預培訓,該模型具有來自眾多主題(例如,科學,小說,新聞)的各種寫作風格,具有超過3.9M文檔, 73M句子和1.3B字。
論文呈現Parsbert:doi:10.1007/s11063-021-10528-4
當前版本:V3
ParsBERT trained on a massive amount of public corpora (Persian Wikidumps, MirasText) and six other manually crawled text data from a various type of websites (BigBang Page scientific , Chetor lifestyle , Eligasht itinerary , Digikala digital magazine , Ted Talks general conversational , Books novels, storybooks, short stories from old to the contemporary era ).
作為Parsbert方法論的一部分,進行了廣泛的預處理,結合了POS標籤和文書分段,以使Corpora成為適當的格式。

帕斯伯特遊樂場
Parsbert在三個NLP下游任務上進行了評估:情感分析(SA),文本分類和命名實體識別(NER)。對於此問題,由於資源不足,手動組成了兩個用於SA的大型數據集和兩個用於文本分類的大型數據集,可用於公共使用和基準測試。帕斯伯特(Parsbert)的表現優於所有其他語言模型,包括用於所有任務的多語言BERT和其他混合深度學習模型,從而提高了波斯語模型的最新性能。
下表與其他模型和體系結構相比,總結了Parsbert獲得的F1分數。
| 數據集 | Parsbert V3 | Parsbert V2 | Parsbert V1 | 姆伯特 | 深森特人 |
|---|---|---|---|---|---|
| Digikala用戶評論 | - | 81.72 | 81.74* | 80.74 | - |
| Snappfood用戶評論 | - | 87.98 | 88.12* | 87.87 | - |
| 哨兵(多類) | - | 71.31* | 71.11 | - | 69.33 |
| 哨兵(二進制班) | - | 92.42* | 92.13 | - | 91.98 |
| 數據集 | Parsbert V3 | Parsbert V2 | Parsbert V1 | 姆伯特 |
|---|---|---|---|---|
| Digikala雜誌 | - | 93.65* | 93.59 | 90.72 |
| 波斯新聞 | - | 97.44* | 97.19 | 95.79 |
| 數據集 | Parsbert V3 | Parsbert V2 | Parsbert V1 | 姆伯特 | Morphobert | Beheshti-ner | LSTM-CRF | 基於規則的CRF | Bilstm-Crf |
|---|---|---|---|---|---|---|---|---|---|
| 皮馬 | 93.40* | 93.10 | 86.64 | - | 90.59 | - | 84.00 | - | |
| 阿曼 | 99.84* | 98.79 | 95.89 | 89.9 | 84.03 | 86.55 | - | 77.45 |
如果您在公共數據集上測試了Parsbert,並且要將結果添加到上表中,請打開拉請請求或與我們聯繫。另請確保您的代碼在線可用,以便我們可以將其添加為參考
from transformers import AutoConfig , AutoTokenizer , AutoModel , TFAutoModel
# v3.0
model_name_or_path = "HooshvareLab/bert-fa-zwnj-base"
config = AutoConfig . from_pretrained ( model_name_or_path )
tokenizer = AutoTokenizer . from_pretrained ( model_name_or_path )
# model = TFAutoModel.from_pretrained(model_name_or_path) For TF
model = AutoModel . from_pretrained ( model_name_or_path )
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer . tokenize ( text )
[ 'ما' , 'در' , 'هوش' , '[ZWNJ]' , 'واره' , 'معتقدیم' , 'با' , 'انتقال' , 'صحیح' , 'دانش' , 'و' , 'آ' , '##گاهی' , '،' , 'همه' , 'افراد' , 'میتوانند' , 'از' , 'ابزارهای' , 'هوشمند' , 'استفاده' , 'کنند' , '.' , 'شعار' , 'ما' , 'هوش' , 'مصنوعی' , 'برای' , 'همه' , 'است' , '.' ]| 筆記本 | |
|---|---|
| 文本分類 | |
| 情感分析 | |
| 命名實體識別 | |
| 文字生成 |
如果您在研究中使用Parsbert,請在出版物中引用以下論文:
@article { ParsBERT ,
title = { Parsbert: Transformer-based model for Persian language understanding } ,
DOI = { 10.1007/s11063-021-10528-4 } ,
journal = { Neural Processing Letters } ,
author = { Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri } ,
year = { 2021 }
} 在此,我們對Tensorflow Research Cloud(TFRC)計劃表示感謝,以為我們提供必要的計算資源。我們還要感謝Hooshvare Research Group促進數據集收集和刮擦在線文本資源。
今天可以使用新版本的Bert v3.0 V3.0,並且可以解決波斯寫作的零寬非加路人角色。此外,該模型還接受了新的多類型語料庫的培訓,並具有新的詞彙量。
可獲得:Hooshvarelab/bert-fa-zwnj-base
Parsbert v2.0:我們重建了詞彙量,並在新波斯語料庫上對Parsbert v1.1進行了微調,以便為在其他範圍中使用Parsbert提供一些功能!訓練期間的客觀目標如下(30萬步之後)。
***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05可獲得:Hooshvarelab/Bert-Fa-base-unc.unc.
PARSBERT v1.1:我們根據同一波斯語料庫和Bert-Base配置繼續進行超過250萬步的培訓。培訓期間的客觀目標如下(250萬步驟之後)。
***** Eval results *****
global_step = 2575000
loss = 1.3973521
masked_lm_accuracy = 0.70044917
masked_lm_loss = 1.3974043
next_sentence_accuracy = 0.9976562
next_sentence_loss = 0.0088804625可獲得:Hooshvarelab/Bert-Base-Parsbert-uncund
PARSBERT V1:這是我們基於Bert-Base的Parsbert的第一個版本。該模型經過了1920000步驟的龐大波斯語料庫培訓。培訓期間的客觀目標如下(19m步驟之後)。
***** Eval results *****
global_step = 1920000
loss = 2.6646128
masked_lm_accuracy = 0.583321
masked_lm_loss = 2.2517521
next_sentence_accuracy = 0.885625
next_sentence_loss = 0.3884369可獲得:Hooshvarelab/Bert-Base-Parsbert-uncund
Apache許可證2.0