LM
1.0.0

歡迎來到LifeWeb語言模型存儲庫。在這裡,我們旨在培訓不同的波斯語模型並公開釋放它們,以在波斯語的AI領域貢獻我們的份額。我們的模型的第一個版本均在我們的數據集上培訓,名為Divan ,具有超過1.64億個文檔和超過10B代幣的培訓,這些文檔已進行了標準化和精心設計,以確保其富集和全面性。更好的數據集導致更好的模型。
您可以使用下表中提供的HuggingFace Model Hub的鏈接輕鬆訪問模型。
| 模型名稱 | 基本模型 | 詞彙大小 | |
|---|---|---|---|
| 德黑蘭 | 羅伯塔 | 50000 | 結果 |
| Shiraz | 莫比爾伯特 | 50000 | 結果 |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}在包括NER ,情感分析和情緒檢測的三個下游NLP任務上評估了LifeWeb模型。德黑蘭就準確性和宏F1勝過其他所有波斯語模型。此外,設拉子的速度要快得多,而且其準確性仍然具有很高的競爭力,而不會損害太大的速度。根據Moberbert Paper的說法,該型號比Bert-base較小4.3×5.5倍。我們斷言,我們的模型表現優於該領域的所有類似模型,從而實現了新的最新性能。引用Parsbert , Ariabert和Fabert ,我們通過展示出色的評估指標來證實這一主張,即使他們本身在其他合適的模型中強調了他們的表現更好。
從下表中可以明顯看出,除了宏F1分數外,還可以找到每個任務的COLAB代碼。這些COLAB代碼在4x2080 Ti圖形卡上同樣運行。
| 模型 | ner | 情緒 | 情感 | ||
|---|---|---|---|---|---|
| 阿曼 | 皮馬 | 哨兵(多) | Snappfood | 阿曼 | |
| lifeweb-ai/德黑蘭 | 71.87% | 90.79% | 63.75% | 88.74% | 77.73% |
| LifeWeb-ai/Shiraz | 67.62% | 86.24% | 59.17% | 88.01% | 66.97% |
| sbunlp/fabert | 71.23% | 88.53% | 58.51% | 88.60% | 72.65% |
| ViraintelligentDatamining/Ariabert | 69.12% | 87.15% | 59.26% | 87.96% | 69.11% |
| Hooshvarelab/bert-fa-zwnj bas | 67.49% | 85.73% | 59.61% | 87.58% | 59.27% |
| Hooshvarelab/Roberta-fa-Zwnj-base | 69.73% | 86.21% | 56.23% | 87.19% | 57.96% |
如果您在公共數據集上測試了我們的模型,並且要將結果添加到上表,請打開拉請請求或與我們聯繫。另外,請確保您的代碼在線可用,以便我們添加參考。
V1.0(2024-03-09)
在Divan訓練的Tehran和Shiraz模型的第一版。
通過為該項目做出貢獻,您同意您的捐款將獲得Apache Licens.2.0的許可