LM
1.0.0

欢迎来到LifeWeb语言模型存储库。在这里,我们旨在培训不同的波斯语模型并公开释放它们,以在波斯语的AI领域贡献我们的份额。我们的模型的第一个版本均在我们的数据集上培训,名为Divan ,具有超过1.64亿个文档和超过10B代币的培训,这些文档已进行了标准化和精心设计,以确保其富集和全面性。更好的数据集导致更好的模型。
您可以使用下表中提供的HuggingFace Model Hub的链接轻松访问模型。
| 模型名称 | 基本模型 | 词汇大小 | |
|---|---|---|---|
| 德黑兰 | 罗伯塔 | 50000 | 结果 |
| Shiraz | 莫比尔伯特 | 50000 | 结果 |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}在包括NER ,情感分析和情绪检测的三个下游NLP任务上评估了LifeWeb模型。德黑兰就准确性和宏F1胜过其他所有波斯语模型。此外,设拉子的速度要快得多,而且其准确性仍然具有很高的竞争力,而不会损害太大的速度。根据Moberbert Paper的说法,该型号比Bert-base较小4.3×5.5倍。我们断言,我们的模型表现优于该领域的所有类似模型,从而实现了新的最新性能。引用Parsbert , Ariabert和Fabert ,我们通过展示出色的评估指标来证实这一主张,即使他们本身在其他合适的模型中强调了他们的表现更好。
从下表中可以明显看出,除了宏F1分数外,还可以找到每个任务的COLAB代码。这些COLAB代码在4x2080 Ti图形卡上同样运行。
| 模型 | ner | 情绪 | 情感 | ||
|---|---|---|---|---|---|
| 阿曼 | 皮马 | 哨兵(多) | Snappfood | 阿曼 | |
| lifeweb-ai/德黑兰 | 71.87% | 90.79% | 63.75% | 88.74% | 77.73% |
| LifeWeb-ai/Shiraz | 67.62% | 86.24% | 59.17% | 88.01% | 66.97% |
| sbunlp/fabert | 71.23% | 88.53% | 58.51% | 88.60% | 72.65% |
| ViraintelligentDatamining/Ariabert | 69.12% | 87.15% | 59.26% | 87.96% | 69.11% |
| Hooshvarelab/bert-fa-zwnj bas | 67.49% | 85.73% | 59.61% | 87.58% | 59.27% |
| Hooshvarelab/Roberta-fa-Zwnj-base | 69.73% | 86.21% | 56.23% | 87.19% | 57.96% |
如果您在公共数据集上测试了我们的模型,并且要将结果添加到上表,请打开拉请请求或与我们联系。另外,请确保您的代码在线可用,以便我们添加参考。
V1.0(2024-03-09)
在Divan训练的Tehran和Shiraz模型的第一版。
通过为该项目做出贡献,您同意您的捐款将获得Apache Licens.2.0的许可