
Bienvenue dans le référentiel des modèles de langage LifeWeb. Ici, nous visons à former différents modèles de langue persane et à les publier publiquement pour contribuer notre part au champ d'IA de la langue persane. Les premières versions de nos modèles sont toutes formées sur notre ensemble de données appelé Divan avec plus de 164 millions de documents et plus de 10B de jetons , ce qui est normalisé et dédupliquée méticuleusement pour assurer son enrichissement et son exhaustivité. Un meilleur ensemble de données conduit à un meilleur modèle.
Vous pouvez facilement accéder aux modèles à l'aide des liens de HuggingFace Model Hub fourni dans le tableau ci-dessous.
| Nom du modèle | Modèle de base | Taille de vocabulaire | |
|---|---|---|---|
| Téhéran | Roberta | 50000 | Résultats |
| Shiraz | Mobiles | 50000 | Résultats |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}Les modèles LifeWeb sont évalués sur trois tâches NLP en aval comprenant le NER , l'analyse des sentiments et la détection des émotions . Téhéran surpasse tous les autres modèles de langage persan en termes de précision et de macro F1. De plus, Shiraz est considérablement plus rapide et sa précision reste très compétitive sans compromettre beaucoup de vitesse. Selon Mobilebert Paper , ce modèle est de 4,3 × plus petit et 5,5 × plus rapide que la base Bert. Nous affirmons que nos modèles surpassent tous les modèles similaires dans le domaine, réalisant une nouvelle performance de pointe. En faisant référence à Parsbert , Ariabert et Fabert , nous étayons cette affirmation en démontrant des mesures d'évaluation supérieures, même si elles ont elles-mêmes mis en évidence leurs meilleures performances parmi d'autres modèles appropriés.
Évident à partir du tableau ci-dessous, vous pouvez trouver les codes Colab pour chaque tâche à utiliser comme tutoriel en plus du score macro F1. Ces codes Colab sont exécutés également sur les cartes graphiques 4x2080 TI.
| Modèle | Nervure | Sentiment | Émotion | ||
|---|---|---|---|---|---|
| Arman | Peyma | Senicateurs (multi) | Snappfood | Arman | |
| lifeweb-ai / Téhéran | 71,87% | 90,79% | 63,75% | 88,74% | 77,73% |
| lifeweb-ai / shiraz | 67,62% | 86,24% | 59,17% | 88,01% | 66,97% |
| SBUNLP / FABERT | 71,23% | 88,53% | 58,51% | 88,60% | 72,65% |
| VIRAINLIGENTDATAMINE / ARIABERT | 69,12% | 87,15% | 59,26% | 87,96% | 69,11% |
| HooshvareLab / Bert-Fa-Zwnj-Base | 67,49% | 85,73% | 59,61% | 87,58% | 59,27% |
| HooshvareLab / Roberta-Fa-Zwnj-Base | 69,73% | 86,21% | 56,23% | 87,19% | 57,96% |
Si vous avez testé nos modèles sur un ensemble de données public et que vous vouliez ajouter vos résultats au tableau ci-dessus, ouvrez une demande de traction ou contactez-nous. Assurez-vous également d'avoir votre code disponible en ligne afin que nous puissions ajouter une référence.
v1.0 (2024-03-09)
Première version des modèles de Téhéran et Shiraz formés sur Divan .
En contribuant à ce projet, vous acceptez que vos contributions seront autorisées sous la licence Apache 2.0