Téléchargement LM - Téléchargement du code source LM

LM

Code Source AI

1.0.0

Télécharger

Modèles de langue LifeWeb

Bienvenue dans le référentiel des modèles de langage LifeWeb. Ici, nous visons à former différents modèles de langue persane et à les publier publiquement pour contribuer notre part au champ d'IA de la langue persane. Les premières versions de nos modèles sont toutes formées sur notre ensemble de données appelé Divan avec plus de 164 millions de documents et plus de 10B de jetons , ce qui est normalisé et dédupliquée méticuleusement pour assurer son enrichissement et son exhaustivité. Un meilleur ensemble de données conduit à un meilleur modèle.

Utiliser des modèles

Vous pouvez facilement accéder aux modèles à l'aide des liens de HuggingFace Model Hub fourni dans le tableau ci-dessous.

Nom du modèle	Modèle de base	Taille de vocabulaire
Téhéran	Roberta	50000	Résultats
Shiraz	Mobiles	50000	Résultats

 from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline

model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )

text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیون‌ها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمع‌آوری، پردازش و تحلیل این کلان داده (Big Data) می‌پردازیم."


classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}

Résultats

Les modèles LifeWeb sont évalués sur trois tâches NLP en aval comprenant le NER , l'analyse des sentiments et la détection des émotions . Téhéran surpasse tous les autres modèles de langage persan en termes de précision et de macro F1. De plus, Shiraz est considérablement plus rapide et sa précision reste très compétitive sans compromettre beaucoup de vitesse. Selon Mobilebert Paper , ce modèle est de 4,3 × plus petit et 5,5 × plus rapide que la base Bert. Nous affirmons que nos modèles surpassent tous les modèles similaires dans le domaine, réalisant une nouvelle performance de pointe. En faisant référence à Parsbert , Ariabert et Fabert , nous étayons cette affirmation en démontrant des mesures d'évaluation supérieures, même si elles ont elles-mêmes mis en évidence leurs meilleures performances parmi d'autres modèles appropriés.

Évident à partir du tableau ci-dessous, vous pouvez trouver les codes Colab pour chaque tâche à utiliser comme tutoriel en plus du score macro F1. Ces codes Colab sont exécutés également sur les cartes graphiques 4x2080 TI.

Modèle	Nervure		Sentiment		Émotion
	Arman	Peyma	Senicateurs (multi)	Snappfood	Arman
lifeweb-ai / Téhéran	71,87%	90,79%	63,75%	88,74%	77,73%
lifeweb-ai / shiraz	67,62%	86,24%	59,17%	88,01%	66,97%
SBUNLP / FABERT	71,23%	88,53%	58,51%	88,60%	72,65%
VIRAINLIGENTDATAMINE / ARIABERT	69,12%	87,15%	59,26%	87,96%	69,11%
HooshvareLab / Bert-Fa-Zwnj-Base	67,49%	85,73%	59,61%	87,58%	59,27%
HooshvareLab / Roberta-Fa-Zwnj-Base	69,73%	86,21%	56,23%	87,19%	57,96%

Si vous avez testé nos modèles sur un ensemble de données public et que vous vouliez ajouter vos résultats au tableau ci-dessus, ouvrez une demande de traction ou contactez-nous. Assurez-vous également d'avoir votre code disponible en ligne afin que nous puissions ajouter une référence.