LM Download - LM Quellcode Download

LM

AI-Quellcode

1.0.0

Herunterladen

LIFEWEB -Sprachmodelle

Willkommen im Repository des LifeWeb Language Models. Hier wollen wir verschiedene persische Sprachmodelle ausbilden und sie öffentlich freigeben, um unseren Anteil in das KI -Feld der persischen Sprache beizutragen. Die ersten Versionen unserer Modelle werden alle in unserem Datensatz mit mehr als 164 Millionen Dokumenten und mehr als 10B -Token geschult , was sorgfältig normalisiert und engagiert wird, um ihre Anreicherung und Vollständigkeit zu gewährleisten. Ein besserer Datensatz führt zu einem besseren Modell.

Verwenden Sie Modelle

Sie können einfach auf die Modelle zugreifen, indem Sie die Links von Huggingface -Modell -Hub in der folgenden Tabelle enthalten.

Modellname	Basismodell	Wortschatzgröße
Teheran	Roberta	50000	Ergebnisse
Shiraz	Mobiltt	50000	Ergebnisse

 from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline

model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )

text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیون‌ها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمع‌آوری، پردازش و تحلیل این کلان داده (Big Data) می‌پردازیم."


classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}

Ergebnisse

Die LifeWeb -Modelle werden an drei nachgeschalteten NLP -Aufgaben bewertet, die NER , Stimmungsanalyse und Emotionserkennung umfassen. Teheran übertrifft jedes andere persische Sprachmodell in Bezug auf Genauigkeit und Makro F1. Darüber hinaus ist Shiraz erheblich schneller und seine Genauigkeit bleibt sehr wettbewerbsfähig, ohne die Geschwindigkeit zu beeinträchtigen. Laut Mobiltert Paper ist dieses Modell 4,3 × kleiner und 5,5 × schneller als Bert-Base. Wir behaupten, dass unsere Modelle alle ähnlichen Modelle vor Ort übertreffen und eine neue hochmoderne Leistung erzielen. In Bezug auf Parsbert , Arifort und Fabert belegen wir diese Behauptung, indem wir überlegene Bewertungsmetriken nachweisen, auch wenn sie selbst ihre bessere Leistung unter anderen geeigneten Modellen hervorgehoben haben.

Aus der folgenden Tabelle finden Sie die Colab -Codes für jede Aufgabe als Tutorial neben der Makro -F1 -Punktzahl. Diese Colab -Codes werden gleichermaßen auf 4x2080 Ti -Grafikkarten ausgeführt.

Modell	Ner		Gefühl		Emotion
	Arman	Peyma	Sentiper (Multi)	Snappfood	Arman
LifeWeb-Ai/Teheran	71,87%	90,79%	63,75%	88,74%	77,73%
LifeWeb-ai/Shiraz	67,62%	86,24%	59,17%	88,01%	66,97%
sbunlp/fabt	71,23%	88,53%	58,51%	88,60%	72,65%
ViraintEligentDatamining/Ariaster	69,12%	87,15%	59,26%	87,96%	69,11%
Hooshvarelab/Bert-Fa-Zwnj-Base	67,49%	85,73%	59,61%	87,58%	59,27%
Hooshvarelab/Roberta-Fa-Zwnj-Base	69,73%	86,21%	56,23%	87,19%	57,96%

Wenn Sie unsere Modelle auf einem öffentlichen Datensatz getestet haben und Ihre Ergebnisse der obigen Tabelle hinzufügen möchten, öffnen Sie eine Pull -Anfrage oder kontaktieren Sie uns. Stellen Sie außerdem sicher, dass Ihr Code online verfügbar ist, damit wir eine Referenz hinzufügen können.