
Willkommen im Repository des LifeWeb Language Models. Hier wollen wir verschiedene persische Sprachmodelle ausbilden und sie öffentlich freigeben, um unseren Anteil in das KI -Feld der persischen Sprache beizutragen. Die ersten Versionen unserer Modelle werden alle in unserem Datensatz mit mehr als 164 Millionen Dokumenten und mehr als 10B -Token geschult , was sorgfältig normalisiert und engagiert wird, um ihre Anreicherung und Vollständigkeit zu gewährleisten. Ein besserer Datensatz führt zu einem besseren Modell.
Sie können einfach auf die Modelle zugreifen, indem Sie die Links von Huggingface -Modell -Hub in der folgenden Tabelle enthalten.
| Modellname | Basismodell | Wortschatzgröße | |
|---|---|---|---|
| Teheran | Roberta | 50000 | Ergebnisse |
| Shiraz | Mobiltt | 50000 | Ergebnisse |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}Die LifeWeb -Modelle werden an drei nachgeschalteten NLP -Aufgaben bewertet, die NER , Stimmungsanalyse und Emotionserkennung umfassen. Teheran übertrifft jedes andere persische Sprachmodell in Bezug auf Genauigkeit und Makro F1. Darüber hinaus ist Shiraz erheblich schneller und seine Genauigkeit bleibt sehr wettbewerbsfähig, ohne die Geschwindigkeit zu beeinträchtigen. Laut Mobiltert Paper ist dieses Modell 4,3 × kleiner und 5,5 × schneller als Bert-Base. Wir behaupten, dass unsere Modelle alle ähnlichen Modelle vor Ort übertreffen und eine neue hochmoderne Leistung erzielen. In Bezug auf Parsbert , Arifort und Fabert belegen wir diese Behauptung, indem wir überlegene Bewertungsmetriken nachweisen, auch wenn sie selbst ihre bessere Leistung unter anderen geeigneten Modellen hervorgehoben haben.
Aus der folgenden Tabelle finden Sie die Colab -Codes für jede Aufgabe als Tutorial neben der Makro -F1 -Punktzahl. Diese Colab -Codes werden gleichermaßen auf 4x2080 Ti -Grafikkarten ausgeführt.
| Modell | Ner | Gefühl | Emotion | ||
|---|---|---|---|---|---|
| Arman | Peyma | Sentiper (Multi) | Snappfood | Arman | |
| LifeWeb-Ai/Teheran | 71,87% | 90,79% | 63,75% | 88,74% | 77,73% |
| LifeWeb-ai/Shiraz | 67,62% | 86,24% | 59,17% | 88,01% | 66,97% |
| sbunlp/fabt | 71,23% | 88,53% | 58,51% | 88,60% | 72,65% |
| ViraintEligentDatamining/Ariaster | 69,12% | 87,15% | 59,26% | 87,96% | 69,11% |
| Hooshvarelab/Bert-Fa-Zwnj-Base | 67,49% | 85,73% | 59,61% | 87,58% | 59,27% |
| Hooshvarelab/Roberta-Fa-Zwnj-Base | 69,73% | 86,21% | 56,23% | 87,19% | 57,96% |
Wenn Sie unsere Modelle auf einem öffentlichen Datensatz getestet haben und Ihre Ergebnisse der obigen Tabelle hinzufügen möchten, öffnen Sie eine Pull -Anfrage oder kontaktieren Sie uns. Stellen Sie außerdem sicher, dass Ihr Code online verfügbar ist, damit wir eine Referenz hinzufügen können.
v1.0 (2024-03-09)
Erste Version von Teheran- und Shiraz -Modellen, die auf Divan trainiert wurden.
Durch den Beitrag zu diesem Projekt stimmen Sie zu, dass Ihre Beiträge unter der Apache -Lizenz 2.0 lizenziert werden