
Добро пожаловать в репозиторий LifeWeb Language Models. Здесь мы стремимся обучать различные модели персидского языка и публично выпустить их, чтобы внести нашу долю в область ИИ персидского языка. Первые версии наших моделей обучены нашему набору данных под названием Divan с более чем 164 миллионами документов и более 10B токенами , которые нормализованы и тщательно дедупликают, чтобы обеспечить его обогащение и полноценность. Лучший набор данных приводит к лучшей модели.
Вы можете легко получить доступ к моделям, используя ссылки Hub Model Hub Huggingface, предоставленные в таблице ниже.
| Название модели | Базовая модель | Размер словарного запаса | |
|---|---|---|---|
| Тегеран | Роберта | 50000 | Результаты |
| Шираз | Mobilebert | 50000 | Результаты |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}Модели LifeWeb оцениваются по трем задачам NLP, включающих NER , анализ настроений и обнаружение эмоций . Тегеран превосходит любую другую модель персидского языка с точки зрения точности и макроса F1. Кроме того, Shiraz значительно быстрее, и его точность остается высокой конкурентной, не имея особого ущерба для скорости. Согласно бумаге Mobilebert , эта модель на 4,3 раза меньше и на 5,5 × быстрее, чем BERT-база. Мы утверждаем, что наши модели превосходят все подобные модели в этой области, достигая новой современной производительности. Ссылаясь на Парсберта , Ариаберта и Фаберта , мы подтверждаем это утверждение, демонстрируя превосходные показатели оценки, даже несмотря на то, что они сами подчеркнули свою лучшую производительность среди других подходящих моделей.
Очевидно, что из таблицы ниже, вы можете найти коды Colab для каждой задачи для использования в качестве учебника, помимо оценки Macro F1. Эти коды колаба в равной степени запускаются на графических картах 4x2080 TI.
| Модель | Нор | Настроение | Эмоция | ||
|---|---|---|---|---|---|
| Арман | Пейма | Speering (Multi) | Snappfood | Арман | |
| LifeWeb-Ai/Tehran | 71,87% | 90,79% | 63,75% | 88,74% | 77,73% |
| LifeWeb-Ai/Shiraz | 67,62% | 86,24% | 59,17% | 88,01% | 66,97% |
| Sbunlp/Fabert | 71,23% | 88,53% | 58,51% | 88,60% | 72,65% |
| Viraintelligentdatamining/ariabert | 69,12% | 87,15% | 59,26% | 87,96% | 69,11% |
| HOOSHVARELAB/BERT-FA-ZWNJ-BASE | 67,49% | 85,73% | 59,61% | 87,58% | 59,27% |
| Hooshvarelab/Roberta-Fa-Zwnj-Base | 69,73% | 86,21% | 56,23% | 87,19% | 57,96% |
Если вы протестировали наши модели в общедоступном наборе данных, и вы хотели добавить свои результаты в таблицу выше, откройте запрос на привлечение или свяжитесь с нами. Кроме того, убедитесь, что ваш код доступен онлайн, чтобы мы могли добавить ссылку.
v1.0 (2024-03-09)
Первая версия моделей Тегерана и Шираза , обученная дивану .
Внесли свой вклад в этот проект, вы соглашаетесь с тем, что ваши взносы будут лицензированы в соответствии с лицензией Apache 2.0