
Bem -vindo ao repositório de modelos de idiomas LifeWeb. Aqui, pretendemos treinar diferentes modelos de idiomas persas e libertá -los publicamente para contribuir com nossa parte para o campo de IA da língua persa. As primeiras versões de nossos modelos são todas treinadas em nosso conjunto de dados chamado Divan , com mais de 164 milhões de documentos e mais de 10b tokens que são normalizados e desduplicados meticulosamente para garantir seu enriquecimento e abrangência. Um conjunto de dados melhor leva a um modelo melhor.
Você pode acessar facilmente os modelos usando os links do hub do modelo Huggingface fornecido na tabela abaixo.
| Nome do modelo | Modelo base | Tamanho do vocabulário | |
|---|---|---|---|
| Teerã | Roberta | 50000 | Resultados |
| Shiraz | MobileBert | 50000 | Resultados |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}Os modelos LifeWeb são avaliados em três tarefas de PNL a jusante, compreendendo NER , análise de sentimentos e detecção de emoções . Teerã supera todos os outros modelos de idiomas persas em termos de precisão e macro F1. Além disso, Shiraz é consideravelmente mais rápido e sua precisão permanece altamente competitiva sem comprometer muito a velocidade. De acordo com o MobileBert Paper , este modelo é 4,3 × menor e 5,5 × mais rápido que a Bert-Base. Afirmamos que nossos modelos superam todos os modelos semelhantes no campo, alcançando um novo desempenho de última geração. Referenciando Parsbert , Ariabert e Fabert , substanciamos essa alegação demonstrando métricas de avaliação superior, mesmo que elas próprias destacassem seu melhor desempenho entre outros modelos adequados.
Obviamente da tabela abaixo, você pode encontrar os códigos colab para cada tarefa usar como um tutorial além da pontuação macro F1. Esses códigos colab são executados igualmente em placas gráficas 4x2080 TI.
| Modelo | Ner | Sentimento | Emoção | ||
|---|---|---|---|---|---|
| Arman | Peyma | Sentipers (multi) | Snappfood | Arman | |
| LifeWeb-AI/Teerã | 71,87% | 90,79% | 63,75% | 88,74% | 77,73% |
| LifeWeb-AI/Shiraz | 67,62% | 86,24% | 59,17% | 88,01% | 66,97% |
| sbunlp/fabert | 71,23% | 88,53% | 58,51% | 88,60% | 72,65% |
| Viraintelligentdatamining/ariabert | 69,12% | 87,15% | 59,26% | 87,96% | 69,11% |
| Hooshvarelab/Bert-FA-ZWNJ-BASE | 67,49% | 85,73% | 59,61% | 87,58% | 59,27% |
| Hooshvarelab/Roberta-FA-ZWNJ-BASE | 69,73% | 86,21% | 56,23% | 87,19% | 57,96% |
Se você testou nossos modelos em um conjunto de dados público e deseja adicionar seus resultados à tabela acima, abra uma solicitação de tração ou entre em contato conosco. Além disso, certifique -se de ter seu código disponível on -line para que possamos adicionar uma referência.
v1.0 (2024-03-09)
Primeira versão dos modelos Teerã e Shiraz treinados no Divan .
Ao contribuir para este projeto, você concorda que suas contribuições serão licenciadas sob a licença Apache 2.0