
Bienvenido al repositorio de modelos de lenguaje LifeWeb. Aquí nuestro objetivo es capacitar a diferentes modelos de idioma persa y liberarlos públicamente para contribuir con nuestra parte al campo de IA del idioma persa. Las primeras versiones de nuestros modelos están capacitadas en nuestro conjunto de datos llamado Divan con más de 164 millones de documentos y más de 10b tokens que se normalizan y se dedican meticulosamente para garantizar su enriquecimiento y amplitud. Un mejor conjunto de datos conduce a un mejor modelo.
Puede acceder fácilmente a los modelos utilizando los enlaces de Huggingface Model Hub proporcionados en la tabla a continuación.
| Nombre del modelo | Modelo base | Tamaño de vocabulario | |
|---|---|---|---|
| Teherán | Roberta | 50000 | Resultados |
| Shiraz | Mobilebert | 50000 | Resultados |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}Los modelos LifeWeb se evalúan en tres tareas de PNL posteriores que comprenden NER , análisis de sentimientos y detección de emociones . Teherán supera a cualquier otro modelo de idioma persa en términos de precisión y macro F1. Además, Shiraz es considerablemente más rápido, y su precisión sigue siendo altamente competitiva sin comprometer mucho a la velocidad. Según Mobilbert Paper , este modelo es 4.3 × más pequeño y 5.5 × más rápido que Bert-Base. Afirmamos que nuestros modelos superan a todos los modelos similares en el campo, logrando un nuevo rendimiento de última generación. Haciendo referencia a Parsbert , Ariabert y Fabert , corroboramos esta afirmación al demostrar métricas de evaluación superiores, incluso cuando ellos mismos han destacado su mejor rendimiento entre otros modelos adecuados.
Obvio de la tabla a continuación, puede encontrar los códigos Colab para que cada tarea se utilice como tutorial además del puntaje Macro F1. Estos códigos Colab se ejecutan por igual en tarjetas gráficas 4x2080 TI.
| Modelo | Ner | Sentimiento | Emoción | ||
|---|---|---|---|---|---|
| Arman | Paleta | Sentipers (Multi) | Snappfood | Arman | |
| LifeWeb-Ai/Teherán | 71.87% | 90.79% | 63.75% | 88.74% | 77.73% |
| LifeWeb-Ai/Shiraz | 67.62% | 86.24% | 59.17% | 88.01% | 66.97% |
| sbunlp/fabert | 71.23% | 88.53% | 58.51% | 88.60% | 72.65% |
| Viraintelligentdatamining/Ariabert | 69.12% | 87.15% | 59.26% | 87.96% | 69.11% |
| Hooshvarelab/bert-fa-zwnj-base | 67.49% | 85.73% | 59.61% | 87.58% | 59.27% |
| Hooshvarelab/Roberta-Fa-Zwnj-Base | 69.73% | 86.21% | 56.23% | 87.19% | 57.96% |
Si probó nuestros modelos en un conjunto de datos públicos y quería agregar sus resultados a la tabla anterior, abra una solicitud de extracción o contáctenos. Además, asegúrese de tener su código disponible en línea para que podamos agregar una referencia.
V1.0 (2024-03-09)
La primera versión de los modelos de Teherán y Shiraz entrenó en Divan .
Al contribuir a este proyecto, usted acepta que sus contribuciones se licenciarán bajo la licencia de Apache 2.0