Descarga parsbert - Descargar el código fuente parsbert

parsbert

Otro código fuente

1.0.0

Descargar

Parsbert: ¿Modelo basado en transformadores para la comprensión del idioma persa?

Parsbert es un modelo de lenguaje monolingüe basado en la arquitectura Bert de Google. Este modelo está previamente entrenado en grandes corpus persa con varios estilos de escritura de numerosos temas (por ejemplo, científico, novelas, noticias) con más de 3.9M documentos, oraciones 73M y palabras 1.3B .

Presentación de papel Parsbert: doi: 10.1007/s11063-021-10528-4

Versión actual: V3

Introducción

Parsbert se formó en una gran cantidad de corpus públicos (Wikidumps persa, Mirastext) y otros seis datos de texto gastados manualmente de un tipo de sitios web (Bigbang Page scientific , Chetor lifestyle , Eligasht itinerary , Digikala digital magazine , Ted habla general conversational , novels, storybooks, short stories from old to the contemporary era ).

Como parte de la metodología de Parsbert, se llevó a cabo un extenso preprocesamiento que combina etiquetado con POS y segmentación de la obra de palabras para llevar a los corpus en un formato adecuado.

Demostración de parsbert

~~Parque~~

Evaluación

Parsbert se evalúa en tres tareas de NLP aguas abajo: análisis de sentimientos (SA), clasificación de texto y reconocimiento de entidad nombrado (NER). Para este asunto y debido a recursos insuficientes, se compusieron manualmente dos conjuntos de datos grandes para SA y dos para la clasificación de texto, que están disponibles para uso público y evaluación comparativa. Parsbert superó a todos los demás modelos de idiomas, incluido Bert multilingüe y otros modelos de aprendizaje profundo híbrido para todas las tareas, mejorando el rendimiento de vanguardia en el modelado de idiomas persa.

Resultados

La siguiente tabla resume la puntuación F1 obtenida por Parsbert en comparación con otros modelos y arquitecturas.

Tarea de análisis de sentimientos (SA)

Conjunto de datos	Parsbert v3	Parsbert v2	Parsbert V1	mbert	Profundos
Comentarios de los usuarios de Digikala	-	81.72	81.74*	80.74	-
Comentarios de los usuarios de Snappfood	-	87.98	88.12*	87.87	-
Sentipers (múltiples clase)	-	71.31*	71.11	-	69.33
Sentipers (clase binaria)	-	92.42*	92.13	-	91.98

Tarea de clasificación de texto (TC)

Conjunto de datos	Parsbert v3	Parsbert v2	Parsbert v1	mbert
Revista Digikala	-	93.65*	93.59	90.72
Noticias persa	-	97.44*	97.19	95.79

Tarea de reconocimiento de entidad nombrada (NER)

Conjunto de datos	Parsbert v3	Parsbert v2	Parsbert v1	mbert	Morfobert	Beheshti-gan	LSTM-CRF	CRF basado en reglas	Bilstm-crf
Paleta		93.40*	93.10	86.64	-	90.59	-	84.00	-
Arman		99.84*	98.79	95.89	89.9	84.03	86.55	-	77.45

Si probó Parsbert en un conjunto de datos público y desea agregar sus resultados a la tabla anterior, abra una solicitud de extracción o contáctenos. También asegúrese de tener su código disponible en línea para que podamos agregarlo como referencia.

Cómo usar

 from transformers import AutoConfig , AutoTokenizer , AutoModel , TFAutoModel

# v3.0
model_name_or_path = "HooshvareLab/bert-fa-zwnj-base"
config = AutoConfig . from_pretrained ( model_name_or_path )
tokenizer = AutoTokenizer . from_pretrained ( model_name_or_path )

# model = TFAutoModel.from_pretrained(model_name_or_path)  For TF
model = AutoModel . from_pretrained ( model_name_or_path )

text = "ما در هوش‌واره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer . tokenize ( text )

[ 'ما' , 'در' , 'هوش' , '[ZWNJ]' , 'واره' , 'معتقدیم' , 'با' , 'انتقال' , 'صحیح' , 'دانش' , 'و' , 'آ' , '##گاهی' , '،' , 'همه' , 'افراد' , 'میتوانند' , 'از' , 'ابزارهای' , 'هوشمند' , 'استفاده' , 'کنند' , '.' , 'شعار' , 'ما' , 'هوش' , 'مصنوعی' , 'برای' , 'همه' , 'است' , '.' ]

Modelos derivados

V3.0

Modelo bert v3.0

Hooshvarelab/bert-fa-zwnj-base

Modelo Distilbert v3.0

Hooshvarelab/Distilbert-Fa-Zwnj-Base

Modelo de Albert v3.0

Hooshvarelab/Albert-Fa-Zwnj-Base-V2

Modelo de Roberta V3.0

Hooshvarelab/Roberta-Fa-Zwnj-Base

V2.0

Modelo Parsbert v2.0

Hooshvarelab/Bert-Fa-base

Análisis de sentimientos de Parsbert v2.0

Hooshvarelab/Bert-FA-Base-Insentiment-Digikala
Hooshvarelab/bert-fa-base-abrasado-sentiment-snappfood
Hooshvarelab/Bert-FA-Base-Insentiment-Depsentipers-Binary
Hooshvarelab/Bert-FA-Base-Insentiment-Depsentipers-Multi

Parsbert v2.0 Clasificación de texto

Hooshvarelab/bert-fa-base-blf-clf-digimag
Hooshvarelab/Bert-FA-Base-ANSCADE-CLF-PERSIANNEWS

Parsbert v2.0 ner

Hooshvarelab/Bert-Fa-Base-Onculed-Gere-Peyma
Hooshvarelab/Bert-Fa-Base -insin -ner-Arman

V1.0

Modelo Parsbert V1.0

Hooshvarelab/Bert-Base-Parsbert

Parsbert v1.0 ner

Hooshvarelab/Bert-Base-Parsbert-Peymaner
Hooshvarelab/Bert-Base-Parsbert-Armanner
Hooshvarelab/Bert-Base-Parsbert -ner-ofrecido

¿Tutorial de tareas de la PNL?

Computadora portátil
Clasificación de texto
Análisis de sentimientos
Reconocimiento de entidad nombrado
Generación de texto

Citar

Cite el siguiente documento en su publicación si está utilizando Parsbert en su investigación:

 @article { ParsBERT , 
    title = { Parsbert: Transformer-based model for Persian language understanding } , 
    DOI = { 10.1007/s11063-021-10528-4 } , 
    journal = { Neural Processing Letters } , 
    author = { Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri } , 
    year = { 2021 }
}

Expresiones de gratitud

Por la presente, expresamos nuestra gratitud al programa TensorFlow Research Cloud (TFRC) para proporcionarnos los recursos de cálculo necesarios. También agradecemos a Hooshvare Research Group por facilitar la recopilación de conjuntos de datos y raspar los recursos de texto en línea.

Colaboradores

Mehrdad Farahani: LinkedIn, Twitter, Github
Mohammad Gharachorloo: LinkedIn, Twitter, Github
Marzieh Farahani: LinkedIn, Twitter, Github
Mohammad Manthouri: LinkedIn, Twitter, Github
Equipo de Hooshvare: sitio web oficial, LinkedIn, Twitter, Github, Instagram

Lanzamientos

V3.0 (2021-02-28)

La nueva versión de Bert V3.0 para Persian está disponible hoy y puede abordar el personaje no unido por la escritura persa. Además, el modelo fue capacitado en nuevos corpus de tipos múltiples con un nuevo conjunto de vocabulario.

Disponible por: Hooshvarelab/Bert-Fa-Zwnj-Base

V2.0 (2020-09-05)

Parsbert v2.0: Reconstruimos el vocabulario y afinamos el Parsbert V1.1 en los nuevos corpus persa para proporcionar algunas funcionalidades para usar Parsbert en otros ámbitos. Los objetivos objetivos durante el entrenamiento son los siguientes (después de 300k pasos).

 ***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05

Disponible por: Hooshvarelab/Bert-Fa-Base-Inscuye

V1.1 (2020-06-24)

Parsbert V1.1: Continuamos la capacitación para más de 2.5 millones de pasos basados en los mismos corpus persicos y la configuración de Bert-Base. Los objetivos objetivos durante el entrenamiento son los siguientes (después de 2,5 millones de pasos).

 ***** Eval results *****
global_step = 2575000
loss = 1.3973521
masked_lm_accuracy = 0.70044917
masked_lm_loss = 1.3974043
next_sentence_accuracy = 0.9976562
next_sentence_loss = 0.0088804625

Disponible por: Hooshvarelab/Bert-Base-Parsbert

V1.0 (2020-05-27)

Parsbert V1: Esta es la primera versión de nuestro Parsbert basada en Bert-Base. El modelo fue entrenado en vastas corpus persa para los pasos de 1920000. Los objetivos objetivos durante el entrenamiento son los siguientes (después de 1.9m pasos).

 ***** Eval results *****
global_step = 1920000
loss = 2.6646128
masked_lm_accuracy = 0.583321
masked_lm_loss = 2.2517521
next_sentence_accuracy = 0.885625
next_sentence_loss = 0.3884369

Disponible por: Hooshvarelab/Bert-Base-Parsbert

Licencia

Licencia de Apache 2.0

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-19
tamaño 413.26KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo