Descargar Arabic BERT - Descargar el código fuente de Arabic BERT

Arabic BERT

Código Fuente de IA

1.0.0

Descargar

Árabe-bert

Modelos de lenguaje Bert previsto para el árabe

Si usa alguno de estos modelos en su trabajo, cite este documento:

 @inproceedings{safaya-etal-2020-kuisail,
    title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
    author = "Safaya, Ali  and
      Abdullatif, Moutasem  and
      Yuret, Deniz",
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
    pages = "2054--2059",
}

Datos previos a la altura

Los modelos fueron provocados en ~ 8.2 mil millones de palabras:

Versión árabe de Oscar (Versión sin cambios del corpus) - Filtrada de Common Crawl
Descanso reciente de Wikipedia árabe

y otros recursos árabes que resumen hasta ~ 95 GB de texto.

Notas sobre datos de capacitación:

Nuestra versión final de Corpus contiene algunas incrustaciones de palabras no árabes, que no eliminamos de las oraciones, ya que eso afectaría algunas tareas como NER.
Aunque los caracteres no árabes se redujeron como un paso de preprocesamiento, ya que los caracteres árabes no tienen un caso superior o minúscula, no hay una versión de la modelo.
El corpus y el conjunto de vocabulario no están restringidos al árabe estándar moderno, también contienen algo de árabe dialéctico.

Detalles previos al ejercicio

Estos modelos fueron entrenados utilizando el repositorio GitHub de Google Bert en un solo TPU V3-8 proporcionado de forma gratuita de TFRC.
Nuestro procedimiento de previación se realiza la configuración de entrenamiento de Bert con algunos cambios: entrenados para 4M Pasos de entrenamiento con lotes de 128, en lugar de 1m con lotes de 256.

Modelos

	Bert-Mini	Bert-Medio	Base	Bernemacia
Capas ocultas	4	8	12	24
Cabezas de atención	4	8	12	16
Tamaño oculto	256	512	768	1024
Parámetros	11m	42m	110m	340m

Resultados

Resultados del análisis de sentimientos (puntaje F1)

Conjunto de datos	Detalles	Ml-bert	hulmona	Base árabe-bert
Arsenlev	5 clases, dialecto levantino	0.510	0.511	0.552
Astd	4 clases, dialectos MSA y egipcios	0.670	0.677	0.714

Nota: Pronto se agregarán más resultados en otras tareas de PNL de la NLP aguas abajo. Si usa estos modelos, agradecería sus comentarios.

Cómo usar

Puede usar estos modelos instalando transformers de la biblioteca torch o tensorflow y Huggingface. Y puede usarlo directamente iniciando así:

 from transformers import AutoTokenizer , AutoModel

# Mini:   asafaya/bert-mini-arabic
# Medium: asafaya/bert-medium-arabic
# Base:   asafaya/bert-base-arabic
# Large:  asafaya/bert-large-arabic

tokenizer = AutoTokenizer . from_pretrained ( "asafaya/bert-base-arabic" )
model = AutoModel . from_pretrained ( "asafaya/bert-base-arabic" )