Arabic BERT
1.0.0
Modelos de lenguaje Bert previsto para el árabe
Si usa alguno de estos modelos en su trabajo, cite este documento:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
Los modelos fueron provocados en ~ 8.2 mil millones de palabras:
y otros recursos árabes que resumen hasta ~ 95 GB de texto.
Notas sobre datos de capacitación:
| Bert-Mini | Bert-Medio | Base | Bernemacia | |
|---|---|---|---|---|
| Capas ocultas | 4 | 8 | 12 | 24 |
| Cabezas de atención | 4 | 8 | 12 | 16 |
| Tamaño oculto | 256 | 512 | 768 | 1024 |
| Parámetros | 11m | 42m | 110m | 340m |
| Conjunto de datos | Detalles | Ml-bert | hulmona | Base árabe-bert |
|---|---|---|---|---|
| Arsenlev | 5 clases, dialecto levantino | 0.510 | 0.511 | 0.552 |
| Astd | 4 clases, dialectos MSA y egipcios | 0.670 | 0.677 | 0.714 |
Nota: Pronto se agregarán más resultados en otras tareas de PNL de la NLP aguas abajo. Si usa estos modelos, agradecería sus comentarios.
Puede usar estos modelos instalando transformers de la biblioteca torch o tensorflow y Huggingface. Y puede usarlo directamente iniciando así:
from transformers import AutoTokenizer , AutoModel
# Mini: asafaya/bert-mini-arabic
# Medium: asafaya/bert-medium-arabic
# Base: asafaya/bert-base-arabic
# Large: asafaya/bert-large-arabic
tokenizer = AutoTokenizer . from_pretrained ( "asafaya/bert-base-arabic" )
model = AutoModel . from_pretrained ( "asafaya/bert-base-arabic" )¿Gracias a Google por proporcionar una TPU gratuita para el proceso de capacitación y para Huggingface por alojar estos modelos en sus servidores?