Modèles de langage Bert pré-entraîné pour l'arabe
Si vous utilisez l'un de ces modèles dans votre travail, veuillez citer cet article:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
Les modèles ont été pré-entraînés sur environ 8,2 milliards de mots:
et d'autres ressources arabes qui représentent jusqu'à ~ 95 Go de texte.
Notes sur les données de formation:
| Bert-min | Bert-médium | Bascule | Bert-grand | |
|---|---|---|---|---|
| Couches cachées | 4 | 8 | 12 | 24 |
| Têtes d'attention | 4 | 8 | 12 | 16 |
| Taille cachée | 256 | 512 | 768 | 1024 |
| Paramètres | 11m | 42m | 110m | 340m |
| Ensemble de données | Détails | ML-BERT | hulmona | Base arabe-berce |
|---|---|---|---|---|
| Arsenlev | 5 classes, dialecte levantin | 0,510 | 0,511 | 0,552 |
| ASTD | 4 classes, MSA et dialectes égyptiens | 0,670 | 0,677 | 0,714 |
Remarque: Plus de résultats sur d'autres tâches NLP en aval seront ajoutés bientôt. Si vous utilisez ces modèles, j'apprécierais vos commentaires.
Vous pouvez utiliser ces modèles en installant transformers de bibliothèque torch ou tensorflow et HuggingFace. Et vous pouvez l'utiliser directement en l'initialisant comme ceci:
from transformers import AutoTokenizer , AutoModel
# Mini: asafaya/bert-mini-arabic
# Medium: asafaya/bert-medium-arabic
# Base: asafaya/bert-base-arabic
# Large: asafaya/bert-large-arabic
tokenizer = AutoTokenizer . from_pretrained ( "asafaya/bert-base-arabic" )
model = AutoModel . from_pretrained ( "asafaya/bert-base-arabic" )Merci à Google d'avoir fourni un TPU gratuit pour le processus de formation et de faire un câlin pour l'hébergement de ces modèles sur leurs serveurs?