Model Bahasa Bert Pretrained untuk Arab
Jika Anda menggunakan salah satu model ini dalam pekerjaan Anda, silakan kutip makalah ini:
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
Model -model tersebut dipretri pada ~ 8,2 miliar kata:
dan sumber daya Arab lainnya yang berjumlah ~ 95GB teks.
Catatan tentang Data Pelatihan:
| Bert-Mini | Bert-Medium | Bert-base | Bert-Large | |
|---|---|---|---|---|
| Lapisan tersembunyi | 4 | 8 | 12 | 24 |
| Kepala perhatian | 4 | 8 | 12 | 16 |
| Ukuran tersembunyi | 256 | 512 | 768 | 1024 |
| Parameter | 11m | 42m | 110m | 340m |
| Dataset | Detail | ML-BERT | Hulmona | Pangkalan Arab-Bert |
|---|---|---|---|---|
| Arsenlev | 5 kelas, dialek Levantine | 0.510 | 0.511 | 0,552 |
| Astd | 4 kelas, dialek MSA dan Mesir | 0.670 | 0.677 | 0.714 |
Catatan: Hasil lebih lanjut pada tugas NLP hilir lainnya akan segera ditambahkan. Jika Anda menggunakan model ini, saya akan sangat menghargai umpan balik Anda.
Anda dapat menggunakan model ini dengan memasang torch atau tensorflow dan transformers perpustakaan pelukan. Dan Anda dapat menggunakannya secara langsung dengan menginisialisasi seperti ini:
from transformers import AutoTokenizer , AutoModel
# Mini: asafaya/bert-mini-arabic
# Medium: asafaya/bert-medium-arabic
# Base: asafaya/bert-base-arabic
# Large: asafaya/bert-large-arabic
tokenizer = AutoTokenizer . from_pretrained ( "asafaya/bert-base-arabic" )
model = AutoModel . from_pretrained ( "asafaya/bert-base-arabic" )Terima kasih kepada Google untuk menyediakan TPU gratis untuk proses pelatihan dan untuk Huggingface untuk menjadi tuan rumah model ini di server mereka?