Arabic BERT
1.0.0
アラビア語の前提条件のバート言語モデル
これらのモデルのいずれかを作業で使用している場合は、このペーパーを引用してください。
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
モデルは約82億語で前提とされていました。
最大95GBのテキストを合計する他のアラビア語のリソース。
トレーニングデータに関するメモ:
| バートミニ | バートメディアム | バートベース | バート・ラージ | |
|---|---|---|---|---|
| 隠されたレイヤー | 4 | 8 | 12 | 24 |
| 注意ヘッド | 4 | 8 | 12 | 16 |
| 隠されたサイズ | 256 | 512 | 768 | 1024 |
| パラメーター | 11m | 42m | 110m | 340m |
| データセット | 詳細 | ml-bert | Hulmona | アラビア語の基地 |
|---|---|---|---|---|
| arsenlev | 5つのクラス、レバンティン方言 | 0.510 | 0.511 | 0.552 |
| ASTD | 4つのクラス、MSAおよびエジプトの方言 | 0.670 | 0.677 | 0.714 |
注:他のダウンストリームNLPタスクのその他の結果はまもなく追加されます。これらのモデルを使用する場合は、フィードバックに感謝します。
これらのモデルを使用して、 torchまたはtensorflowおよびHuggingfaceライブラリtransformersをインストールできます。そして、このように初期化することで直接使用できます。
from transformers import AutoTokenizer , AutoModel
# Mini: asafaya/bert-mini-arabic
# Medium: asafaya/bert-medium-arabic
# Base: asafaya/bert-base-arabic
# Large: asafaya/bert-large-arabic
tokenizer = AutoTokenizer . from_pretrained ( "asafaya/bert-base-arabic" )
model = AutoModel . from_pretrained ( "asafaya/bert-base-arabic" )トレーニングプロセスのために無料のTPUを提供し、サーバーでこれらのモデルをホストするためのハグFaceを提供してくれたGoogleに感謝しますか?