Multi dialect Arabic BERTダウンロード - Multi dialect Arabic BERTソースコードダウンロード

Multi dialect Arabic BERT

AI ソースコード

1.0.0

ダウンロード

マルチアラビッチバート

これは、マルチダイヤルレクトアラビア語BERTモデルのリポジトリです。

Mawdoo3-aiによって。

バックグラウンドリファレンス：http：//www.qfi.org/wp-content/uploads/2018/02/qfi_infographic_mother-language_final.pdf

マルチダイヤルレクトアラビッチバートモデルについて

マルチダイアルアラビア語のバートモデルをゼロからトレーニングする代わりに、アラビア語を使用してモデルの重みを初期化し、微妙なアラビア語の方言識別（NADI）共有タスクの無効なデータからアラビア語のツイートで訓練しました。

この作業を引用するために

 @misc{talafha2020multidialect,
    title={Multi-Dialect Arabic BERT for Country-Level Dialect Identification},
    author={Bashar Talafha and Mohammad Ali and Muhy Eddin Za'ter and Haitham Seelawi and Ibraheem Tuffaha and Mostafa Samir and Wael Farhan and Hussein T. Al-Natsheh},
    year={2020},
    eprint={2007.05612},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

使用法

モデルの重みは、Huggingfaceによってtransformers Libraryを使用してロードできます。

 from transformers import AutoTokenizer , AutoModel

tokenizer = AutoTokenizer . from_pretrained ( "bashar-talafha/multi-dialect-bert-base-arabic" )
model = AutoModel . from_pretrained ( "bashar-talafha/multi-dialect-bert-base-arabic" )

pipelineを使用した例：

 from transformers import pipeline

fill_mask = pipeline (
    "fill-mask" ,
    model = "bashar-talafha/multi-dialect-bert-base-arabic " ,
    tokenizer = "bashar-talafha/multi-dialect-bert-base-arabic "
)

fill_mask ( " سافر الرحالة من مطار [MASK] " )

 [{'sequence': '[CLS] سافر الرحالة من مطار الكويت [SEP]', 'score': 0.08296813815832138, 'token': 3226},
 {'sequence': '[CLS] سافر الرحالة من مطار دبي [SEP]', 'score': 0.05123933032155037, 'token': 4747},
 {'sequence': '[CLS] سافر الرحالة من مطار مسقط [SEP]', 'score': 0.046838656067848206, 'token': 13205},
 {'sequence': '[CLS] سافر الرحالة من مطار القاهرة [SEP]', 'score': 0.03234650194644928, 'token': 4003},
 {'sequence': '[CLS] سافر الرحالة من مطار الرياض [SEP]', 'score': 0.02606341242790222, 'token': 2200}]

モデルパラメーター

パラメーター	価値
建築	bertformaskedlm
hidden_size	768
max_position_embeddings	512
num_attention_heads	12
num_hidden_layers	12
vocab_size	32000
hidden_size	768
パラメーターの総数	110m