Arabic BERT下载 - Arabic BERT源代码下载

Arabic BERT

Ai源码

1.0.0

下载

阿拉伯语 - 伯特

阿拉伯语的伯特语言模型

如果您在工作中使用任何这些模型，请引用本文：

 @inproceedings{safaya-etal-2020-kuisail,
    title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
    author = "Safaya, Ali  and
      Abdullatif, Moutasem  and
      Yuret, Deniz",
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
    pages = "2054--2059",
}

预处理数据

这些模型是在约82亿个单词上估计的：

奥斯卡的阿拉伯语版本（compus的未休息版） - 从普通爬网中过滤
阿拉伯语Wikipedia的最新垃圾

以及其他总计约95GB文本的阿拉伯资源。

培训数据注释：

我们的最终版本的语料库包含一些非阿拉伯单词镶嵌物，我们没有从句子中删除这些词语，因为这会影响诸如NER之类的某些任务。
尽管非阿拉伯字符是作为预处理步骤降低的，但由于阿拉伯字符没有上部或较低的外壳，因此没有该模型的壳体和未固定版本。
语料库和词汇集不限于现代标准阿拉伯语，它们也包含一些辩证法阿拉伯语。

预处理细节

使用Google Bert的GitHub存储库对这些模型进行了培训，该模型是免费提供的TPU V3-8。
我们的训练程序是在BERT的培训设置之后进行的一些更改：对4M培训步骤进行了培训，其批次化为128，而不是1M，批量培训为256。

型号

	伯特·米尼（Bert-Mini）	伯特中等	伯特基	Bert-large
隐藏层	4	8	12	24
注意力头	4	8	12	16
隐藏尺寸	256	512	768	1024
参数	11m	42m	110m	340m

结果

情感分析结果（F1得分）

数据集	细节	ML-bert	hulmona	阿拉伯语 - 伯特基地
Arsenlev	5堂，黎凡特方言	0.510	0.511	0.552
ASTD	4堂，MSA和埃及方言	0.670	0.677	0.714

注意：其他下游NLP任务的更多结果将很快添加。如果您使用这些型号，我将感谢您的反馈。

如何使用

您可以通过安装torch或tensorflow和拥抱面库transformers使用这些型号。您可以通过这样的初始化直接使用它：

 from transformers import AutoTokenizer , AutoModel

# Mini:   asafaya/bert-mini-arabic
# Medium: asafaya/bert-medium-arabic
# Base:   asafaya/bert-base-arabic
# Large:  asafaya/bert-large-arabic

tokenizer = AutoTokenizer . from_pretrained ( "asafaya/bert-base-arabic" )
model = AutoModel . from_pretrained ( "asafaya/bert-base-arabic" )