Arabic BERT
1.0.0
아랍어에 대한 사전 예방 된 버트 언어 모델
작업에 이러한 모델을 사용하는 경우이 백서를 인용하십시오.
@inproceedings{safaya-etal-2020-kuisail,
title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
author = "Safaya, Ali and
Abdullatif, Moutasem and
Yuret, Deniz",
booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
month = dec,
year = "2020",
address = "Barcelona (online)",
publisher = "International Committee for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
pages = "2054--2059",
}
모델은 ~ 82 억 개의 단어로 사전에 사전에 사전했습니다.
그리고 최대 ~ 95GB의 텍스트를 요약하는 다른 아랍어 자원.
교육 데이터에 대한 메모 :
| 버트 미니 | 베르트-메디움 | 버트베이스 | 베르트 라지 | |
|---|---|---|---|---|
| 숨겨진 층 | 4 | 8 | 12 | 24 |
| 주의 머리 | 4 | 8 | 12 | 16 |
| 숨겨진 크기 | 256 | 512 | 768 | 1024 |
| 매개 변수 | 11m | 42m | 110m | 340m |
| 데이터 세트 | 세부 | ML-Bert | 훌모나 | 아랍어 베르트베이스 |
|---|---|---|---|---|
| Arsenlev | 5 개의 수업, 레반틴 방언 | 0.510 | 0.511 | 0.552 |
| ASTD | 4 개의 수업, MSA 및 이집트 방언 | 0.670 | 0.677 | 0.714 |
참고 : 다른 다운 스트림 NLP 작업에 대한 더 많은 결과가 곧 추가 될 예정입니다. 이 모델을 사용하는 경우 피드백에 감사드립니다.
torch 또는 tensorflow 및 포옹 페이스 라이브러리 transformers 설치 하여이 모델을 사용할 수 있습니다. 다음과 같이 초기화하여 직접 사용할 수 있습니다.
from transformers import AutoTokenizer , AutoModel
# Mini: asafaya/bert-mini-arabic
# Medium: asafaya/bert-medium-arabic
# Base: asafaya/bert-base-arabic
# Large: asafaya/bert-large-arabic
tokenizer = AutoTokenizer . from_pretrained ( "asafaya/bert-base-arabic" )
model = AutoModel . from_pretrained ( "asafaya/bert-base-arabic" )교육 프로세스에 무료 TPU를 제공하고 서버에서 이러한 모델을 호스팅하기위한 포옹에 대한 Google에게 감사 드리며?