단순화 된 중국어 | 영어

중국 맥버트 | 중국 전자 | 중국어 xlnet | 지식 증류 도구 텍스트 브루어 | 모델 절단 도구 TextPruner
HFL에 의해 출시 된 더 많은 리소스 : https://github.com/ymcui/hfl-anthology
2023/3/28 오픈 소스 중국 라마 & 알파카 빅 모델.
2022/3/30은 새로운 미리 훈련 된 모델 Pert (https://github.com/ymcui/pert)를 발표했습니다
2021/12/17은 모델 자르기 도구 TextPruner : https://github.com/airaria/textpruner를 출시했습니다
2021/10/24는 소수 민족 언어에 대한 최초의 미리 훈련 된 모델을 출시했습니다 : https://github.com/ymcui/chinese-minority-plm
2021/7/21 "자연 언어 처리 : 미리 훈련 된 모델을 기반으로 한 방법"이 공식적으로 출판되었습니다.
2020/11/3 미리 훈련 된 중국 맥버트가 출시되었으며 사용 방법이 Bert와 동일합니다.
2020/9/15 논문 "중국 자연 언어 처리를위한 미리 훈련 된 모델 재검토"는 EMNLP의 발견에 의해 긴 기사로 고용되었습니다.
| 장 | 설명하다 |
|---|---|
| 소개 | 맥버트에 대한 간단한 소개 |
| 다운로드 | MacBert를 다운로드하십시오 |
| 빠른 로딩 | 변압기를 사용하는 방법은 모델을 빠르게로드합니다 |
| 기준 효과 | 중국 NLP 작업에 미치는 영향 |
| FAQ | 자주 묻는 질문 |
| 인용하다 | 기사 인용 정보 |
MacBert 는 개선 된 버전의 BERT로 오류 수정 된 마스크 언어 모델 (MLM, MAC) 사전 훈련 작업을 소개하여 "사전 훈련 다운 스트림 작업"문제를 완화시킵니다.
마스크 언어 모델 (MLM)에서 [마스크] 태그가 마스킹을 위해 도입되었지만 [마스크] 태그는 다운 스트림 작업에 나타나지 않습니다. MacBert에서는 비슷한 단어를 사용하여 [마스크] 태그를 대체합니다 . 동의어 툴킷 (Wang and Hu, 2017) 도구에 의해서도 비슷한 단어가 얻어지며 알고리즘은 Word2Vec (Mikolov et al., 2013)에 따라 계산됩니다. 동시에, 우리는 또한 전체 단어 마스킹 (WWM)과 N- 그램 마스킹 기술을 도입했습니다. n- 그램을 마스킹 할 때, 우리는 n-gram의 각 단어에 대해 비슷한 단어를 찾습니다. 대체 할 비슷한 단어가 없으면 교체에 임의의 단어를 사용합니다.
다음은 훈련 샘플 예입니다.
| 예 | |
|---|---|
| 원래 문장 | 우리는 언어 모델을 사용하여 다음 단어의 확률을 예측합니다. |
| MLM | 우리는 다음 단어의 전문가 [m] ## di ## ct에서 [m] ## di ## ct를 사용합니다. |
| 전체 단어 마스킹 | 우리는 다음 단어의 [m]에서 [m] [m] [m]에서 언어를 사용합니다. |
| N- 그램 마스킹 | 우리는 [m] [m] [m]에서 [m] [m] [m] [m] [m] 다음 단어를 사용합니다. |
| 수정으로서 MLM | 우리는 다음 단어의 po ## si ## 능력을 ca ## lc ##에 사용합니다. |
MacBert의 주요 프레임 워크는 BERT와 정확히 동일하므로 기존 코드를 수정하지 않고 원활한 전환을 허용합니다.
자세한 내용은 문서를 참조하십시오 : 중국 자연 언어 처리를위한 미리 훈련 된 모델 재 방문
주로 TensorFlow 1.X 버전에 대한 모델 다운로드를 제공합니다.
MacBERT-large, Chinese : 24 층, 1024- 히든, 16 개의 헤드, 324m 매개 변수MacBERT-base, Chinese : 12 층, 768- 히든, 12 헤드, 102m 매개 변수| 모델 | 구글 드라이브 | 바이두 디스크 | 크기 |
|---|---|---|---|
MacBERT-large, Chinese | 텐서 플로 | 텐서 플로우 (PW : ZEJF) | 1.2g |
MacBERT-base, Chinese | 텐서 플로 | 텐서 플로우 (PW : 61GA) | 383m |
Pytorch 또는 Tensorflow2 버전의 모델이 필요한 경우 :
단계 다운로드 (GIT를 사용하여 전체 디렉토리를 직접 복제 할 수도 있습니다) :
MacBert 모델은 변압기를 통해 빠르게로드 할 수 있습니다.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
참고 : Berttokenizer 및 BertModel을 사용하여 MacBert 모델을로드하십시오!
해당 MODEL_NAME 은 다음과 같습니다.
| 원본 모델 | 모델 호출 이름 |
|---|---|
| 맥버트-라지 | HFL/중국-맥버트-라지 |
| 맥버트베이스 | HFL/중국-맥버트베이스 |
다음은 6 개의 다운 스트림 작업에 대한 MacBert의 효과를 표시합니다 (자세한 내용은 논문 참조).
결과의 안정성을 보장하기 위해, 우리는 평균 값 (괄호 안)과 독립의 최대 값을 동시에 10 번 실행합니다.
CMRC 2018 데이터 세트는 Harbin Institute of Technology의 공동 실험실에서 발표 한 중국 기계 판독 이해 데이터입니다. 주어진 질문에 따르면, 시스템은 분대와 동일한 형태로 챕터에서 답으로 조각을 추출해야합니다. 평가 지표는 다음과 같습니다. EM / F1
| 모델 | 개발 | 시험 | 도전 | #Params |
|---|---|---|---|---|
| 버트베이스 | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) | 102m |
| Bert-WWM | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) | 102m |
| Bert-WWM-EXT | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) | 102m |
| Roberta-WWM-EXT | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) | 102m |
| 전자 기반 | 68.4 (68.0) / 84.8 (84.6) | 73.1 (72.7) / 87.1 (86.9) | 22.6 (21.7) / 45.0 (43.8) | 102m |
| 맥버트베이스 | 68.5 (67.3) / 87.9 (87.1) | 73.2 (72.4) / 89.5 (89.2) | 30.2 (26.4) / 54.0 (52.2) | 102m |
| 전기 | 69.1 (68.2) / 85.2 (84.5) | 73.9 (72.8) / 87.1 (86.6) | 23.0 (21.6) / 44.2 (43.2) | 324m |
| Roberta-WWM-EXT-LARGE | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) | 324m |
| 맥버트-라지 | 70.7 (68.6) / 88.9 (88.2) | 74.8 (73.2) / 90.7 (90.1) | 31.9 (29.6) / 60.2 (57.6) | 324m |
DRCD 데이터 세트는 중국 대만 델타 리서치 인스티튜트 (Delta Research Institute)가 발표했습니다. 그 형태는 분대와 동일하며 전통적인 중국어를 기반으로 한 추출 된 독해 이해 데이터 세트입니다. 전통적인 중국어는 어니에서 제거되므로 전통적인 중국 데이터에서 Ernie (또는 단순화 된 중국어로 변환 한 다음 처리)를 사용하는 것이 좋습니다. 평가 지표는 다음과 같습니다. EM / F1
| 모델 | 개발 | 시험 | #Params |
|---|---|---|---|
| 버트베이스 | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) | 102m |
| Bert-WWM | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) | 102m |
| Bert-WWM-EXT | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) | 102m |
| Roberta-WWM-EXT | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) | 102m |
| 전자 기반 | 87.5 (87.0) / 92.5 (92.3) | 86.9 (86.6) / 91.8 (91.7) | 102m |
| 맥버트베이스 | 89.4 (89.2) / 94.3 (94.1) | 89.5 (88.7) / 93.8 (93.5) | 102m |
| 전기 | 88.8 (88.7) / 93.3 (93.2) | 88.8 (88.2) / 93.6 (93.2) | 324m |
| Roberta-WWM-EXT-LARGE | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) | 324m |
| 맥버트-라지 | 91.2 (90.8) / 95.6 (95.3) | 91.7 (90.9) / 95.6 (95.3) | 324m |
자연 언어 추론 작업에서 XNLI 데이터를 채택합니다. XNLI 데이터는 텍스트를 세 가지 범주의 entailment , neutral 및 contradictory 로 나누어야합니다. 평가 표시기는 정확도입니다
| 모델 | 개발 | 시험 | #Params |
|---|---|---|---|
| 버트베이스 | 77.8 (77.4) | 77.8 (77.5) | 102m |
| Bert-WWM | 79.0 (78.4) | 78.2 (78.0) | 102m |
| Bert-WWM-EXT | 79.4 (78.6) | 78.7 (78.3) | 102m |
| Roberta-WWM-EXT | 80.0 (79.2) | 78.8 (78.3) | 102m |
| 전자 기반 | 77.9 (77.0) | 78.4 (77.8) | 102m |
| 맥버트베이스 | 80.3 (79.7) | 79.3 (78.8) | 102m |
| 전기 | 81.5 (80.8) | 81.0 (80.9) | 324m |
| Roberta-WWM-EXT-LARGE | 82.1 (81.3) | 81.2 (80.6) | 324m |
| 맥버트-라지 | 82.4 (81.8) | 81.3 (80.6) | 324m |
감정 분석 작업에서 이진 감정 분류 데이터 세트 chnsenticorp. 평가 표시기는 정확도입니다
| 모델 | 개발 | 시험 | #Params |
|---|---|---|---|
| 버트베이스 | 94.7 (94.3) | 95.0 (94.7) | 102m |
| Bert-WWM | 95.1 (94.5) | 95.4 (95.0) | 102m |
| Bert-WWM-EXT | 95.4 (94.6) | 95.3 (94.7) | 102m |
| Roberta-WWM-EXT | 95.0 (94.6) | 95.6 (94.8) | 102m |
| 전자 기반 | 93.8 (93.0) | 94.5 (93.5) | 102m |
| 맥버트베이스 | 95.2 (94.8) | 95.6 (94.9) | 102m |
| 전기 | 95.2 (94.6) | 95.3 (94.8) | 324m |
| Roberta-WWM-EXT-LARGE | 95.8 (94.9) | 95.8 (94.9) | 324m |
| 맥버트-라지 | 95.7 (95.0) | 95.9 (95.1) | 324m |
LCQMC는 Harbin Technology Institute of Technology Shenzhen 대학원의 지능형 컴퓨팅 연구 센터에서 발표했습니다. 평가 표시기는 정확도입니다
| 모델 | 개발 | 시험 | #Params |
|---|---|---|---|
| 버트 | 89.4 (88.4) | 86.9 (86.4) | 102m |
| Bert-WWM | 89.4 (89.2) | 87.0 (86.8) | 102m |
| Bert-WWM-EXT | 89.6 (89.2) | 87.1 (86.6) | 102m |
| Roberta-WWM-EXT | 89.0 (88.7) | 86.4 (86.1) | 102m |
| 전자 기반 | 90.2 (89.8) | 87.6 (87.3) | 102m |
| 맥버트베이스 | 89.5 (89.3) | 87.0 (86.5) | 102m |
| 전기 | 90.7 (90.4) | 87.3 (87.2) | 324m |
| Roberta-WWM-EXT-LARGE | 90.4 (90.0) | 87.0 (86.8) | 324m |
| 맥버트-라지 | 90.6 (90.3) | 87.6 (87.1) | 324m |
BQ 코퍼스는 Harbin Technology Institute of Technology Shenzhen 대학원의 지능형 컴퓨팅 연구 센터에서 발표되며 은행 분야의 데이터 세트입니다. 평가 표시기는 정확도입니다
| 모델 | 개발 | 시험 | #Params |
|---|---|---|---|
| 버트 | 86.0 (85.5) | 84.8 (84.6) | 102m |
| Bert-WWM | 86.1 (85.6) | 85.2 (84.9) | 102m |
| Bert-WWM-EXT | 86.4 (85.5) | 85.3 (84.8) | 102m |
| Roberta-WWM-EXT | 86.0 (85.4) | 85.0 (84.6) | 102m |
| 전자 기반 | 84.8 (84.7) | 84.5 (84.0) | 102m |
| 맥버트베이스 | 86.0 (85.5) | 85.2 (84.9) | 102m |
| 전기 | 86.7 (86.2) | 85.1 (84.8) | 324m |
| Roberta-WWM-EXT-LARGE | 86.3 (85.7) | 85.8 (84.9) | 324m |
| 맥버트-라지 | 86.2 (85.7) | 85.6 (85.0) | 324m |
Q1 : MacBert의 영어 버전이 있습니까?
A1 : 현재 없음.
Q2 : MacBert 사용 방법?
A2 : BERT를 사용하는 것처럼 모델 파일을 교체하고 사용하도록 구성하면됩니다. 물론 모델 (즉, 변압기 초기화 섹션)을로드하여 다른 사전에 걸린 모델을 추가로 훈련시킬 수도 있습니다.
Q3 : MacBert 교육 코드를 제공 할 수 있습니까?
A3 : 아직 오픈 소스 계획이 없습니다.
Q4 : 오픈 소스 사전 훈련 된 코퍼스가 될 수 있습니까?
A4 : 그에 따라 재개 할 권리가 없기 때문에 오픈 소스 훈련 코퍼스를 열 수 없습니다. Github에는 오픈 소스 중국 코퍼스 자원이 있으며, 이는 더 많은 관심을 기울이고 사용할 수 있습니다.
Q5 : 더 큰 코퍼스와 오픈 소스에서 Macbert를 훈련시킬 계획이 있습니까?
A5 : 당분간 계획이 없습니다.
이 프로젝트의 리소스가 연구에 도움이된다면 다음 논문을 인용하십시오.
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
또는:
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
컴퓨팅 리소스 지원을 위해 Google TPU Research Cloud (TFRC)에 감사드립니다.
궁금한 점이 있으면 GitHub 문제로 제출하십시오.