중국어 설명 | 영어

자연 언어 처리 분야에서 미리 훈련 된 언어 모델 (사전 훈련 된 언어 모델)은 매우 중요한 기본 기술이되었습니다. 중국 정보 처리의 연구 및 개발을 더욱 홍보하기 위해, 우리는 전체 워드 마스킹 기술을 기반으로 중국 사전 훈련 된 모델 Bert-WWM 과이 기술과 밀접한 관련 모델 (Bert-WWM-Ext, Roberta-Ext-Large, RBT3, RBTL3 등을 발표했습니다.
이 프로젝트는 Google의 공식 Bert (https://github.com/google-research/bert)를 기반으로합니다
중국어 | 중국 영어 pert | 중국 맥버트 | 중국 전자 | 중국어 xlnet | 중국 버트 | 지식 증류 도구 텍스트 브루어 | 모델 절단 도구 TextPruner
HARBIN Institute of Technology (HFL)의 IFL이 발표 한 자료를 더 많이보기 : https://github.com/ymcui/hfl-anthology
2023/3/28 오픈 소스 중국 라마 & 알파카 빅 모델.
2023/3/9 우리는 그래픽 및 텍스트에서 멀티 모달 사전 훈련 된 모델 vle을 제안합니다 : https://github.com/iflytek/vle
2022/11/15 우리는 중국 소규모 미리 훈련 된 모델 MiniRBT를 제안합니다. 보기 : https://github.com/iflytek/minirbt
2022/10/29 우리는 언어 정보를 통합하는 미리 훈련 된 모델 lert를 제안합니다. 보기 : https://github.com/ymcui/lert
2022/3/30 우리는 새로운 미리 훈련 된 모델 pert를 오픈 소스. 보기 : https://github.com/ymcui/pert
2021/10/24 Iflytek Joint Laboratory는 소수 민족 언어를위한 미리 훈련 된 모델 Cino를 발표했습니다. 보기 : https://github.com/ymcui/chinese-minority-plm
2021/7/21 "자연 언어 처리 : Harbin Institute of Technology SCIR의 많은 학자들이 작성한 사전 훈련 모델을 기반으로하는 방법"이 출판되었으며 모든 사람들이 구매를 환영합니다.
2021/1/27 모든 모델은 Tensorflow 2를 지원했습니다. Transformers 라이브러리를 통해 전화하거나 다운로드하십시오. https://huggingface.co/hfl
2020/9/15 우리 논문 "중국 자연 언어 처리를위한 미리 훈련 된 모델 재검토"는 EMNLP의 발견에 의해 긴 기사로 고용되었습니다.
2020/8/27 IFL 공동 실험실은 접착제 일반 자연어 이해 평가에서 목록을 1 위, 접착제 목록, 뉴스를 확인하십시오.
2020/3/23이 디렉토리에 출시 된 모델은 빠른 로딩을보기 위해 PaddlePaddleShub에 연결되었습니다.
2020/3/11 요구를 더 잘 이해하기 위해 더 나은 자원을 제공하기 위해 설문지를 작성하도록 초대받습니다.
2020/2/26 Iflytek Joint Laboratory는 지식 증류 도구 텍스트 브루어를 출시합니다
2020/1/20 쥐의 해에 행운을 빕니다. 이번에는 RBT3 및 RBTL3 (3 층 Roberta-WWM-EXT-Base/Large)을 릴리스하여 작은 매개 변수 수량 모델을 보았습니다.
2019/12/19이 디렉토리에 게시 된 모델은 빠른 로딩을 볼 수 있도록 Huggingface-Transformers와 연결되었습니다.
2019/10/14 Roberta-WWM-EXT-Large 모델 출시, 중국 모델 다운로드보기
2019/9/10 Roberta-WWM-EXT 모델 출시 및 중국 모델 다운로드보기
2019/7/30은 중국어 BERT-wwm-ext 모델을 제공하여 더 큰 일반 코퍼스 (5.4B 워드 카운트)에 대한 교육을 받고 중국 모델 다운로드보기
2019/6/20 초기 버전에서는 모델을 Google을 통해 다운로드 할 수 있으며 국내 클라우드 디스크도 업로드되었습니다. 중국 모델 다운로드를 확인하십시오
| 장 | 설명하다 |
|---|---|
| 소개 | Bert-WWM의 기본 원칙 소개 |
| 중국 모델 다운로드 | Bert-WWM의 다운로드 주소를 제공합니다 |
| 빠른 로딩 | 변압기와 패들 hub를 사용하는 방법 모델은 모델을 빠르게로드합니다 |
| 모델 비교 | 이 디렉토리에서 모델의 매개 변수 비교를 제공합니다. |
| 중국 기준 시스템 효과 | 중국 기준 시스템의 효과를 나열하십시오 |
| 작은 매개 변수 수량 모델 | 작은 매개 변수 수량 모델 (3 층 변압기)의 효과를 나열하십시오. |
| 사용 권장 사항 | 중국 미리 훈련 된 모델 사용에 대한 몇 가지 제안이 제공됩니다 |
| 영어 모델을 다운로드하십시오 | Google의 공식 영어 Bert-WWM 다운로드 주소 |
| FAQ | FAQ와 답변 |
| 인용하다 | 이 디렉토리의 기술 보고서 |
전체 단어 마스킹 (WWM) 은全词Mask 또는整词Mask 로 일시적으로 번역 된 2019 년 5 월 31 일 Google에서 발표 한 BERT의 업그레이드 된 버전으로 원래 사전 훈련 단계에서 교육 샘플 생성 전략을 주로 변경합니다. 간단히 말해서, 원래의 단어 기반 단어 세그먼테이션 방법은 완전한 단어를 여러 하위 단어로 나눕니다. 훈련 샘플을 생성 할 때 이러한 분리 된 서브 워드는 무작위로 마스킹됩니다.全词Mask 에서, 완전한 단어의 Word Piece 서브 단어가 마스크되면, 같은 단어의 다른 부분, 즉全词Mask 가려집니다.
여기서 마스크는 일반화 된 마스크 ([마스크]로 대체; 원래 어휘를 유지하고 다른 단어로 무작위로 대체 됨)를 지칭하며, 단어가 [MASK] 태그로 대체되는 경우에만 국한되지 않습니다. 자세한 내용과 예는 다음을 참조하십시오. #4
마찬가지로 Google은 공식적으로 BERT-base, Chinese 출시 한 이후 중국어는 캐릭터로 인물 로 나뉘어져 있으며 전통적인 NLP의 중국 분사 (CWS)를 고려하지 않습니다. 우리는 중국어로 전체 단어 마스크 방법을 적용하고, 중국 위키 백과 (단순화 및 전통 중국어 포함) 훈련에 사용했으며 Harbin Institute of Technology LTP를 단어 세분화 도구, 즉 동일한 단어를 구성하는 모든 중국어가 매핑됩니다.
다음 텍스트는全词Mask 의 샘플 생성을 보여줍니다. 참고 : 쉽게 이해하기 위해 [마스크] 태그를 교체하는 경우 만 다음 예제에서 고려됩니다.
| 설명 | 견본 |
|---|---|
| 원본 텍스트 | 언어 모델을 사용하여 다음 단어의 확률을 예측하십시오. |
| 단어 분사 텍스트 | 언어 모델을 사용하여 다음 단어의 확률을 예측하십시오. |
| 원래 마스크 입력 | 언어 [마스크] 유형을 사용하여 다음 단어 pro [mask] ## lity의 프로 [마스크]를 테스트하십시오. |
| 전체 단어 마스크 입력 | 언어 [마스크] [마스크]를 [마스크] [마스크]에 사용하십시오. 다음 단어 [마스크] [마스크]. |
이 디렉토리에는 주로 기본 모델이 포함되어 있으므로 모델의 약어에서 단어 base 을 지정하지 않습니다. 다른 크기의 모델의 경우 해당 태그 (예 : 큰)가 표시됩니다.
BERT-large模型: 24 계층, 1024- 히든, 16 개의 헤드, 330m 매개 변수BERT-base模型: 12 층, 768- 히든, 12- 헤드, 110m 매개 변수참고 : 오픈 소스 버전에는 MLM 작업의 가중치가 포함되어 있지 않습니다. MLM 작업을 수행 해야하는 경우 다른 다운 스트림 작업과 같은 보조 사전 훈련에 대한 추가 데이터를 사용하십시오.
| 모델 약어 | 재료 | Google 다운로드 | Baidu NetDisk 다운로드 |
|---|---|---|---|
RBT6, Chinese | EXT 데이터 [1] | - | 텐서 플로우 (비밀번호 hniy) |
RBT4, Chinese | EXT 데이터 [1] | - | 텐서 플로우 (비밀번호 SJPT) |
RBTL3, Chinese | EXT 데이터 [1] | 텐서 플로 Pytorch | 텐서 플로우 (비밀번호 S6CU) |
RBT3, Chinese | EXT 데이터 [1] | 텐서 플로 Pytorch | 텐서 플로우 (비밀번호 5A57) |
RoBERTa-wwm-ext-large, Chinese | EXT 데이터 [1] | 텐서 플로 Pytorch | 텐서 플로우 (비밀번호 DQQE) |
RoBERTa-wwm-ext, Chinese | EXT 데이터 [1] | 텐서 플로 Pytorch | 텐서 플로우 (비밀번호 VyBQ) |
BERT-wwm-ext, Chinese | EXT 데이터 [1] | 텐서 플로 Pytorch | 텐서 플로우 (비밀번호 WGNT) |
BERT-wwm, Chinese | 중국 위키 | 텐서 플로 Pytorch | 텐서 플로우 (비밀번호 QFH8) |
BERT-base, Chinese 구글 | 중국 위키 | 구글 클라우드 | - |
BERT-base, Multilingual Cased Google | 다국어 위키 | 구글 클라우드 | - |
BERT-base, Multilingual Uncased Google | 다국어 위키 | 구글 클라우드 | - |
[1] ext 데이터에는 다음이 포함됩니다 : 중국 Wikipedia, 기타 백과 사전, 뉴스, Q & A 및 기타 데이터는 총 단어 수가 5.4b에 도달합니다.
Pytorch 버전이 필요한 경우
1) Transformers가 제공 한 변환 스크립트를 통해 직접 변환하십시오.
2) 또는 Huggingface의 공식 웹 사이트를 통해 Pytorch를 직접 다운로드하십시오 : https://huggingface.co/hfl
다운로드 방법 : 다운로드 할 모델을 클릭하십시오 → "파일 및 버전"탭 → 해당 모델 파일 다운로드를 선택하십시오.
중국 본토에서 Baidu Netdisk 다운로드 포인트를 사용하는 것이 좋습니다. 해외 사용자는 Google 다운로드 포인트를 사용하는 것이 좋습니다. 기본 모델 파일 크기는 약 400m 입니다. BERT-wwm, Chinese 의 Tensorflow 버전을 예로 들어 다운로드 한 후 ZIP 파일을 압축 해제하여 다음을 얻습니다.
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
그 중에서 bert_config.json 및 vocab.txt Google의 원래 BERT-base, Chinese 와 정확히 동일합니다. pytorch 버전에는 pytorch_model.bin , bert_config.json 및 vocab.txt 파일이 포함되어 있습니다.
Transformers 라이브러리에 의존하면 위의 모델을 쉽게 호출 할 수 있습니다.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
참고 :이 디렉토리의 모든 모델은 Berttokenizer 및 BertModel을 사용하여로드됩니다. Robertatokenizer/Robertamodel을 사용하지 마십시오!
MODEL_NAME 의 해당 목록은 다음과 같습니다.
| 모델 이름 | model_name |
|---|---|
| Roberta-WWM-EXT-LARGE | HFL/중국-로베르타 -WWM-EXT-LARGE |
| Roberta-WWM-EXT | HFL/중국-로베르타 -WWM-EXT |
| Bert-WWM-EXT | HFL/중국-베르트 -WWM-EXT |
| Bert-WWM | HFL/중국-베르트 -WWM |
| RBT3 | HFL/RBT3 |
| RBTL3 | HFL/RBTL3 |
PaddleHub에 의존하면 한 줄의 코드로 모델을 다운로드하여 설치할 수 있으며 10 개 이상의 코드 라인이 텍스트 분류, 시퀀스 주석, 읽기 이해 등과 같은 작업을 완료 할 수 있습니다.
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
MODULE_NAME 의 해당 목록은 다음과 같습니다.
| 모델 이름 | module_name |
|---|---|
| Roberta-WWM-EXT-LARGE | 중국-로버타 -WWM-EXT-LARGE |
| Roberta-WWM-EXT | 중국-로버타 -WWM-EXT |
| Bert-WWM-EXT | 중국-베르트 WWM-EXT |
| Bert-WWM | 중국-베르트 WWM |
| RBT3 | RBT3 |
| RBTL3 | RBTL3 |
다음은 모든 사람이 더 우려하는 일부 모델 세부 사항을 요약 한 것입니다.
| - | 버트 구글 | Bert-WWM | Bert-WWM-EXT | Roberta-WWM-EXT | Roberta-WWM-EXT-LARGE |
|---|---|---|---|---|---|
| 마스킹 | 단어 | WWM [1] | WWM | WWM | WWM |
| 유형 | 베이스 | 베이스 | 베이스 | 베이스 | 크기가 큰 |
| 데이터 소스 | 위키 | 위키 | Wiki+Ext [2] | 위키+내선 | 위키+내선 |
| 훈련 토큰 # | 0.4b | 0.4b | 5.4b | 5.4b | 5.4b |
| 장치 | TPU 포드 V2 | TPU v3 | TPU v3 | TPU v3 | TPU POD v3-32 [3] |
| 훈련 단계 | ? | 100K MAX128 +100K MAX512 | 1M MAX128 +400K MAX512 | 1M MAX512 | 2M MAX512 |
| 배치 크기 | ? | 2,560 / 384 | 2,560 / 384 | 384 | 512 |
| 최적화 | 아담 | 양고기 | 양고기 | 아담 | 아담 |
| 어휘 | 21,128 | ~ 버트 [4] | ~ 버트 | ~ 버트 | ~ 버트 |
| 초기 체크 포인트 | 임의의 초기 | ~ 버트 | ~ 버트 | ~ 버트 | 임의의 초기 |
[1] WWM = 전체 단어 마스킹
[2] ext = 확장 데이터
[3] TPU POD V3-32 (512G HBM)는 4 TPU V3 (128g HBM)에 해당합니다.
[4]~BERTGoogle의 원래 중국어 버트의 속성을 물려받는 것을 의미합니다.
기준 효과를 비교하기 위해句子级및篇章级작업을 포함한 다음 중국 데이터 세트에서 테스트했습니다. BERT-wwm-ext , RoBERTa-wwm-ext 및 RoBERTa-wwm-ext-large 의 경우 최적 학습 속도를 더 이상 조정하지 않았지만 BERT-wwm 의 최적 학습 속도를 직접 사용했습니다.
최고의 학습 속도 :
| 모델 | 버트 | 어니 | Bert-WWM* |
|---|---|---|---|
| CMRC 2018 | 3E-5 | 8E-5 | 3E-5 |
| DRCD | 3E-5 | 8E-5 | 3E-5 |
| CJRC | 4E-5 | 8E-5 | 4E-5 |
| xnli | 3E-5 | 5E-5 | 3E-5 |
| chnsenticorp | 2E-5 | 5E-5 | 2E-5 |
| LCQMC | 2E-5 | 3E-5 | 2E-5 |
| BQ 코퍼스 | 3E-5 | 5E-5 | 3E-5 |
| Thucnews | 2E-5 | 5E-5 | 2E-5 |
*모든 WWM 시리즈 모델 (Bert-WWM, Bert-WWM-EXT, Roberta-WWM-EXT, Roberta-WWM-EXT-LARGE를 나타냅니다)
일부 결과 만 아래에 나열되어 있습니다. 전체 결과는 기술 보고서를 참조하십시오.
참고 : 결과의 신뢰성을 보장하기 위해 동일한 모델에 대해 10 배 (다른 임의의 시드)를 실행하여 모델 성능의 최대 및 평균 값 (괄호의 평균값)을보고합니다. 예상치 못한 일이 발생하지 않으면 작업 결과 가이 범위에 있어야합니다.
평가 표시기에서 평균값은 괄호로 표시되며 최대 값은 괄호 외부로 표시됩니다.
CMRC 2018 데이터 세트는 Harbin Institute of Technology의 공동 실험실에서 발표 한 중국 기계 판독 이해 데이터입니다. 주어진 질문에 따르면, 시스템은 분대와 동일한 형태로 챕터에서 답으로 조각을 추출해야합니다. 평가 지표는 다음과 같습니다. EM / F1
| 모델 | 개발 세트 | 테스트 세트 | 도전 세트 |
|---|---|---|---|
| 버트 | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) |
| 어니 | 65.4 (64.3) / 84.7 (84.2) | 69.4 (68.2) / 86.6 (86.1) | 19.6 (17.0) / 44.3 (42.8) |
| Bert-WWM | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) |
| Bert-WWM-EXT | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) |
| Roberta-WWM-EXT | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) |
| Roberta-WWM-EXT-LARGE | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) |
DRCD 데이터 세트는 중국 대만 델타 리서치 인스티튜트 (Delta Research Institute)가 발표했습니다. 그 형태는 분대와 동일하며 전통적인 중국어를 기반으로 한 추출 된 독해 이해 데이터 세트입니다. 전통적인 중국어는 어니에서 제거되므로 전통적인 중국 데이터에서 Ernie (또는 단순화 된 중국어로 변환 한 다음 처리)를 사용하는 것이 좋습니다. 평가 지표는 다음과 같습니다. EM / F1
| 모델 | 개발 세트 | 테스트 세트 |
|---|---|---|
| 버트 | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) |
| 어니 | 73.2 (73.0) / 83.9 (83.8) | 71.9 (71.4) / 82.5 (82.3) |
| Bert-WWM | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) |
| Bert-WWM-EXT | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) |
| Roberta-WWM-EXT | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) |
| Roberta-WWM-EXT-LARGE | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) |
CJRC 데이터 세트는 Iflytek의 공동 실험실에서 발표 한 사법 분야 에 대한 중국 기계 판독 이해 데이터입니다. 실험에 사용 된 데이터는 공무원이 발표 한 최종 데이터가 아니며 결과는 참조에만 해당됩니다. 평가 지표는 다음과 같습니다. EM / F1
| 모델 | 개발 세트 | 테스트 세트 |
|---|---|---|
| 버트 | 54.6 (54.0) / 75.4 (74.5) | 55.1 (54.1) / 75.2 (74.3) |
| 어니 | 54.3 (53.9) / 75.3 (74.6) | 55.0 (53.9) / 75.0 (73.9) |
| Bert-WWM | 54.7 (54.0) / 75.2 (74.8) | 55.1 (54.1) / 75.4 (74.4) |
| Bert-WWM-EXT | 55.6 (54.8) / 76.0 (75.3) | 55.6 (54.9) / 75.8 (75.0) |
| Roberta-WWM-EXT | 58.7 (57.6) / 79.1 (78.3) | 59.0 (57.8) / 79.0 (78.0) |
| Roberta-WWM-EXT-LARGE | 62.1 (61.1) / 82.4 (81.6) | 62.4 (61.4) / 82.2 (81.0) |
자연 언어 추론 작업에서 XNLI 데이터를 채택합니다. XNLI 데이터는 텍스트를 세 가지 범주의 entailment , neutral 및 contradictory 로 나누어야합니다. 평가 표시기는 정확도입니다
| 모델 | 개발 세트 | 테스트 세트 |
|---|---|---|
| 버트 | 77.8 (77.4) | 77.8 (77.5) |
| 어니 | 79.7 (79.4) | 78.6 (78.2) |
| Bert-WWM | 79.0 (78.4) | 78.2 (78.0) |
| Bert-WWM-EXT | 79.4 (78.6) | 78.7 (78.3) |
| Roberta-WWM-EXT | 80.0 (79.2) | 78.8 (78.3) |
| Roberta-WWM-EXT-LARGE | 82.1 (81.3) | 81.2 (80.6) |
감정 분석 작업에서 이진 감정 분류 데이터 세트 chnsenticorp. 평가 표시기는 정확도입니다
| 모델 | 개발 세트 | 테스트 세트 |
|---|---|---|
| 버트 | 94.7 (94.3) | 95.0 (94.7) |
| 어니 | 95.4 (94.8) | 95.4 (95.3) |
| Bert-WWM | 95.1 (94.5) | 95.4 (95.0) |
| Bert-WWM-EXT | 95.4 (94.6) | 95.3 (94.7) |
| Roberta-WWM-EXT | 95.0 (94.6) | 95.6 (94.8) |
| Roberta-WWM-EXT-LARGE | 95.8 (94.9) | 95.8 (94.9) |
다음 두 데이터 세트는 두 문장의 의미론이 동일한 지 여부를 결정하기 위해 문장 쌍을 분류해야합니다 (이진 분류 작업).
LCQMC는 Harbin Technology Institute of Technology Shenzhen 대학원의 지능형 컴퓨팅 연구 센터에서 발표했습니다. 평가 표시기는 정확도입니다
| 모델 | 개발 세트 | 테스트 세트 |
|---|---|---|
| 버트 | 89.4 (88.4) | 86.9 (86.4) |
| 어니 | 89.8 (89.6) | 87.2 (87.0) |
| Bert-WWM | 89.4 (89.2) | 87.0 (86.8) |
| Bert-WWM-EXT | 89.6 (89.2) | 87.1 (86.6) |
| Roberta-WWM-EXT | 89.0 (88.7) | 86.4 (86.1) |
| Roberta-WWM-EXT-LARGE | 90.4 (90.0) | 87.0 (86.8) |
BQ 코퍼스는 Harbin Technology Institute of Technology Shenzhen 대학원의 지능형 컴퓨팅 연구 센터에서 발표되며 은행 분야의 데이터 세트입니다. 평가 표시기는 정확도입니다
| 모델 | 개발 세트 | 테스트 세트 |
|---|---|---|
| 버트 | 86.0 (85.5) | 84.8 (84.6) |
| 어니 | 86.3 (85.5) | 85.0 (84.6) |
| Bert-WWM | 86.1 (85.6) | 85.2 (84.9) |
| Bert-WWM-EXT | 86.4 (85.5) | 85.3 (84.8) |
| Roberta-WWM-EXT | 86.0 (85.4) | 85.0 (84.6) |
| Roberta-WWM-EXT-LARGE | 86.3 (85.7) | 85.8 (84.9) |
장 수준의 텍스트 분류 작업을 위해 Tsinghua University의 자연어 처리 실험실에서 발표 한 뉴스 데이터 세트 인 Thucnews를 선택했습니다. 우리는 서브 세트 중 하나를 취하고 있으며 뉴스를 10 개의 범주 중 하나로 나눌 필요가 있습니다. 평가 표시기는 정확도입니다
| 모델 | 개발 세트 | 테스트 세트 |
|---|---|---|
| 버트 | 97.7 (97.4) | 97.8 (97.6) |
| 어니 | 97.6 (97.3) | 97.5 (97.3) |
| Bert-WWM | 98.0 (97.6) | 97.8 (97.6) |
| Bert-WWM-EXT | 97.7 (97.5) | 97.7 (97.5) |
| Roberta-WWM-EXT | 98.3 (97.9) | 97.7 (97.5) |
| Roberta-WWM-EXT-LARGE | 98.3 (97.7) | 97.8 (97.6) |
다음은 여러 NLP 작업에 대한 실험 결과이며 테스트 세트 결과의 비교 만 표에 제공됩니다.
| 모델 | CMRC 2018 | DRCD | xnli | CSC | LCQMC | BQ | 평균 | 매개 변수 수량 |
|---|---|---|---|---|---|---|---|---|
| Roberta-WWM-EXT-LARGE | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325m |
| Roberta-WWM-EXT | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102m |
| RBTL3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61m (59.8%) |
| RBT3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38m (37.3%) |
상대 효과 비교 :
| 모델 | CMRC 2018 | DRCD | xnli | CSC | LCQMC | BQ | 평균 | 분류 평균 |
|---|---|---|---|---|---|---|---|---|
| Roberta-WWM-EXT-LARGE | 102.2% / 101.3% | 104.7% / 102.7% | 103.0% | 100.2% | 100.7% | 100.9% | 101.9% | 101.2% |
| Roberta-WWM-EXT | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| RBTL3 | 87.2% / 93.3% | 90.2% / 93.0% | 93.9% | 98.5% | 98.5% | 98.4% | 94.3% | 97.35% |
| RBT3 | 85.7% / 91.5% | 87.6% / 91.2% | 91.8% | 97.1% | 98.5% | 98.0% | 92.9% | 96.35% |
더 나은 결과와 함께 중국 소규모 미리 훈련 된 모델 Minirbt에 오신 것을 환영합니다 : https://github.com/iflytek/minirbt
BERT 또는 기타 모델이든)이며 대상 작업에 따라 조정해야합니다.ERNIE 의 최적 학습 속도는 BERT / BERT-wwm 과는 상당히 다르므로 ERNIE 사용할 때 학습 속도를 조정하십시오 (위의 실험 결과에 따라 ERNIE 가 요구하는 초기 학습 속도는 비교적 높습니다).BERT / BERT-wwm 교육을 위해 Wikipedia 데이터를 사용하기 때문에 공식 텍스트를 모델링하는 데 더 좋습니다. ERNIE Baidu Tieba 및 Zhi와 같은 추가 네트워크 데이터를 사용하는 반면 비공식 텍스트 (예 : Weibo 등)를 모델링하는 데 장점이 있습니다.BERT 및 BERT-wwm 과 같은 긴 텍스트 모델링 작업에서 더 나은 결과가 있습니다.BERT 또는 BERT-wwm 사용하십시오. 어휘 목록에는 ERNIE 의 전통적인 중국인이 거의 없다는 것을 알았습니다. 모든 사람이 다운로드 할 수 있도록 Google에서 공식적으로 출시 된 English BERT-large (wwm) 모델을 가져 오십시오.
BERT-Large, Uncased (Whole Word Masking) : 24 계층, 1024- 히든, 16 개의 헤드, 340m 매개 변수
BERT-Large, Cased (Whole Word Masking) : 24 계층, 1024- 히든, 16 헤드, 340m 매개 변수
Q :이 모델을 사용하는 방법은 무엇입니까?
A : Google에서 발표 한 중국어 버트 사용 방법,이를 사용하는 방법. 텍스트는 단어 세분화를 거치지 않아도되며 WWM은 사전 훈련 프로세스에만 영향을 미치며 다운 스트림 작업의 입력에는 영향을 미치지 않습니다.
Q : 사전 훈련 코드가 제공되어 있습니까?
A : 불행히도 관련 코드를 제공 할 수 없습니다. 구현은 #10 및 #13을 참조 할 수 있습니다.
Q : 특정 데이터 세트를 어디에서 다운로드해야합니까?
A : data 디렉토리를 확인하십시오. 작업 디렉토리의 README.md 는 데이터 소스를 나타냅니다. 저작권이있는 콘텐츠는 직접 검색하거나 원래 저자에게 문의하여 데이터를 얻으십시오.
Q : 더 큰 모델을 출시 할 계획이 있습니까? 예를 들어, Bert-Large-WWM 버전?
A : 실험에서 더 나은 결과를 얻으면 더 큰 버전을 공개하는 것이 좋습니다.
Q : 당신은 거짓말하고 있습니다! 결과를 재현 할 수 없습니까?
A : 다운 스트림 작업에서 가장 간단한 모델을 채택했습니다. 예를 들어, 분류 작업의 경우 run_classifier.py (Google에서 제공)를 직접 사용합니다. 평균값에 도달 할 수 없으면 실험 자체에 버그가 있음을 의미합니다. 조심스럽게 확인하십시오. 가장 높은 값에 대한 많은 임의의 요소가 있으며, 우리는 가장 높은 값에 도달 할 수 있다고 보장 할 수 없습니다. 또 다른 인식 된 요인 : 배치 크기를 줄이면 실험 효과가 크게 줄어 듭니다. 자세한 내용은 BERT 및 XLNET 디렉토리의 관련 문제를 참조하십시오.
Q : 나는 당신보다 더 나은 결과를 얻을 것입니다!
A : 축하합니다.
Q : 훈련하는 데 얼마나 걸리며 어떤 장비를 훈련 했습니까?
A : Google TPU V3 버전 (128G HBM)에서 교육이 완료되었습니다. Bert-WWM 교육은 약 1.5 일이 걸리고 Bert-WWM-EXT는 몇 주가 걸립니다 (더 많은 데이터를 더 많이 사용하는 데 사용됩니다). 사전 훈련 단계에서 LAMB Optimizer (Tensorflow 버전 구현)를 사용합니다. 이 최적화기는 큰 배치를 잘 지원합니다. 다운 스트림 작업을 미세 조정할 때 Bert의 기본 AdamWeightDecayOptimizer 사용합니다.
Q : Ernie는 누구입니까?
A :이 프로젝트의 Ernie 모델은 ACL 2019에 Tsinghua University가 출판 한 Ernie보다는 Baidu가 제안한 Ernie를 구체적으로 말합니다.
Q : Bert-WWM의 효과는 모든 작업에서 그다지 좋지 않습니다.
A :이 프로젝트의 목적은 연구원들에게 다각적 인 미리 훈련 된 모델을 제공하는 것입니다. Bert, Ernie 또는 Bert-WWM을 자유롭게 선택합니다. 우리는 실험 데이터 만 제공하며 결론을 도출하기 위해 자신의 과제에서 최선을 다해야합니다. 하나의 모델, 하나 더 선택.
Q : 일부 데이터 세트가 시도되지 않은 이유는 무엇입니까?
A : 솔직히 말해서, 나는 더 많은 데이터를 찾을 기분이 아닙니다. 2) 필요하지 않습니다. 3) 나는 돈이 없다.
Q :이 모델을 간단히 평가해 봅시다
A : 각각 고유 한 초점과 고유 한 강점이 있습니다. 중국 자연 언어 처리의 연구 및 개발에는 모든 당사자의 공동 노력이 필요합니다.
Q : 예측하는 다음 사전에 사기꾼 모델의 이름은 무엇입니까?
A : 아마도 Zoe라고 불립니다. Zoe : 언어 모델에서 제로 샷 임베딩
Q : RoBERTa-wwm-ext 모델에 대한 자세한 내용은?
A : 우리는 Roberta와 Bert-WWM의 장점을 통합 하여이 둘의 자연스러운 조합을 만듭니다. 이 디렉토리의 모델 간의 차이점은 다음과 같습니다.
1) WWM 전략을 사용하여 사전 훈련 단계에서 마스킹하십시오 (그러나 동적 마스킹은 없음)
2) 간단히 다음 문장 예측 (NSP) 손실을 취소하십시오
3) 더 이상 max_len = 128의 훈련 모드를 사용하지 않고 Max_len = 512를 직접 훈련 시키십시오. max_len = 512
4) 훈련 단계를 적절하게 확장하십시오
이 모델은 원래 Roberta 모델이 아니라 유사한 Roberta 교육 방법, 즉 Roberta와 같은 Bert로 훈련 된 Bert 모델 일뿐입니다. 따라서 다운 스트림 작업과 변환 모델을 사용할 때 Roberta 대신 Bert에서 처리하십시오.
이 프로젝트의 자원이나 기술이 연구 작업에 도움이된다면 논문의 다음 논문을 참조하십시오.
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
첫 번째 저자는 Google의 TPU Research Cloud 프로그램에 의해 부분적으로 자금을 지원받습니다.
이 프로젝트는 Google에서 공식적으로 출시 된 중국 Bert-WWM 모델이 아닙니다. 동시에이 프로젝트는 Harbin Institute of Technology 또는 IFLYTEK의 공식 제품이 아닙니다. 기술 보고서에 제시된 실험 결과는 특정 데이터 세트와 하이퍼 파라미터 조합에서 성능이 각 모델의 특성을 나타내지 않음을 보여줍니다. 임의의 숫자 씨앗과 컴퓨팅 장치로 인해 실험 결과가 변경 될 수 있습니다. 이 프로젝트의 내용은 기술적 연구 참조를위한 것이며 결론적으로 사용되지 않습니다. 사용자는 라이센스 범위 내에서 언제든지 모델을 사용할 수 있지만 프로젝트 컨텐츠 사용으로 인한 직간접 손실에 대해 책임을지지 않습니다.
Iflytek Joint Laboratory의 공식 WeChat 공식 계정을 따라 최신 기술 트렌드에 대해 알아보십시오.

궁금한 점이 있으면 GitHub 문제로 제출하십시오.