Chinese BERT wwm 다운로드 - Chinese BERT wwm 소스 코드 다운로드

Chinese BERT wwm

기타 소스코드

1.0.0

다운로드

중국어-알파카 -2 V1.0 버전은 공식적으로 출시되었습니다!

중국어 설명 | 영어

자연 언어 처리 분야에서 미리 훈련 된 언어 모델 (사전 훈련 된 언어 모델)은 매우 중요한 기본 기술이되었습니다. 중국 정보 처리의 연구 및 개발을 더욱 홍보하기 위해, 우리는 전체 워드 마스킹 기술을 기반으로 중국 사전 훈련 된 모델 Bert-WWM 과이 기술과 밀접한 관련 모델 (Bert-WWM-Ext, Roberta-Ext-Large, RBT3, RBTL3 등을 발표했습니다.

중국어 버트를위한 전체 단어 마스킹으로 사전 훈련
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang
오디오, 음성 및 언어 처리에 대한 IEEE/ACM 트랜잭션 (TASLP)에 게시 됨 (TASLP)

이 프로젝트는 Google의 공식 Bert (https://github.com/google-research/bert)를 기반으로합니다

HARBIN Institute of Technology (HFL)의 IFL이 발표 한 자료를 더 많이보기 : https://github.com/ymcui/hfl-anthology

소식

2023/3/28 오픈 소스 중국 라마 & 알파카 빅 모델.

2023/3/9 우리는 그래픽 및 텍스트에서 멀티 모달 사전 훈련 된 모델 vle을 제안합니다 : https://github.com/iflytek/vle

2022/11/15 우리는 중국 소규모 미리 훈련 된 모델 MiniRBT를 제안합니다. 보기 : https://github.com/iflytek/minirbt

2022/10/29 우리는 언어 정보를 통합하는 미리 훈련 된 모델 lert를 제안합니다. 보기 : https://github.com/ymcui/lert

2022/3/30 우리는 새로운 미리 훈련 된 모델 pert를 오픈 소스. 보기 : https://github.com/ymcui/pert

역사적 뉴스

2021/12/17 Iflytek Joint Laboratory를 시작하여 모델 절단 툴킷 TextPruner를 시작합니다. 보기 : https://github.com/airaria/textpruner

2021/10/24 Iflytek Joint Laboratory는 소수 민족 언어를위한 미리 훈련 된 모델 Cino를 발표했습니다. 보기 : https://github.com/ymcui/chinese-minority-plm

2021/7/21 "자연 언어 처리 : Harbin Institute of Technology SCIR의 많은 학자들이 작성한 사전 훈련 모델을 기반으로하는 방법"이 출판되었으며 모든 사람들이 구매를 환영합니다.

2021/1/27 모든 모델은 Tensorflow 2를 지원했습니다. Transformers 라이브러리를 통해 전화하거나 다운로드하십시오. https://huggingface.co/hfl

2020/9/15 우리 논문 "중국 자연 언어 처리를위한 미리 훈련 된 모델 재검토"는 EMNLP의 발견에 의해 긴 기사로 고용되었습니다.

2020/8/27 IFL 공동 실험실은 접착제 일반 자연어 이해 평가에서 목록을 1 위, 접착제 목록, 뉴스를 확인하십시오.

2020/3/23이 디렉토리에 출시 된 모델은 빠른 로딩을보기 위해 PaddlePaddleShub에 연결되었습니다.

2020/3/11 요구를 더 잘 이해하기 위해 더 나은 자원을 제공하기 위해 설문지를 작성하도록 초대받습니다.

2020/2/26 Iflytek Joint Laboratory는 지식 증류 도구 텍스트 브루어를 출시합니다

2020/1/20 쥐의 해에 행운을 빕니다. 이번에는 RBT3 및 RBTL3 (3 층 Roberta-WWM-EXT-Base/Large)을 릴리스하여 작은 매개 변수 수량 모델을 보았습니다.

2019/12/19이 디렉토리에 게시 된 모델은 빠른 로딩을 볼 수 있도록 Huggingface-Transformers와 연결되었습니다.

2019/10/14 Roberta-WWM-EXT-Large 모델 출시, 중국 모델 다운로드보기

2019/9/10 Roberta-WWM-EXT 모델 출시 및 중국 모델 다운로드보기

2019/7/30은 중국어 BERT-wwm-ext 모델을 제공하여 더 큰 일반 코퍼스 (5.4B 워드 카운트)에 대한 교육을 받고 중국 모델 다운로드보기

2019/6/20 초기 버전에서는 모델을 Google을 통해 다운로드 할 수 있으며 국내 클라우드 디스크도 업로드되었습니다. 중국 모델 다운로드를 확인하십시오

내용 지침

장	설명하다
소개	Bert-WWM의 기본 원칙 소개
중국 모델 다운로드	Bert-WWM의 다운로드 주소를 제공합니다
빠른 로딩	변압기와 패들 hub를 사용하는 방법 모델은 모델을 빠르게로드합니다
모델 비교	이 디렉토리에서 모델의 매개 변수 비교를 제공합니다.
중국 기준 시스템 효과	중국 기준 시스템의 효과를 나열하십시오
작은 매개 변수 수량 모델	작은 매개 변수 수량 모델 (3 층 변압기)의 효과를 나열하십시오.
사용 권장 사항	중국 미리 훈련 된 모델 사용에 대한 몇 가지 제안이 제공됩니다
영어 모델을 다운로드하십시오	Google의 공식 영어 Bert-WWM 다운로드 주소
FAQ	FAQ와 답변
인용하다	이 디렉토리의 기술 보고서

소개

전체 단어 마스킹 (WWM) 은全词Mask 또는整词Mask 로 일시적으로 번역 된 2019 년 5 월 31 일 Google에서 발표 한 BERT의 업그레이드 된 버전으로 원래 사전 훈련 단계에서 교육 샘플 생성 전략을 주로 변경합니다. 간단히 말해서, 원래의 단어 기반 단어 세그먼테이션 방법은 완전한 단어를 여러 하위 단어로 나눕니다. 훈련 샘플을 생성 할 때 이러한 분리 된 서브 워드는 무작위로 마스킹됩니다.全词Mask 에서, 완전한 단어의 Word Piece 서브 단어가 마스크되면, 같은 단어의 다른 부분, 즉全词Mask 가려집니다.

여기서 마스크는 일반화 된 마스크 ([마스크]로 대체; 원래 어휘를 유지하고 다른 단어로 무작위로 대체 됨)를 지칭하며, 단어가 [MASK] 태그로 대체되는 경우에만 국한되지 않습니다. 자세한 내용과 예는 다음을 참조하십시오. #4

마찬가지로 Google은 공식적으로 BERT-base, Chinese 출시 한 이후 중국어는 캐릭터로 인물 로 나뉘어져 있으며 전통적인 NLP의 중국 분사 (CWS)를 고려하지 않습니다. 우리는 중국어로 전체 단어 마스크 방법을 적용하고, 중국 위키 백과 (단순화 및 전통 중국어 포함) 훈련에 사용했으며 Harbin Institute of Technology LTP를 단어 세분화 도구, 즉 동일한 단어를 구성하는 모든 중국어가 매핑됩니다.

다음 텍스트는全词Mask 의 샘플 생성을 보여줍니다. 참고 : 쉽게 이해하기 위해 [마스크] 태그를 교체하는 경우 만 다음 예제에서 고려됩니다.

설명	견본
원본 텍스트	언어 모델을 사용하여 다음 단어의 확률을 예측하십시오.
단어 분사 텍스트	언어 모델을 사용하여 다음 단어의 확률을 예측하십시오.
원래 마스크 입력	언어 [마스크] 유형을 사용하여 다음 단어 pro [mask] ## lity의 프로 [마스크]를 테스트하십시오.
전체 단어 마스크 입력	언어 [마스크] [마스크]를 [마스크] [마스크]에 사용하십시오. 다음 단어 [마스크] [마스크].

중국 모델 다운로드

이 디렉토리에는 주로 기본 모델이 포함되어 있으므로 모델의 약어에서 단어 base 을 지정하지 않습니다. 다른 크기의 모델의 경우 해당 태그 (예 : 큰)가 표시됩니다.

BERT-large模型: 24 계층, 1024- 히든, 16 개의 헤드, 330m 매개 변수
BERT-base模型: 12 층, 768- 히든, 12- 헤드, 110m 매개 변수

참고 : 오픈 소스 버전에는 MLM 작업의 가중치가 포함되어 있지 않습니다. MLM 작업을 수행 해야하는 경우 다른 다운 스트림 작업과 같은 보조 사전 훈련에 대한 추가 데이터를 사용하십시오.

모델 약어	재료	Google 다운로드	Baidu NetDisk 다운로드
`RBT6, Chinese`	EXT 데이터 ^[1]	-	텐서 플로우 (비밀번호 hniy)
`RBT4, Chinese`	EXT 데이터 ^[1]	-	텐서 플로우 (비밀번호 SJPT)
`RBTL3, Chinese`	EXT 데이터 ^[1]	텐서 플로 Pytorch	텐서 플로우 (비밀번호 S6CU)
`RBT3, Chinese`	EXT 데이터 ^[1]	텐서 플로 Pytorch	텐서 플로우 (비밀번호 5A57)
`RoBERTa-wwm-ext-large, Chinese`	EXT 데이터 ^[1]	텐서 플로 Pytorch	텐서 플로우 (비밀번호 DQQE)
`RoBERTa-wwm-ext, Chinese`	EXT 데이터 ^[1]	텐서 플로 Pytorch	텐서 플로우 (비밀번호 VyBQ)
`BERT-wwm-ext, Chinese`	EXT 데이터 ^[1]	텐서 플로 Pytorch	텐서 플로우 (비밀번호 WGNT)
`BERT-wwm, Chinese`	중국 위키	텐서 플로 Pytorch	텐서 플로우 (비밀번호 QFH8)
`BERT-base, Chinese` ^구글	중국 위키	구글 클라우드	-
`BERT-base, Multilingual Cased` ^Google	다국어 위키	구글 클라우드	-
`BERT-base, Multilingual Uncased` ^Google	다국어 위키	구글 클라우드	-

[1] ext 데이터에는 다음이 포함됩니다 : 중국 Wikipedia, 기타 백과 사전, 뉴스, Q & A 및 기타 데이터는 총 단어 수가 5.4b에 도달합니다.

Pytorch 버전

Pytorch 버전이 필요한 경우

1) Transformers가 제공 한 변환 스크립트를 통해 직접 변환하십시오.

2) 또는 Huggingface의 공식 웹 사이트를 통해 Pytorch를 직접 다운로드하십시오 : https://huggingface.co/hfl

다운로드 방법 : 다운로드 할 모델을 클릭하십시오 → "파일 및 버전"탭 → 해당 모델 파일 다운로드를 선택하십시오.

사용 지침

중국 본토에서 Baidu Netdisk 다운로드 포인트를 사용하는 것이 좋습니다. 해외 사용자는 Google 다운로드 포인트를 사용하는 것이 좋습니다. 기본 모델 파일 크기는 약 400m 입니다. BERT-wwm, Chinese 의 Tensorflow 버전을 예로 들어 다운로드 한 후 ZIP 파일을 압축 해제하여 다음을 얻습니다.

 chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

그 중에서 bert_config.json 및 vocab.txt Google의 원래 BERT-base, Chinese 와 정확히 동일합니다. pytorch 버전에는 pytorch_model.bin , bert_config.json 및 vocab.txt 파일이 포함되어 있습니다.

빠른 로딩

Huggingface-Transformers 사용

Transformers 라이브러리에 의존하면 위의 모델을 쉽게 호출 할 수 있습니다.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

참고 :이 디렉토리의 모든 모델은 Berttokenizer 및 BertModel을 사용하여로드됩니다. Robertatokenizer/Robertamodel을 사용하지 마십시오!

MODEL_NAME 의 해당 목록은 다음과 같습니다.

모델 이름	model_name
Roberta-WWM-EXT-LARGE	HFL/중국-로베르타 -WWM-EXT-LARGE
Roberta-WWM-EXT	HFL/중국-로베르타 -WWM-EXT
Bert-WWM-EXT	HFL/중국-베르트 -WWM-EXT
Bert-WWM	HFL/중국-베르트 -WWM
RBT3	HFL/RBT3
RBTL3	HFL/RBTL3

Paddlehub 사용

PaddleHub에 의존하면 한 줄의 코드로 모델을 다운로드하여 설치할 수 있으며 10 개 이상의 코드 라인이 텍스트 분류, 시퀀스 주석, 읽기 이해 등과 같은 작업을 완료 할 수 있습니다.

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

MODULE_NAME 의 해당 목록은 다음과 같습니다.

모델 이름	module_name
Roberta-WWM-EXT-LARGE	중국-로버타 -WWM-EXT-LARGE
Roberta-WWM-EXT	중국-로버타 -WWM-EXT
Bert-WWM-EXT	중국-베르트 WWM-EXT
Bert-WWM	중국-베르트 WWM
RBT3	RBT3
RBTL3	RBTL3

모델 비교

다음은 모든 사람이 더 우려하는 일부 모델 세부 사항을 요약 한 것입니다.

-	버트 ^구글	Bert-WWM	Bert-WWM-EXT	Roberta-WWM-EXT	Roberta-WWM-EXT-LARGE
마스킹	단어	WWM ^[1]	WWM	WWM	WWM
유형	베이스	베이스	베이스	베이스	크기가 큰
데이터 소스	위키	위키	Wiki+Ext ^[2]	위키+내선	위키+내선
훈련 토큰 #	0.4b	0.4b	5.4b	5.4b	5.4b
장치	TPU 포드 V2	TPU v3	TPU v3	TPU v3	TPU POD v3-32 ^[3]
훈련 단계	?	100K ^MAX128 +100K ^MAX512	1M ^MAX128 +400K ^MAX512	1M ^MAX512	2M ^MAX512
배치 크기	?	2,560 / 384	2,560 / 384	384	512
최적화	아담	양고기	양고기	아담	아담
어휘	21,128	~ 버트 ^[4]	~ 버트	~ 버트	~ 버트
초기 체크 포인트	임의의 초기	~ 버트	~ 버트	~ 버트	임의의 초기

[1] WWM = 전체 단어 마스킹
[2] ext = 확장 데이터
[3] TPU POD V3-32 (512G HBM)는 4 TPU V3 (128g HBM)에 해당합니다.
[4] ~BERT Google의 원래 중국어 버트의 속성을 물려받는 것을 의미합니다.

중국 기준 시스템 효과

기준 효과를 비교하기 위해句子级및篇章级작업을 포함한 다음 중국 데이터 세트에서 테스트했습니다. BERT-wwm-ext , RoBERTa-wwm-ext 및 RoBERTa-wwm-ext-large 의 경우 최적 학습 속도를 더 이상 조정하지 않았지만 BERT-wwm 의 최적 학습 속도를 직접 사용했습니다.

최고의 학습 속도 :

모델	버트	어니	Bert-WWM*
CMRC 2018	3E-5	8E-5	3E-5
DRCD	3E-5	8E-5	3E-5
CJRC	4E-5	8E-5	4E-5
xnli	3E-5	5E-5	3E-5
chnsenticorp	2E-5	5E-5	2E-5
LCQMC	2E-5	3E-5	2E-5
BQ 코퍼스	3E-5	5E-5	3E-5
Thucnews	2E-5	5E-5	2E-5

*모든 WWM 시리즈 모델 (Bert-WWM, Bert-WWM-EXT, Roberta-WWM-EXT, Roberta-WWM-EXT-LARGE를 나타냅니다)

일부 결과 만 아래에 나열되어 있습니다. 전체 결과는 기술 보고서를 참조하십시오.

CMRC 2018 : 장 조각 추출의 독해 (단순화 된 중국어)
DRCD : 장 조각 추출의 독해 (전통 중국어)
CJRC : 법적 독해 (단순화 된 중국어)
XNLI : 자연어 추론
chnsenticorp : senti 분석
LCQMC : 문장 쌍 일치
BQ 코퍼스 : 문장 쌍 일치
Thucnews : 장 수준 텍스트 분류

참고 : 결과의 신뢰성을 보장하기 위해 동일한 모델에 대해 10 배 (다른 임의의 시드)를 실행하여 모델 성능의 최대 및 평균 값 (괄호의 평균값)을보고합니다. 예상치 못한 일이 발생하지 않으면 작업 결과 가이 범위에 있어야합니다.

평가 표시기에서 평균값은 괄호로 표시되며 최대 값은 괄호 외부로 표시됩니다.

단순화 된 중국 독해 이해 : CMRC 2018

CMRC 2018 데이터 세트는 Harbin Institute of Technology의 공동 실험실에서 발표 한 중국 기계 판독 이해 데이터입니다. 주어진 질문에 따르면, 시스템은 분대와 동일한 형태로 챕터에서 답으로 조각을 추출해야합니다. 평가 지표는 다음과 같습니다. EM / F1

모델	개발 세트	테스트 세트	도전 세트
버트	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)
어니	65.4 (64.3) / 84.7 (84.2)	69.4 (68.2) / 86.6 (86.1)	19.6 (17.0) / 44.3 (42.8)
Bert-WWM	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)
Bert-WWM-EXT	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)
Roberta-WWM-EXT	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)
Roberta-WWM-EXT-LARGE	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)

전통적인 중국 독해 : DRCD

DRCD 데이터 세트는 중국 대만 델타 리서치 인스티튜트 (Delta Research Institute)가 발표했습니다. 그 형태는 분대와 동일하며 전통적인 중국어를 기반으로 한 추출 된 독해 이해 데이터 세트입니다. 전통적인 중국어는 어니에서 제거되므로 전통적인 중국 데이터에서 Ernie (또는 단순화 된 중국어로 변환 한 다음 처리)를 사용하는 것이 좋습니다. 평가 지표는 다음과 같습니다. EM / F1

모델	개발 세트	테스트 세트
버트	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)
어니	73.2 (73.0) / 83.9 (83.8)	71.9 (71.4) / 82.5 (82.3)
Bert-WWM	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)
Bert-WWM-EXT	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)
Roberta-WWM-EXT	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)
Roberta-WWM-EXT-LARGE	89.6 (89.1) / 94.8 (94.4)	89.6 (88.9) / 94.5 (94.1)

사법 독해 : CJRC

CJRC 데이터 세트는 Iflytek의 공동 실험실에서 발표 한 사법 분야 에 대한 중국 기계 판독 이해 데이터입니다. 실험에 사용 된 데이터는 공무원이 발표 한 최종 데이터가 아니며 결과는 참조에만 해당됩니다. 평가 지표는 다음과 같습니다. EM / F1

모델	개발 세트	테스트 세트
버트	54.6 (54.0) / 75.4 (74.5)	55.1 (54.1) / 75.2 (74.3)
어니	54.3 (53.9) / 75.3 (74.6)	55.0 (53.9) / 75.0 (73.9)
Bert-WWM	54.7 (54.0) / 75.2 (74.8)	55.1 (54.1) / 75.4 (74.4)
Bert-WWM-EXT	55.6 (54.8) / 76.0 (75.3)	55.6 (54.9) / 75.8 (75.0)
Roberta-WWM-EXT	58.7 (57.6) / 79.1 (78.3)	59.0 (57.8) / 79.0 (78.0)
Roberta-WWM-EXT-LARGE	62.1 (61.1) / 82.4 (81.6)	62.4 (61.4) / 82.2 (81.0)

자연어 추론 : Xnli

자연 언어 추론 작업에서 XNLI 데이터를 채택합니다. XNLI 데이터는 텍스트를 세 가지 범주의 entailment , neutral 및 contradictory 로 나누어야합니다. 평가 표시기는 정확도입니다

모델	개발 세트	테스트 세트
버트	77.8 (77.4)	77.8 (77.5)
어니	79.7 (79.4)	78.6 (78.2)
Bert-WWM	79.0 (78.4)	78.2 (78.0)
Bert-WWM-EXT	79.4 (78.6)	78.7 (78.3)
Roberta-WWM-EXT	80.0 (79.2)	78.8 (78.3)
Roberta-WWM-EXT-LARGE	82.1 (81.3)	81.2 (80.6)

senticorp

감정 분석 작업에서 이진 감정 분류 데이터 세트 chnsenticorp. 평가 표시기는 정확도입니다

모델	개발 세트	테스트 세트
버트	94.7 (94.3)	95.0 (94.7)
어니	95.4 (94.8)	95.4 (95.3)
Bert-WWM	95.1 (94.5)	95.4 (95.0)
Bert-WWM-EXT	95.4 (94.6)	95.3 (94.7)
Roberta-WWM-EXT	95.0 (94.6)	95.6 (94.8)
Roberta-WWM-EXT-LARGE	95.8 (94.9)	95.8 (94.9)

문장 쌍 분류 : LCQMC, BQ 코퍼스

다음 두 데이터 세트는 두 문장의 의미론이 동일한 지 여부를 결정하기 위해 문장 쌍을 분류해야합니다 (이진 분류 작업).

LCQMC

LCQMC는 Harbin Technology Institute of Technology Shenzhen 대학원의 지능형 컴퓨팅 연구 센터에서 발표했습니다. 평가 표시기는 정확도입니다

모델	개발 세트	테스트 세트
버트	89.4 (88.4)	86.9 (86.4)
어니	89.8 (89.6)	87.2 (87.0)
Bert-WWM	89.4 (89.2)	87.0 (86.8)
Bert-WWM-EXT	89.6 (89.2)	87.1 (86.6)
Roberta-WWM-EXT	89.0 (88.7)	86.4 (86.1)
Roberta-WWM-EXT-LARGE	90.4 (90.0)	87.0 (86.8)

BQ 코퍼스

BQ 코퍼스는 Harbin Technology Institute of Technology Shenzhen 대학원의 지능형 컴퓨팅 연구 센터에서 발표되며 은행 분야의 데이터 세트입니다. 평가 표시기는 정확도입니다

모델	개발 세트	테스트 세트
버트	86.0 (85.5)	84.8 (84.6)
어니	86.3 (85.5)	85.0 (84.6)
Bert-WWM	86.1 (85.6)	85.2 (84.9)
Bert-WWM-EXT	86.4 (85.5)	85.3 (84.8)
Roberta-WWM-EXT	86.0 (85.4)	85.0 (84.6)
Roberta-WWM-EXT-LARGE	86.3 (85.7)	85.8 (84.9)

장 수준의 텍스트 분류 : Thucnews

장 수준의 텍스트 분류 작업을 위해 Tsinghua University의 자연어 처리 실험실에서 발표 한 뉴스 데이터 세트 인 Thucnews를 선택했습니다. 우리는 서브 세트 중 하나를 취하고 있으며 뉴스를 10 개의 범주 중 하나로 나눌 필요가 있습니다. 평가 표시기는 정확도입니다

모델	개발 세트	테스트 세트
버트	97.7 (97.4)	97.8 (97.6)
어니	97.6 (97.3)	97.5 (97.3)
Bert-WWM	98.0 (97.6)	97.8 (97.6)
Bert-WWM-EXT	97.7 (97.5)	97.7 (97.5)
Roberta-WWM-EXT	98.3 (97.9)	97.7 (97.5)
Roberta-WWM-EXT-LARGE	98.3 (97.7)	97.8 (97.6)

작은 매개 변수 수량 모델

다음은 여러 NLP 작업에 대한 실험 결과이며 테스트 세트 결과의 비교 만 표에 제공됩니다.

모델	CMRC 2018	DRCD	xnli	CSC	LCQMC	BQ	평균	매개 변수 수량
Roberta-WWM-EXT-LARGE	74.2 / 90.6	89.6 / 94.5	81.2	95.8	87.0	85.8	87.335	325m
Roberta-WWM-EXT	72.6 / 89.4	85.6 / 92.0	78.8	95.6	86.4	85.0	85.675	102m
RBTL3	63.3 / 83.4	77.2 / 85.6	74.0	94.2	85.1	83.6	80.800	61m (59.8%)
RBT3	62.2 / 81.8	75.0 / 83.9	72.3	92.8	85.1	83.3	79.550	38m (37.3%)

상대 효과 비교 :

모델	CMRC 2018	DRCD	xnli	CSC	LCQMC	BQ	평균	분류 평균
Roberta-WWM-EXT-LARGE	102.2% / 101.3%	104.7% / 102.7%	103.0%	100.2%	100.7%	100.9%	101.9%	101.2%
Roberta-WWM-EXT	100% / 100%	100% / 100%	100%	100%	100%	100%	100%	100%
RBTL3	87.2% / 93.3%	90.2% / 93.0%	93.9%	98.5%	98.5%	98.4%	94.3%	97.35%
RBT3	85.7% / 91.5%	87.6% / 91.2%	91.8%	97.1%	98.5%	98.0%	92.9%	96.35%

매개 변수 수량은 XNLI 분류 작업에 따라 계산됩니다.
괄호 안의 매개 변수의 백분율은 원래 기본 모델 (예 : Roberta-WWM-EXT)을 기반으로합니다.
RBT3 : Roberta-WWM-EXT Layer 3에 의해 초기화되었으며 1m 단계로 계속 훈련했습니다.
RBTL3 : Roberta-WWM-EXT-LARGE LAYER 3에 의해 초기화되었으며 1m 단계로 계속 훈련했습니다.
RBT의 이름은 Roberta의 3 개의 음절 이니셜로 구성되며 L은 큰 모델을 나타냅니다.
초기화 및 훈련 다운 스트림 작업을 위해 Roberta-WWM-EXT-LARGE의 처음 세 층을 직접 사용하면 효과가 크게 줄어 듭니다. 예를 들어, CMRC 2018에서 테스트 세트는 42.9/65.3에만 도달 할 수 있으며 RBTL3은 63.3/83.4에 도달 할 수 있습니다.

더 나은 결과와 함께 중국 소규모 미리 훈련 된 모델 Minirbt에 오신 것을 환영합니다 : https://github.com/iflytek/minirbt

사용 권장 사항

초기 학습 속도는 매우 중요한 매개 변수 ( BERT 또는 기타 모델이든)이며 대상 작업에 따라 조정해야합니다.
ERNIE 의 최적 학습 속도는 BERT / BERT-wwm 과는 상당히 다르므로 ERNIE 사용할 때 학습 속도를 조정하십시오 (위의 실험 결과에 따라 ERNIE 가 요구하는 초기 학습 속도는 비교적 높습니다).
BERT / BERT-wwm 교육을 위해 Wikipedia 데이터를 사용하기 때문에 공식 텍스트를 모델링하는 데 더 좋습니다. ERNIE Baidu Tieba 및 Zhi와 같은 추가 네트워크 데이터를 사용하는 반면 비공식 텍스트 (예 : Weibo 등)를 모델링하는 데 장점이 있습니다.
독해, 문서 분류, BERT 및 BERT-wwm 과 같은 긴 텍스트 모델링 작업에서 더 나은 결과가 있습니다.
대상 작업의 데이터가 미리 훈련 된 모델의 필드와 다른 경우 자체 데이터 세트에서 추가 사전 훈련을 수행하십시오.
전통적인 중국 데이터를 처리하려면 BERT 또는 BERT-wwm 사용하십시오. 어휘 목록에는 ERNIE 의 전통적인 중국인이 거의 없다는 것을 알았습니다.

영어 모델을 다운로드하십시오

모든 사람이 다운로드 할 수 있도록 Google에서 공식적으로 출시 된 English BERT-large (wwm) 모델을 가져 오십시오.

BERT-Large, Uncased (Whole Word Masking) : 24 계층, 1024- 히든, 16 개의 헤드, 340m 매개 변수
BERT-Large, Cased (Whole Word Masking) : 24 계층, 1024- 히든, 16 헤드, 340m 매개 변수

FAQ

Q :이 모델을 사용하는 방법은 무엇입니까?
A : Google에서 발표 한 중국어 버트 사용 방법,이를 사용하는 방법. 텍스트는 단어 세분화를 거치지 않아도되며 WWM은 사전 훈련 프로세스에만 영향을 미치며 다운 스트림 작업의 입력에는 영향을 미치지 않습니다.

Q : 사전 훈련 코드가 제공되어 있습니까?
A : 불행히도 관련 코드를 제공 할 수 없습니다. 구현은 #10 및 #13을 참조 할 수 있습니다.

Q : 더 큰 모델을 출시 할 계획이 있습니까? 예를 들어, Bert-Large-WWM 버전?
A : 실험에서 더 나은 결과를 얻으면 더 큰 버전을 공개하는 것이 좋습니다.

Q : 당신은 거짓말하고 있습니다! 결과를 재현 할 수 없습니까?
A : 다운 스트림 작업에서 가장 간단한 모델을 채택했습니다. 예를 들어, 분류 작업의 경우 run_classifier.py (Google에서 제공)를 직접 사용합니다. 평균값에 도달 할 수 없으면 실험 자체에 버그가 있음을 의미합니다. 조심스럽게 확인하십시오. 가장 높은 값에 대한 많은 임의의 요소가 있으며, 우리는 가장 높은 값에 도달 할 수 있다고 보장 할 수 없습니다. 또 다른 인식 된 요인 : 배치 크기를 줄이면 실험 효과가 크게 줄어 듭니다. 자세한 내용은 BERT 및 XLNET 디렉토리의 관련 문제를 참조하십시오.

Q : 나는 당신보다 더 나은 결과를 얻을 것입니다!
A : 축하합니다.

Q : 훈련하는 데 얼마나 걸리며 어떤 장비를 훈련 했습니까?
A : Google TPU V3 버전 (128G HBM)에서 교육이 완료되었습니다. Bert-WWM 교육은 약 1.5 일이 걸리고 Bert-WWM-EXT는 몇 주가 걸립니다 (더 많은 데이터를 더 많이 사용하는 데 사용됩니다). 사전 훈련 단계에서 LAMB Optimizer (Tensorflow 버전 구현)를 사용합니다. 이 최적화기는 큰 배치를 잘 지원합니다. 다운 스트림 작업을 미세 조정할 때 Bert의 기본 AdamWeightDecayOptimizer 사용합니다.

Q : Ernie는 누구입니까?
A :이 프로젝트의 Ernie 모델은 ACL 2019에 Tsinghua University가 출판 한 Ernie보다는 Baidu가 제안한 Ernie를 구체적으로 말합니다.

Q : Bert-WWM의 효과는 모든 작업에서 그다지 좋지 않습니다.
A :이 프로젝트의 목적은 연구원들에게 다각적 인 미리 훈련 된 모델을 제공하는 것입니다. Bert, Ernie 또는 Bert-WWM을 자유롭게 선택합니다. 우리는 실험 데이터 만 제공하며 결론을 도출하기 위해 자신의 과제에서 최선을 다해야합니다. 하나의 모델, 하나 더 선택.

Q : 일부 데이터 세트가 시도되지 않은 이유는 무엇입니까?
A : 솔직히 말해서, 나는 더 많은 데이터를 찾을 기분이 아닙니다. 2) 필요하지 않습니다. 3) 나는 돈이 없다.

Q :이 모델을 간단히 평가해 봅시다
A : 각각 고유 한 초점과 고유 한 강점이 있습니다. 중국 자연 언어 처리의 연구 및 개발에는 모든 당사자의 공동 노력이 필요합니다.

Q : 예측하는 다음 사전에 사기꾼 모델의 이름은 무엇입니까?
A : 아마도 Zoe라고 불립니다. Zoe : 언어 모델에서 제로 샷 임베딩

Q : RoBERTa-wwm-ext 모델에 대한 자세한 내용은?
A : 우리는 Roberta와 Bert-WWM의 장점을 통합 하여이 둘의 자연스러운 조합을 만듭니다. 이 디렉토리의 모델 간의 차이점은 다음과 같습니다.
1) WWM 전략을 사용하여 사전 훈련 단계에서 마스킹하십시오 (그러나 동적 마스킹은 없음)
2) 간단히 다음 문장 예측 (NSP) 손실을 취소하십시오
3) 더 이상 max_len = 128의 훈련 모드를 사용하지 않고 Max_len = 512를 직접 훈련 시키십시오. max_len = 512
4) 훈련 단계를 적절하게 확장하십시오

이 모델은 원래 Roberta 모델이 아니라 유사한 Roberta 교육 방법, 즉 Roberta와 같은 Bert로 훈련 된 Bert 모델 일뿐입니다. 따라서 다운 스트림 작업과 변환 모델을 사용할 때 Roberta 대신 Bert에서 처리하십시오.

인용하다

이 프로젝트의 자원이나 기술이 연구 작업에 도움이된다면 논문의 다음 논문을 참조하십시오.

선호 (Journal Explore) : https://ieeexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

또는 (컨퍼런스 버전) : https://www.aclweb.org/anthology/2020.findings-emnlp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

감사의 말

첫 번째 저자는 Google의 TPU Research Cloud 프로그램에 의해 부분적으로 자금을 지원받습니다.

부인 성명

이 프로젝트는 Google에서 공식적으로 출시 된 중국 Bert-WWM 모델이 아닙니다. 동시에이 프로젝트는 Harbin Institute of Technology 또는 IFLYTEK의 공식 제품이 아닙니다. 기술 보고서에 제시된 실험 결과는 특정 데이터 세트와 하이퍼 파라미터 조합에서 성능이 각 모델의 특성을 나타내지 않음을 보여줍니다. 임의의 숫자 씨앗과 컴퓨팅 장치로 인해 실험 결과가 변경 될 수 있습니다. 이 프로젝트의 내용은 기술적 연구 참조를위한 것이며 결론적으로 사용되지 않습니다. 사용자는 라이센스 범위 내에서 언제든지 모델을 사용할 수 있지만 프로젝트 컨텐츠 사용으로 인한 직간접 손실에 대해 책임을지지 않습니다.

우리를 따르십시오

Iflytek Joint Laboratory의 공식 WeChat 공식 계정을 따라 최신 기술 트렌드에 대해 알아보십시오.

질문 피드백

궁금한 점이 있으면 GitHub 문제로 제출하십시오.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-04-16
크기 15.63MB
출처 Github