MacBERT 다운로드 MacBERT 소스 코드 다운로드

MacBERT

기타 소스코드

1.0.0

다운로드

단순화 된 중국어 | 영어

이 디렉토리에는 ** MacBert 사전 훈련 된 모델 **이 포함되어 있으며, 여기에는 오류가 수정 된 마스크 언어 모델 (MAC) 사전 훈련 작업이 소개되어 "사전 훈련 다운 스트림 작업"불일치가 완화됩니다. MacBert는 다양한 NLP 작업에서 상당한 성능 향상을 달성했습니다.

중국 자연 언어 처리를위한 미리 훈련 된 모델 재 방문
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu
EMNLP 2020의 결과 에 출판

중국 맥버트 | 중국 전자 | 중국어 xlnet | 지식 증류 도구 텍스트 브루어 | 모델 절단 도구 TextPruner

HFL에 의해 출시 된 더 많은 리소스 : https://github.com/ymcui/hfl-anthology

소식

2023/3/28 오픈 소스 중국 라마 & 알파카 빅 모델.

2022/3/30은 새로운 미리 훈련 된 모델 Pert (https://github.com/ymcui/pert)를 발표했습니다

2021/12/17은 모델 자르기 도구 TextPruner : https://github.com/airaria/textpruner를 출시했습니다

2021/10/24는 소수 민족 언어에 대한 최초의 미리 훈련 된 모델을 출시했습니다 : https://github.com/ymcui/chinese-minority-plm

2021/7/21 "자연 언어 처리 : 미리 훈련 된 모델을 기반으로 한 방법"이 공식적으로 출판되었습니다.

2020/11/3 미리 훈련 된 중국 맥버트가 출시되었으며 사용 방법이 Bert와 동일합니다.

2020/9/15 논문 "중국 자연 언어 처리를위한 미리 훈련 된 모델 재검토"는 EMNLP의 발견에 의해 긴 기사로 고용되었습니다.

장	설명하다
소개	맥버트에 대한 간단한 소개
다운로드	MacBert를 다운로드하십시오
빠른 로딩	변압기를 사용하는 방법은 모델을 빠르게로드합니다
기준 효과	중국 NLP 작업에 미치는 영향
FAQ	자주 묻는 질문
인용하다	기사 인용 정보

소개

MacBert 는 개선 된 버전의 BERT로 오류 수정 된 마스크 언어 모델 (MLM, MAC) 사전 훈련 작업을 소개하여 "사전 훈련 다운 스트림 작업"문제를 완화시킵니다.

마스크 언어 모델 (MLM)에서 [마스크] 태그가 마스킹을 위해 도입되었지만 [마스크] 태그는 다운 스트림 작업에 나타나지 않습니다. MacBert에서는 비슷한 단어를 사용하여 [마스크] 태그를 대체합니다 . 동의어 툴킷 (Wang and Hu, 2017) 도구에 의해서도 비슷한 단어가 얻어지며 알고리즘은 Word2Vec (Mikolov et al., 2013)에 따라 계산됩니다. 동시에, 우리는 또한 전체 단어 마스킹 (WWM)과 N- 그램 마스킹 기술을 도입했습니다. n- 그램을 마스킹 할 때, 우리는 n-gram의 각 단어에 대해 비슷한 단어를 찾습니다. 대체 할 비슷한 단어가 없으면 교체에 임의의 단어를 사용합니다.

다음은 훈련 샘플 예입니다.

	예
원래 문장	우리는 언어 모델을 사용하여 다음 단어의 확률을 예측합니다.
MLM	우리는 다음 단어의 전문가 [m] ## di ## ct에서 [m] ## di ## ct를 사용합니다.
전체 단어 마스킹	우리는 다음 단어의 [m]에서 [m] [m] [m]에서 언어를 사용합니다.
N- 그램 마스킹	우리는 [m] [m] [m]에서 [m] [m] [m] [m] [m] 다음 단어를 사용합니다.
수정으로서 MLM	우리는 다음 단어의 po ## si ## 능력을 ca ## lc ##에 사용합니다.

MacBert의 주요 프레임 워크는 BERT와 정확히 동일하므로 기존 코드를 수정하지 않고 원활한 전환을 허용합니다.

자세한 내용은 문서를 참조하십시오 : 중국 자연 언어 처리를위한 미리 훈련 된 모델 재 방문

다운로드

주로 TensorFlow 1.X 버전에 대한 모델 다운로드를 제공합니다.

MacBERT-large, Chinese : 24 층, 1024- 히든, 16 개의 헤드, 324m 매개 변수
MacBERT-base, Chinese : 12 층, 768- 히든, 12 헤드, 102m 매개 변수

모델	구글 드라이브	바이두 디스크	크기
`MacBERT-large, Chinese`	텐서 플로	텐서 플로우 (PW : ZEJF)	1.2g
`MacBERT-base, Chinese`	텐서 플로	텐서 플로우 (PW : 61GA)	383m

pytorch/tensorflow2 버전

Pytorch 또는 Tensorflow2 버전의 모델이 필요한 경우 :

변환기를 사용하여 변환하십시오
또는 https://huggingface.co/hfl에서 다운로드하십시오

단계 다운로드 (GIT를 사용하여 전체 디렉토리를 직접 복제 할 수도 있습니다) :

https://huggingface.co/hfl을 입력 한 후 Macbert-base : https://huggingface.co/hfl/chinese-macbert-base와 같은 Macbert 모델을 선택하십시오.
"파일 및 버전"탭을 선택하십시오
다운로드 해야하는 빈/JSON 및 기타 파일을 클릭하십시오.

빠른 로딩

MacBert 모델은 변압기를 통해 빠르게로드 할 수 있습니다.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

참고 : Berttokenizer 및 BertModel을 사용하여 MacBert 모델을로드하십시오!

해당 MODEL_NAME 은 다음과 같습니다.

원본 모델	모델 호출 이름
맥버트-라지	HFL/중국-맥버트-라지
맥버트베이스	HFL/중국-맥버트베이스

기준 효과

다음은 6 개의 다운 스트림 작업에 대한 MacBert의 효과를 표시합니다 (자세한 내용은 논문 참조).

CMRC 2018 (Cui et al., 2019) : 추출 된 독해 (단순화 된 중국어)
DRCD (Shao et al., 2018) : 추출 된 독해 이해 (전통 중국어)
XNLI (Conneau et al., 2018) : 자연어 추론
chnsenticorp : 정서적 분류
LCQMC (Liu et al., 2018) : 문장 쌍 일치
BQ 코퍼스 (Chen et al., 2018) : 문장 쌍 일치

결과의 안정성을 보장하기 위해, 우리는 평균 값 (괄호 안)과 독립의 최대 값을 동시에 10 번 실행합니다.

CMRC 2018

CMRC 2018 데이터 세트는 Harbin Institute of Technology의 공동 실험실에서 발표 한 중국 기계 판독 이해 데이터입니다. 주어진 질문에 따르면, 시스템은 분대와 동일한 형태로 챕터에서 답으로 조각을 추출해야합니다. 평가 지표는 다음과 같습니다. EM / F1

모델	개발	시험	도전	#Params
버트베이스	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)	102m
Bert-WWM	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)	102m
Bert-WWM-EXT	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)	102m
Roberta-WWM-EXT	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)	102m
전자 기반	68.4 (68.0) / 84.8 (84.6)	73.1 (72.7) / 87.1 (86.9)	22.6 (21.7) / 45.0 (43.8)	102m
맥버트베이스	68.5 (67.3) / 87.9 (87.1)	73.2 (72.4) / 89.5 (89.2)	30.2 (26.4) / 54.0 (52.2)	102m
전기	69.1 (68.2) / 85.2 (84.5)	73.9 (72.8) / 87.1 (86.6)	23.0 (21.6) / 44.2 (43.2)	324m
Roberta-WWM-EXT-LARGE	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)	324m
맥버트-라지	70.7 (68.6) / 88.9 (88.2)	74.8 (73.2) / 90.7 (90.1)	31.9 (29.6) / 60.2 (57.6)	324m

DRCD

DRCD 데이터 세트는 중국 대만 델타 리서치 인스티튜트 (Delta Research Institute)가 발표했습니다. 그 형태는 분대와 동일하며 전통적인 중국어를 기반으로 한 추출 된 독해 이해 데이터 세트입니다. 전통적인 중국어는 어니에서 제거되므로 전통적인 중국 데이터에서 Ernie (또는 단순화 된 중국어로 변환 한 다음 처리)를 사용하는 것이 좋습니다. 평가 지표는 다음과 같습니다. EM / F1

모델	개발	시험	#Params
버트베이스	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)	102m
Bert-WWM	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)	102m
Bert-WWM-EXT	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)	102m
Roberta-WWM-EXT	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)	102m
전자 기반	87.5 (87.0) / 92.5 (92.3)	86.9 (86.6) / 91.8 (91.7)	102m
맥버트베이스	89.4 (89.2) / 94.3 (94.1)	89.5 (88.7) / 93.8 (93.5)	102m
전기	88.8 (88.7) / 93.3 (93.2)	88.8 (88.2) / 93.6 (93.2)	324m
Roberta-WWM-EXT-LARGE	89.6 (89.1) / 94.8 (94.4)	89.6 (88.9) / 94.5 (94.1)	324m
맥버트-라지	91.2 (90.8) / 95.6 (95.3)	91.7 (90.9) / 95.6 (95.3)	324m

xnli

자연 언어 추론 작업에서 XNLI 데이터를 채택합니다. XNLI 데이터는 텍스트를 세 가지 범주의 entailment , neutral 및 contradictory 로 나누어야합니다. 평가 표시기는 정확도입니다

모델	개발	시험	#Params
버트베이스	77.8 (77.4)	77.8 (77.5)	102m
Bert-WWM	79.0 (78.4)	78.2 (78.0)	102m
Bert-WWM-EXT	79.4 (78.6)	78.7 (78.3)	102m
Roberta-WWM-EXT	80.0 (79.2)	78.8 (78.3)	102m
전자 기반	77.9 (77.0)	78.4 (77.8)	102m
맥버트베이스	80.3 (79.7)	79.3 (78.8)	102m
전기	81.5 (80.8)	81.0 (80.9)	324m
Roberta-WWM-EXT-LARGE	82.1 (81.3)	81.2 (80.6)	324m
맥버트-라지	82.4 (81.8)	81.3 (80.6)	324m

chnsenticorp

감정 분석 작업에서 이진 감정 분류 데이터 세트 chnsenticorp. 평가 표시기는 정확도입니다

모델	개발	시험	#Params
버트베이스	94.7 (94.3)	95.0 (94.7)	102m
Bert-WWM	95.1 (94.5)	95.4 (95.0)	102m
Bert-WWM-EXT	95.4 (94.6)	95.3 (94.7)	102m
Roberta-WWM-EXT	95.0 (94.6)	95.6 (94.8)	102m
전자 기반	93.8 (93.0)	94.5 (93.5)	102m
맥버트베이스	95.2 (94.8)	95.6 (94.9)	102m
전기	95.2 (94.6)	95.3 (94.8)	324m
Roberta-WWM-EXT-LARGE	95.8 (94.9)	95.8 (94.9)	324m
맥버트-라지	95.7 (95.0)	95.9 (95.1)	324m

LCQMC

LCQMC는 Harbin Technology Institute of Technology Shenzhen 대학원의 지능형 컴퓨팅 연구 센터에서 발표했습니다. 평가 표시기는 정확도입니다

모델	개발	시험	#Params
버트	89.4 (88.4)	86.9 (86.4)	102m
Bert-WWM	89.4 (89.2)	87.0 (86.8)	102m
Bert-WWM-EXT	89.6 (89.2)	87.1 (86.6)	102m
Roberta-WWM-EXT	89.0 (88.7)	86.4 (86.1)	102m
전자 기반	90.2 (89.8)	87.6 (87.3)	102m
맥버트베이스	89.5 (89.3)	87.0 (86.5)	102m
전기	90.7 (90.4)	87.3 (87.2)	324m
Roberta-WWM-EXT-LARGE	90.4 (90.0)	87.0 (86.8)	324m
맥버트-라지	90.6 (90.3)	87.6 (87.1)	324m

BQ 코퍼스

BQ 코퍼스는 Harbin Technology Institute of Technology Shenzhen 대학원의 지능형 컴퓨팅 연구 센터에서 발표되며 은행 분야의 데이터 세트입니다. 평가 표시기는 정확도입니다

모델	개발	시험	#Params
버트	86.0 (85.5)	84.8 (84.6)	102m
Bert-WWM	86.1 (85.6)	85.2 (84.9)	102m
Bert-WWM-EXT	86.4 (85.5)	85.3 (84.8)	102m
Roberta-WWM-EXT	86.0 (85.4)	85.0 (84.6)	102m
전자 기반	84.8 (84.7)	84.5 (84.0)	102m
맥버트베이스	86.0 (85.5)	85.2 (84.9)	102m
전기	86.7 (86.2)	85.1 (84.8)	324m
Roberta-WWM-EXT-LARGE	86.3 (85.7)	85.8 (84.9)	324m
맥버트-라지	86.2 (85.7)	85.6 (85.0)	324m

FAQ

Q1 : MacBert의 영어 버전이 있습니까?

A1 : 현재 없음.

Q2 : MacBert 사용 방법?

A2 : BERT를 사용하는 것처럼 모델 파일을 교체하고 사용하도록 구성하면됩니다. 물론 모델 (즉, 변압기 초기화 섹션)을로드하여 다른 사전에 걸린 모델을 추가로 훈련시킬 수도 있습니다.

Q3 : MacBert 교육 코드를 제공 할 수 있습니까?

A3 : 아직 오픈 소스 계획이 없습니다.

Q4 : 오픈 소스 사전 훈련 된 코퍼스가 될 수 있습니까?

A4 : 그에 따라 재개 할 권리가 없기 때문에 오픈 소스 훈련 코퍼스를 열 수 없습니다. Github에는 오픈 소스 중국 코퍼스 자원이 있으며, 이는 더 많은 관심을 기울이고 사용할 수 있습니다.

Q5 : 더 큰 코퍼스와 오픈 소스에서 Macbert를 훈련시킬 계획이 있습니까?

A5 : 당분간 계획이 없습니다.

인용하다

이 프로젝트의 리소스가 연구에 도움이된다면 다음 논문을 인용하십시오.

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

또는:

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

감사의 말

컴퓨팅 리소스 지원을 위해 Google TPU Research Cloud (TFRC)에 감사드립니다.

질문 피드백

궁금한 점이 있으면 GitHub 문제로 제출하십시오.

질문을 제출하기 전에 FAQ가 문제를 해결할 수 있는지 확인하십시오. 또한 이전 문제가 문제를 해결할 수 있는지 확인하는 것이 좋습니다.
이 프로젝트와 관련이없는 반복적 인 재생산 및 문제는 [안정적인 버전] (Stale · Github Marketplace)에 의해 처리됩니다.
우리는 가능한 한 많은 질문에 답할 것이지만 귀하의 질문에 대한 답변을 보장 할 수는 없습니다.
정중하게 질문하고 조화로운 토론 커뮤니티를 구축하십시오.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-04-18
크기 134.22KB
출처 Github

MacBERT

소식

목차

소개

다운로드

pytorch/tensorflow2 버전

빠른 로딩

기준 효과

CMRC 2018

DRCD

xnli

chnsenticorp

LCQMC

BQ 코퍼스

FAQ

인용하다

감사의 말

질문 피드백

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express