Chinese BERT wwm下載 - Chinese BERT wwm源代碼下載

Chinese BERT wwm

其他源碼

1.0.0

下載

Chinese-LLaMA-Alpaca-2 v1.0版本已正式發布！

中文說明| English

在自然語言處理領域中，預訓練語言模型（Pre-trained Language Models）已成為非常重要的基礎技術。為了進一步促進中文信息處理的研究發展，我們發布了基於全詞掩碼（Whole Word Masking）技術的中文預訓練模型BERT-wwm，以及與此技術密切相關的模型：BERT-wwm-ext，RoBERTa-wwm-ext，RoBERTa-wwm-ext-large, RBT3, RBTL3等。

Pre-Training with Whole Word Masking for Chinese BERT
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang
Published in IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)

本項目基於谷歌官方BERT：https://github.com/google-research/bert

查看更多哈工大訊飛聯合實驗室（HFL）發布的資源：https://github.com/ymcui/HFL-Anthology

新聞

2023/3/28 開源了中文LLaMA&Alpaca大模型，可快速在PC上部署體驗，查看：https://github.com/ymcui/Chinese-LLaMA-Alpaca

2023/3/9 我們提出了一種圖文多模態預訓練模型VLE，查看：https://github.com/iflytek/VLE

2022/11/15 我們提出了中文小型預訓練模型MiniRBT。查看：https://github.com/iflytek/MiniRBT

2022/10/29 我們提出了一種融合語言學信息的預訓練模型LERT。查看：https://github.com/ymcui/LERT

2022/3/30 我們開源了一種新預訓練模型PERT。查看：https://github.com/ymcui/PERT

歷史新聞

2021/12/17 哈工大訊飛聯合實驗室推出模型裁剪工具包TextPruner。查看：https://github.com/airaria/TextPruner

2021/10/24 哈工大訊飛聯合實驗室發布面向少數民族語言的預訓練模型CINO。查看：https://github.com/ymcui/Chinese-Minority-PLM

2021/7/21 由哈工大SCIR多位學者撰寫的《自然語言處理：基於預訓練模型的方法》已出版，歡迎大家選購。

2021/1/27 所有模型已支持TensorFlow 2，請通過transformers庫進行調用或下載。 https://huggingface.co/hfl

2020/9/15 我們的論文"Revisiting Pre-Trained Models for Chinese Natural Language Processing"被Findings of EMNLP錄用為長文。

2020/8/27 哈工大訊飛聯合實驗室在通用自然語言理解評測GLUE中榮登榜首，查看GLUE榜單，新聞。

2020/3/23 本目錄發布的模型已接入飛槳PaddleHub，查看快速加載

2020/3/11 為了更好地了解需求，邀請您填寫調查問卷，以便為大家提供更好的資源。

2020/2/26 哈工大訊飛聯合實驗室發布知識蒸餾工具TextBrewer

2020/1/20 祝大家鼠年大吉，本次發布了RBT3、RBTL3（3層RoBERTa-wwm-ext-base/large），查看小參數量模型

2019/12/19 本目錄發布的模型已接入Huggingface-Transformers，查看快速加載

2019/10/14 發布蘿蔔塔RoBERTa-wwm-ext-large模型，查看中文模型下載

2019/9/10 發布蘿蔔塔RoBERTa-wwm-ext模型，查看中文模型下載

2019/7/30 提供了在更大通用語料（5.4B詞數）上訓練的中文BERT-wwm-ext模型，查看中文模型下載

2019/6/20 初始版本，模型已可通過谷歌下載，國內云盤也已上傳完畢，查看中文模型下載

內容導引

章節	描述
簡介	介紹BERT-wwm基本原理
中文模型下載	提供了BERT-wwm的下載地址
快速加載	介紹瞭如何使用?Transformers、PaddleHub快速加載模型
模型對比	提供了本目錄中模型的參數對比
中文基線系統效果	列舉了部分中文基線系統效果
小參數量模型	列舉了小參數量模型（3層Transformer）的效果
使用建議	提供了若干使用中文預訓練模型的建議
英文模型下載	谷歌官方的英文BERT-wwm下載地址
FAQ	常見問題答疑
引用	本目錄的技術報告

簡介

全词Mask Masking (wwm) ，暫翻譯為全詞Mask或整词Mask ，是谷歌在2019年5月31日發布的一項BERT的升級版本，主要更改了原預訓練階段的訓練樣本生成策略。簡單來說，原有基於WordPiece的分詞方式會把一個完整的詞切分成若干個子詞，在生成訓練樣本時，這些被分開的子詞會隨機被mask。在全词Mask中，如果一個完整的詞的部分WordPiece子詞被mask，則同屬該詞的其他部分也會被mask，即全词Mask 。

需要注意的是，這裡的mask指的是廣義的mask（替換成[MASK]；保持原詞彙；隨機替換成另外一個詞），並非只局限於單詞替換成[MASK]標籤的情況。更詳細的說明及樣例請參考：#4

同理，由於谷歌官方發布的BERT-base, Chinese中，中文是以字為粒度進行切分，沒有考慮到傳統NLP中的中文分詞（CWS）。我們將全詞Mask的方法應用在了中文中，使用了中文維基百科（包括簡體和繁體）進行訓練，並且使用了哈工大LTP作為分詞工具，即對組成同一個詞的漢字全部進行Mask。

下述文本展示了全词Mask的生成樣例。注意：為了方便理解，下述例子中只考慮替換成[MASK]標籤的情況。

說明	樣例
原始文本	使用語言模型來預測下一個詞的probability。
分詞文本	使用語言模型來預測下一個詞的probability 。
原始Mask輸入	使用語言[MASK] 型來[MASK] 測下一個詞的pro [MASK] ##lity 。
全詞Mask輸入	使用語言[MASK] [MASK] 來[MASK] [MASK] 下一個詞的[MASK] [MASK] [MASK] 。

中文模型下載

本目錄中主要包含base模型，故我們不在模型簡稱中標註base字樣。對於其他大小的模型會標註對應的標記（例如large）。

BERT-large模型：24-layer, 1024-hidden, 16-heads, 330M parameters
BERT-base模型：12-layer, 768-hidden, 12-heads, 110M parameters

注意：開源版本不包含MLM任務的權重；如需做MLM任務，請使用額外數據進行二次預訓練（和其他下游任務一樣）。

模型簡稱	語料	Google下載	百度網盤下載
`RBT6, Chinese`	EXT數據^[1]	-	TensorFlow（密碼hniy）
`RBT4, Chinese`	EXT數據^[1]	-	TensorFlow（密碼sjpt）
`RBTL3, Chinese`	EXT數據^[1]	TensorFlow PyTorch	TensorFlow（密碼s6cu）
`RBT3, Chinese`	EXT數據^[1]	TensorFlow PyTorch	TensorFlow（密碼5a57）
`RoBERTa-wwm-ext-large, Chinese`	EXT數據^[1]	TensorFlow PyTorch	TensorFlow（密碼dqqe）
`RoBERTa-wwm-ext, Chinese`	EXT數據^[1]	TensorFlow PyTorch	TensorFlow（密碼vybq）
`BERT-wwm-ext, Chinese`	EXT數據^[1]	TensorFlow PyTorch	TensorFlow（密碼wgnt）
`BERT-wwm, Chinese`	中文維基	TensorFlow PyTorch	TensorFlow（密碼qfh8）
`BERT-base, Chinese` ^Google	中文維基	Google Cloud	-
`BERT-base, Multilingual Cased` ^Google	多語種維基	Google Cloud	-
`BERT-base, Multilingual Uncased` ^Google	多語種維基	Google Cloud	-

[1] EXT數據包括：中文維基百科，其他百科、新聞、問答等數據，總詞數達5.4B。

PyTorch版本

如需PyTorch版本，

1）請自行通過?Transformers提供的轉換腳本進行轉換。

2）或者通過huggingface官網直接下載PyTorch版權重：https://huggingface.co/hfl

下載方法：點擊任意需要下載的模型→ 選擇"Files and versions"選項卡→ 下載對應的模型文件。

使用說明

中國大陸境內建議使用百度網盤下載點，境外用戶建議使用谷歌下載點，base模型文件大小約400M 。以TensorFlow版BERT-wwm, Chinese為例，下載完畢後對zip文件進行解壓得到：

 chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

其中bert_config.json和vocab.txt與穀歌原版BERT-base, Chinese完全一致。 PyTorch版本則包含pytorch_model.bin , bert_config.json , vocab.txt文件。

快速加載

使用Huggingface-Transformers

依託於?transformers庫，可輕鬆調用以上模型。

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

注意：本目錄中的所有模型均使用BertTokenizer以及BertModel加載，請勿使用RobertaTokenizer/RobertaModel！

其中MODEL_NAME對應列表如下：

模型名	MODEL_NAME
RoBERTa-wwm-ext-large	hfl/chinese-roberta-wwm-ext-large
RoBERTa-wwm-ext	hfl/chinese-roberta-wwm-ext
BERT-wwm-ext	hfl/chinese-bert-wwm-ext
BERT-wwm	hfl/chinese-bert-wwm
RBT3	hfl/rbt3
RBTL3	hfl/rbtl3

使用PaddleHub

依托PaddleHub，只需一行代碼即可完成模型下載安裝，十餘行代碼即可完成文本分類、序列標註、閱讀理解等任務。

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

其中MODULE_NAME對應列表如下：

模型名	MODULE_NAME
RoBERTa-wwm-ext-large	chinese-roberta-wwm-ext-large
RoBERTa-wwm-ext	chinese-roberta-wwm-ext
BERT-wwm-ext	chinese-bert-wwm-ext
BERT-wwm	chinese-bert-wwm
RBT3	rbt3
RBTL3	rbtl3

模型對比

針對大家比較關心的一些模型細節進行匯總如下。

-	BERT ^Google	BERT-wwm	BERT-wwm-ext	RoBERTa-wwm-ext	RoBERTa-wwm-ext-large
Masking	WordPiece	WWM ^[1]	WWM	WWM	WWM
Type	base	base	base	base	large
Data Source	wiki	wiki	wiki+ext ^[2]	wiki+ext	wiki+ext
Training Tokens #	0.4B	0.4B	5.4B	5.4B	5.4B
Device	TPU Pod v2	TPU v3	TPU v3	TPU v3	TPU Pod v3-32 ^[3]
Training Steps	?	100K ^MAX128 +100K ^MAX512	1M ^MAX128 +400K ^MAX512	1M ^MAX512	2M ^MAX512
Batch Size	?	2,560 / 384	2,560 / 384	384	512
Optimizer	AdamW	LAMB	LAMB	AdamW	AdamW
Vocabulary	21,128	~BERT ^[4]	~BERT	~BERT	~BERT
Init Checkpoint	Random Init	~BERT	~BERT	~BERT	Random Init

[1] WWM = Whole Word Masking
[2] ext = extended data
[3] TPU Pod v3-32 (512G HBM)等價於4個TPU v3 (128G HBM)
[4] ~BERT表示繼承谷歌原版中文BERT的屬性

中文基線系統效果

為了對比基線效果，我們在以下幾個中文數據集上進行了測試，包括句子级和篇章级任務。對於BERT-wwm-ext 、 RoBERTa-wwm-ext 、 RoBERTa-wwm-ext-large ，我們沒有進一步調整最佳學習率，而是直接使用了BERT-wwm的最佳學習率。

最佳學習率：

模型	BERT	ERNIE	BERT-wwm*
CMRC 2018	3e-5	8e-5	3e-5
DRCD	3e-5	8e-5	3e-5
CJRC	4e-5	8e-5	4e-5
XNLI	3e-5	5e-5	3e-5
ChnSentiCorp	2e-5	5e-5	2e-5
LCQMC	2e-5	3e-5	2e-5
BQ Corpus	3e-5	5e-5	3e-5
THUCNews	2e-5	5e-5	2e-5

*代表所有wwm系列模型(BERT-wwm, BERT-wwm-ext, RoBERTa-wwm-ext, RoBERTa-wwm-ext-large)

下面僅列舉部分結果，完整結果請查看我們的技術報告。

CMRC 2018 ：篇章片段抽取型閱讀理解（簡體中文）
DRCD ：篇章片段抽取型閱讀理解（繁體中文）
CJRC : 法律閱讀理解（簡體中文）
XNLI ：自然語言推斷
ChnSentiCorp ：情感分析
LCQMC ：句對匹配
BQ Corpus ：句對匹配
THUCNews ：篇章級文本分類

注意：為了保證結果的可靠性，對於同一模型，我們運行10遍（不同隨機種子），匯報模型性能的最大值和平均值（括號內為平均值）。不出意外，你運行的結果應該很大概率落在這個區間內。

評測指標中，括號內表示平均值，括號外表示最大值。

簡體中文閱讀理解：CMRC 2018

CMRC 2018數據集是哈工大訊飛聯合實驗室發布的中文機器閱讀理解數據。根據給定問題，系統需要從篇章中抽取出片段作為答案，形式與SQuAD相同。評測指標為：EM / F1

模型	開發集	測試集	挑戰集
BERT	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)
ERNIE	65.4 (64.3) / 84.7 (84.2)	69.4 (68.2) / 86.6 (86.1)	19.6 (17.0) / 44.3 (42.8)
BERT-wwm	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)
BERT-wwm-ext	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)
RoBERTa-wwm-ext	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)
RoBERTa-wwm-ext-large	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)

繁體中文閱讀理解：DRCD

DRCD數據集由中國台灣台達研究院發布，其形式與SQuAD相同，是基於繁體中文的抽取式閱讀理解數據集。由於ERNIE中去除了繁體中文字符，故不建議在繁體中文數據上使用ERNIE（或轉換成簡體中文後再處理）。評測指標為：EM / F1

模型	開發集	測試集
BERT	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)
ERNIE	73.2 (73.0) / 83.9 (83.8)	71.9 (71.4) / 82.5 (82.3)
BERT-wwm	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)
BERT-wwm-ext	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)
RoBERTa-wwm-ext	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)
RoBERTa-wwm-ext-large	89.6 (89.1) / 94.8 (94.4)	89.6 (88.9) / 94.5 (94.1)

司法閱讀理解：CJRC

CJRC數據集是哈工大訊飛聯合實驗室發布的面向司法領域的中文機器閱讀理解數據。需要注意的是實驗中使用的數據並非官方發布的最終數據，結果僅供參考。評測指標為：EM / F1

模型	開發集	測試集
BERT	54.6 (54.0) / 75.4 (74.5)	55.1 (54.1) / 75.2 (74.3)
ERNIE	54.3 (53.9) / 75.3 (74.6)	55.0 (53.9) / 75.0 (73.9)
BERT-wwm	54.7 (54.0) / 75.2 (74.8)	55.1 (54.1) / 75.4 (74.4)
BERT-wwm-ext	55.6 (54.8) / 76.0 (75.3)	55.6 (54.9) / 75.8 (75.0)
RoBERTa-wwm-ext	58.7 (57.6) / 79.1 (78.3)	59.0 (57.8) / 79.0 (78.0)
RoBERTa-wwm-ext-large	62.1 (61.1) / 82.4 (81.6)	62.4 (61.4) / 82.2 (81.0)

自然語言推斷：XNLI

在自然語言推斷任務中，我們採用了XNLI數據，需要將文本分成三個類別： entailment ， neutral ， contradictory 。評測指標為：Accuracy

模型	開發集	測試集
BERT	77.8 (77.4)	77.8 (77.5)
ERNIE	79.7 (79.4)	78.6 (78.2)
BERT-wwm	79.0 (78.4)	78.2 (78.0)
BERT-wwm-ext	79.4 (78.6)	78.7 (78.3)
RoBERTa-wwm-ext	80.0 (79.2)	78.8 (78.3)
RoBERTa-wwm-ext-large	82.1 (81.3)	81.2 (80.6)

情感分析：ChnSentiCorp

在情感分析任務中，二分類的情感分類數據集ChnSentiCorp。評測指標為：Accuracy

模型	開發集	測試集
BERT	94.7 (94.3)	95.0 (94.7)
ERNIE	95.4 (94.8)	95.4 (95.3)
BERT-wwm	95.1 (94.5)	95.4 (95.0)
BERT-wwm-ext	95.4 (94.6)	95.3 (94.7)
RoBERTa-wwm-ext	95.0 (94.6)	95.6 (94.8)
RoBERTa-wwm-ext-large	95.8 (94.9)	95.8 (94.9)

句對分類：LCQMC, BQ Corpus

以下兩個數據集均需要將一個句對進行分類，判斷兩個句子的語義是否相同（二分類任務）。

LCQMC

LCQMC由哈工大深圳研究生院智能計算研究中心發布。評測指標為：Accuracy

模型	開發集	測試集
BERT	89.4 (88.4)	86.9 (86.4)
ERNIE	89.8 (89.6)	87.2 (87.0)
BERT-wwm	89.4 (89.2)	87.0 (86.8)
BERT-wwm-ext	89.6 (89.2)	87.1 (86.6)
RoBERTa-wwm-ext	89.0 (88.7)	86.4 (86.1)
RoBERTa-wwm-ext-large	90.4 (90.0)	87.0 (86.8)

BQ Corpus

BQ Corpus由哈工大深圳研究生院智能計算研究中心發布，是面向銀行領域的數據集。評測指標為：Accuracy

模型	開發集	測試集
BERT	86.0 (85.5)	84.8 (84.6)
ERNIE	86.3 (85.5)	85.0 (84.6)
BERT-wwm	86.1 (85.6)	85.2 (84.9)
BERT-wwm-ext	86.4 (85.5)	85.3 (84.8)
RoBERTa-wwm-ext	86.0 (85.4)	85.0 (84.6)
RoBERTa-wwm-ext-large	86.3 (85.7)	85.8 (84.9)

篇章級文本分類：THUCNews

篇章級文本分類任務我們選用了由清華大學自然語言處理實驗室發布的新聞數據集THUCNews 。我們採用的是其中一個子集，需要將新聞分成10個類別中的一個。評測指標為：Accuracy

模型	開發集	測試集
BERT	97.7 (97.4)	97.8 (97.6)
ERNIE	97.6 (97.3)	97.5 (97.3)
BERT-wwm	98.0 (97.6)	97.8 (97.6)
BERT-wwm-ext	97.7 (97.5)	97.7 (97.5)
RoBERTa-wwm-ext	98.3 (97.9)	97.7 (97.5)
RoBERTa-wwm-ext-large	98.3 (97.7)	97.8 (97.6)

小參數量模型

以下是在若干NLP任務上的實驗效果，表中只提供測試集結果對比。

模型	CMRC 2018	DRCD	XNLI	CSC	LCQMC	BQ	平均	參數量
RoBERTa-wwm-ext-large	74.2 / 90.6	89.6 / 94.5	81.2	95.8	87.0	85.8	87.335	325M
RoBERTa-wwm-ext	72.6 / 89.4	85.6 / 92.0	78.8	95.6	86.4	85.0	85.675	102M
RBTL3	63.3 / 83.4	77.2 / 85.6	74.0	94.2	85.1	83.6	80.800	61M (59.8%)
RBT3	62.2 / 81.8	75.0 / 83.9	72.3	92.8	85.1	83.3	79.550	38M (37.3%)

效果相對值比較：

模型	CMRC 2018	DRCD	XNLI	CSC	LCQMC	BQ	平均	分類平均
RoBERTa-wwm-ext-large	102.2% / 101.3%	104.7% / 102.7%	103.0%	100.2%	100.7%	100.9%	101.9%	101.2%
RoBERTa-wwm-ext	100% / 100%	100% / 100%	100%	100%	100%	100%	100%	100%
RBTL3	87.2% / 93.3%	90.2% / 93.0%	93.9%	98.5%	98.5%	98.4%	94.3%	97.35%
RBT3	85.7% / 91.5%	87.6% / 91.2%	91.8%	97.1%	98.5%	98.0%	92.9%	96.35%

參數量是以XNLI分類任務為基准進行計算
括號內參數量百分比以原始base模型（即RoBERTa-wwm-ext）為基準
RBT3：由RoBERTa-wwm-ext 3層進行初始化，繼續訓練了1M步
RBTL3：由RoBERTa-wwm-ext-large 3層進行初始化，繼續訓練了1M步
RBT的名字是RoBERTa三個音節首字母組成，L代表large模型
直接使用RoBERTa-wwm-ext-large前三層進行初始化並進行下游任務的訓練將顯著降低效果，例如在CMRC 2018上測試集僅能達到42.9/65.3，而RBTL3能達到63.3/83.4

歡迎使用效果更優的中文小型預訓練模型MiniRBT：https://github.com/iflytek/MiniRBT

使用建議

初始學習率是非常重要的一個參數（不論是BERT還是其他模型），需要根據目標任務進行調整。
ERNIE的最佳學習率和BERT / BERT-wwm相差較大，所以使用ERNIE時請務必調整學習率（基於以上實驗結果， ERNIE需要的初始學習率較高）。
由於BERT / BERT-wwm使用了維基百科數據進行訓練，故它們對正式文本建模較好；而ERNIE使用了額外的百度貼吧、知道等網絡數據，它對非正式文本（例如微博等）建模有優勢。
在長文本建模任務上，例如閱讀理解、文檔分類， BERT和BERT-wwm的效果較好。
如果目標任務的數據和預訓練模型的領域相差較大，請在自己的數據集上進一步做預訓練。
如果要處理繁體中文數據，請使用BERT或者BERT-wwm 。因為我們發現ERNIE的詞表中幾乎沒有繁體中文。

英文模型下載

為了方便大家下載，順便帶上谷歌官方發布的英文BERT-large (wwm)模型：

BERT-Large, Uncased (Whole Word Masking) : 24-layer, 1024-hidden, 16-heads, 340M parameters
BERT-Large, Cased (Whole Word Masking) : 24-layer, 1024-hidden, 16-heads, 340M parameters

FAQ

Q: 這個模型怎麼用？
A: 谷歌發布的中文BERT怎麼用，這個就怎麼用。文本不需要經過分詞，wwm只影響預訓練過程，不影響下游任務的輸入。

Q: 請問有預訓練代碼提供嗎？
A: 很遺憾，我不能提供相關代碼，實現可以參考#10 和#13。

Q: 某某數據集在哪裡下載？
A: 請查看data目錄，任務目錄下的README.md標明了數據來源。對於有版權的內容，請自行搜索或與原作者聯繫獲取數據。

Q: 會有計劃發布更大模型嗎？比如BERT-large-wwm版本？
A: 如果我們從實驗中得到更好效果，會考慮發布更大的版本。

Q: 你騙人！無法復現結果?
A: 在下游任務中，我們採用了最簡單的模型。比如分類任務，我們直接使用的是run_classifier.py （谷歌提供）。如果無法達到平均值，說明實驗本身存在bug，請仔細排查。最高值存在很多隨機因素，我們無法保證能夠達到最高值。另外一個公認的因素：降低batch size會顯著降低實驗效果，具體可參考BERT，XLNet目錄的相關Issue。

Q: 我訓出來比你更好的結果！
A: 恭喜你。

Q: 訓練花了多長時間，在什麼設備上訓練的？
A: 訓練是在谷歌TPU v3版本（128G HBM）完成的，訓練BERT-wwm花費約1.5天，BERT-wwm-ext則需要數週時間（使用了更多數據需要迭代更充分）。需要注意的是，預訓練階段我們使用的是LAMB Optimizer （TensorFlow版本實現）。該優化器對大的batch有良好的支持。在微調下游任務時，我們採用的是BERT默認的AdamWeightDecayOptimizer 。

Q: ERNIE是誰？
A: 本項目中的ERNIE模型特指百度公司提出的ERNIE，而非清華大學在ACL 2019上發表的ERNIE。

Q: BERT-wwm的效果不是在所有任務都很好
A: 本項目的目的是為研究者提供多元化的預訓練模型，自由選擇BERT，ERNIE，或者是BERT-wwm。我們僅提供實驗數據，具體效果如何還是得在自己的任務中不斷嘗試才能得出結論。多一個模型，多一種選擇。

Q: 為什麼有些數據集上沒有試？
A: 很坦率的說： 1）沒精力找更多的數據； 2）沒有必要； 3）沒有鈔票；

Q: 簡單評價一下這幾個模型
A: 各有側重，各有千秋。中文自然語言處理的研究發展需要多方共同努力。

Q: 你預測下一個預訓練模型叫什麼？
A: 可能叫ZOE吧，ZOE: Zero-shOt Embeddings from language model

Q: 更多關於RoBERTa-wwm-ext模型的細節？
A: 我們集成了RoBERTa和BERT-wwm的優點，對兩者進行了一個自然的結合。和之前本目錄中的模型之間的區別如下:
1）預訓練階段採用wwm策略進行mask（但沒有使用dynamic masking）
2）簡單取消Next Sentence Prediction（NSP）loss
3）不再採用先max_len=128然後再max_len=512的訓練模式，直接訓練max_len=512
4）訓練步數適當延長

需要注意的是，該模型並非原版RoBERTa模型，只是按照類似RoBERTa訓練方式訓練出的BERT模型，即RoBERTa-like BERT。故在下游任務使用、模型轉換時請按BERT的方式處理，而非RoBERTa。

引用

如果本項目中的資源或技術對你的研究工作有所幫助，歡迎在論文中引用下述論文。

首選（期刊擴充版）：https://ieeexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

或者（會議版本）：https://www.aclweb.org/anthology/2020.findings-emnlp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

致謝

第一作者部分受到谷歌TPU Research Cloud計劃資助。

免責聲明

本項目並非谷歌官方發布的Chinese BERT-wwm模型。同時，本項目不是哈工大或科大訊飛的官方產品。技術報告中所呈現的實驗結果僅表明在特定數據集和超參組合下的表現，並不能代表各個模型的本質。實驗結果可能因隨機數種子，計算設備而發生改變。該項目中的內容僅供技術研究參考，不作為任何結論性依據。使用者可以在許可證範圍內任意使用該模型，但我們不對因使用該項目內容造成的直接或間接損失負責。