中文說明| English

在自然語言處理領域中,預訓練語言模型(Pre-trained Language Models)已成為非常重要的基礎技術。為了進一步促進中文信息處理的研究發展,我們發布了基於全詞掩碼(Whole Word Masking)技術的中文預訓練模型BERT-wwm,以及與此技術密切相關的模型:BERT-wwm-ext,RoBERTa-wwm-ext,RoBERTa-wwm-ext-large, RBT3, RBTL3等。
本項目基於谷歌官方BERT:https://github.com/google-research/bert
中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知識蒸餾工具TextBrewer | 模型裁剪工具TextPruner
查看更多哈工大訊飛聯合實驗室(HFL)發布的資源:https://github.com/ymcui/HFL-Anthology
2023/3/28 開源了中文LLaMA&Alpaca大模型,可快速在PC上部署體驗,查看:https://github.com/ymcui/Chinese-LLaMA-Alpaca
2023/3/9 我們提出了一種圖文多模態預訓練模型VLE,查看:https://github.com/iflytek/VLE
2022/11/15 我們提出了中文小型預訓練模型MiniRBT。查看:https://github.com/iflytek/MiniRBT
2022/10/29 我們提出了一種融合語言學信息的預訓練模型LERT。查看:https://github.com/ymcui/LERT
2022/3/30 我們開源了一種新預訓練模型PERT。查看:https://github.com/ymcui/PERT
2021/10/24 哈工大訊飛聯合實驗室發布面向少數民族語言的預訓練模型CINO。查看:https://github.com/ymcui/Chinese-Minority-PLM
2021/7/21 由哈工大SCIR多位學者撰寫的《自然語言處理:基於預訓練模型的方法》已出版,歡迎大家選購。
2021/1/27 所有模型已支持TensorFlow 2,請通過transformers庫進行調用或下載。 https://huggingface.co/hfl
2020/9/15 我們的論文"Revisiting Pre-Trained Models for Chinese Natural Language Processing"被Findings of EMNLP錄用為長文。
2020/8/27 哈工大訊飛聯合實驗室在通用自然語言理解評測GLUE中榮登榜首,查看GLUE榜單,新聞。
2020/3/23 本目錄發布的模型已接入飛槳PaddleHub,查看快速加載
2020/3/11 為了更好地了解需求,邀請您填寫調查問卷,以便為大家提供更好的資源。
2020/2/26 哈工大訊飛聯合實驗室發布知識蒸餾工具TextBrewer
2020/1/20 祝大家鼠年大吉,本次發布了RBT3、RBTL3(3層RoBERTa-wwm-ext-base/large),查看小參數量模型
2019/12/19 本目錄發布的模型已接入Huggingface-Transformers,查看快速加載
2019/10/14 發布蘿蔔塔RoBERTa-wwm-ext-large模型,查看中文模型下載
2019/9/10 發布蘿蔔塔RoBERTa-wwm-ext模型,查看中文模型下載
2019/7/30 提供了在更大通用語料(5.4B詞數)上訓練的中文BERT-wwm-ext模型,查看中文模型下載
2019/6/20 初始版本,模型已可通過谷歌下載,國內云盤也已上傳完畢,查看中文模型下載
| 章節 | 描述 |
|---|---|
| 簡介 | 介紹BERT-wwm基本原理 |
| 中文模型下載 | 提供了BERT-wwm的下載地址 |
| 快速加載 | 介紹瞭如何使用?Transformers、PaddleHub快速加載模型 |
| 模型對比 | 提供了本目錄中模型的參數對比 |
| 中文基線系統效果 | 列舉了部分中文基線系統效果 |
| 小參數量模型 | 列舉了小參數量模型(3層Transformer)的效果 |
| 使用建議 | 提供了若干使用中文預訓練模型的建議 |
| 英文模型下載 | 谷歌官方的英文BERT-wwm下載地址 |
| FAQ | 常見問題答疑 |
| 引用 | 本目錄的技術報告 |
全词Mask Masking (wwm) ,暫翻譯為全詞Mask或整词Mask ,是谷歌在2019年5月31日發布的一項BERT的升級版本,主要更改了原預訓練階段的訓練樣本生成策略。 簡單來說,原有基於WordPiece的分詞方式會把一個完整的詞切分成若干個子詞,在生成訓練樣本時,這些被分開的子詞會隨機被mask。 在全词Mask中,如果一個完整的詞的部分WordPiece子詞被mask,則同屬該詞的其他部分也會被mask,即全词Mask 。
需要注意的是,這裡的mask指的是廣義的mask(替換成[MASK];保持原詞彙;隨機替換成另外一個詞),並非只局限於單詞替換成[MASK]標籤的情況。 更詳細的說明及樣例請參考:#4
同理,由於谷歌官方發布的BERT-base, Chinese中,中文是以字為粒度進行切分,沒有考慮到傳統NLP中的中文分詞(CWS)。 我們將全詞Mask的方法應用在了中文中,使用了中文維基百科(包括簡體和繁體)進行訓練,並且使用了哈工大LTP作為分詞工具,即對組成同一個詞的漢字全部進行Mask。
下述文本展示了全词Mask的生成樣例。注意:為了方便理解,下述例子中只考慮替換成[MASK]標籤的情況。
| 說明 | 樣例 |
|---|---|
| 原始文本 | 使用語言模型來預測下一個詞的probability。 |
| 分詞文本 | 使用語言模型來預測下一個詞的probability 。 |
| 原始Mask輸入 | 使用語言[MASK] 型來[MASK] 測下一個詞的pro [MASK] ##lity 。 |
| 全詞Mask輸入 | 使用語言[MASK] [MASK] 來[MASK] [MASK] 下一個詞的[MASK] [MASK] [MASK] 。 |
本目錄中主要包含base模型,故我們不在模型簡稱中標註base字樣。對於其他大小的模型會標註對應的標記(例如large)。
BERT-large模型:24-layer, 1024-hidden, 16-heads, 330M parametersBERT-base模型:12-layer, 768-hidden, 12-heads, 110M parameters注意:開源版本不包含MLM任務的權重;如需做MLM任務,請使用額外數據進行二次預訓練(和其他下游任務一樣)。
| 模型簡稱 | 語料 | Google下載 | 百度網盤下載 |
|---|---|---|---|
RBT6, Chinese | EXT數據[1] | - | TensorFlow(密碼hniy) |
RBT4, Chinese | EXT數據[1] | - | TensorFlow(密碼sjpt) |
RBTL3, Chinese | EXT數據[1] | TensorFlow PyTorch | TensorFlow(密碼s6cu) |
RBT3, Chinese | EXT數據[1] | TensorFlow PyTorch | TensorFlow(密碼5a57) |
RoBERTa-wwm-ext-large, Chinese | EXT數據[1] | TensorFlow PyTorch | TensorFlow(密碼dqqe) |
RoBERTa-wwm-ext, Chinese | EXT數據[1] | TensorFlow PyTorch | TensorFlow(密碼vybq) |
BERT-wwm-ext, Chinese | EXT數據[1] | TensorFlow PyTorch | TensorFlow(密碼wgnt) |
BERT-wwm, Chinese | 中文維基 | TensorFlow PyTorch | TensorFlow(密碼qfh8) |
BERT-base, Chinese Google | 中文維基 | Google Cloud | - |
BERT-base, Multilingual Cased Google | 多語種維基 | Google Cloud | - |
BERT-base, Multilingual Uncased Google | 多語種維基 | Google Cloud | - |
[1] EXT數據包括:中文維基百科,其他百科、新聞、問答等數據,總詞數達5.4B。
如需PyTorch版本,
1)請自行通過?Transformers提供的轉換腳本進行轉換。
2)或者通過huggingface官網直接下載PyTorch版權重:https://huggingface.co/hfl
下載方法:點擊任意需要下載的模型→ 選擇"Files and versions"選項卡→ 下載對應的模型文件。
中國大陸境內建議使用百度網盤下載點,境外用戶建議使用谷歌下載點,base模型文件大小約400M 。 以TensorFlow版BERT-wwm, Chinese為例,下載完畢後對zip文件進行解壓得到:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
其中bert_config.json和vocab.txt與穀歌原版BERT-base, Chinese完全一致。 PyTorch版本則包含pytorch_model.bin , bert_config.json , vocab.txt文件。
依託於?transformers庫,可輕鬆調用以上模型。
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
注意:本目錄中的所有模型均使用BertTokenizer以及BertModel加載,請勿使用RobertaTokenizer/RobertaModel!
其中MODEL_NAME對應列表如下:
| 模型名 | MODEL_NAME |
|---|---|
| RoBERTa-wwm-ext-large | hfl/chinese-roberta-wwm-ext-large |
| RoBERTa-wwm-ext | hfl/chinese-roberta-wwm-ext |
| BERT-wwm-ext | hfl/chinese-bert-wwm-ext |
| BERT-wwm | hfl/chinese-bert-wwm |
| RBT3 | hfl/rbt3 |
| RBTL3 | hfl/rbtl3 |
依托PaddleHub,只需一行代碼即可完成模型下載安裝,十餘行代碼即可完成文本分類、序列標註、閱讀理解等任務。
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
其中MODULE_NAME對應列表如下:
| 模型名 | MODULE_NAME |
|---|---|
| RoBERTa-wwm-ext-large | chinese-roberta-wwm-ext-large |
| RoBERTa-wwm-ext | chinese-roberta-wwm-ext |
| BERT-wwm-ext | chinese-bert-wwm-ext |
| BERT-wwm | chinese-bert-wwm |
| RBT3 | rbt3 |
| RBTL3 | rbtl3 |
針對大家比較關心的一些模型細節進行匯總如下。
| - | BERT Google | BERT-wwm | BERT-wwm-ext | RoBERTa-wwm-ext | RoBERTa-wwm-ext-large |
|---|---|---|---|---|---|
| Masking | WordPiece | WWM [1] | WWM | WWM | WWM |
| Type | base | base | base | base | large |
| Data Source | wiki | wiki | wiki+ext [2] | wiki+ext | wiki+ext |
| Training Tokens # | 0.4B | 0.4B | 5.4B | 5.4B | 5.4B |
| Device | TPU Pod v2 | TPU v3 | TPU v3 | TPU v3 | TPU Pod v3-32 [3] |
| Training Steps | ? | 100K MAX128 +100K MAX512 | 1M MAX128 +400K MAX512 | 1M MAX512 | 2M MAX512 |
| Batch Size | ? | 2,560 / 384 | 2,560 / 384 | 384 | 512 |
| Optimizer | AdamW | LAMB | LAMB | AdamW | AdamW |
| Vocabulary | 21,128 | ~BERT [4] | ~BERT | ~BERT | ~BERT |
| Init Checkpoint | Random Init | ~BERT | ~BERT | ~BERT | Random Init |
[1] WWM = Whole Word Masking
[2] ext = extended data
[3] TPU Pod v3-32 (512G HBM)等價於4個TPU v3 (128G HBM)
[4]~BERT表示繼承谷歌原版中文BERT的屬性
為了對比基線效果,我們在以下幾個中文數據集上進行了測試,包括句子级和篇章级任務。 對於BERT-wwm-ext 、 RoBERTa-wwm-ext 、 RoBERTa-wwm-ext-large ,我們沒有進一步調整最佳學習率,而是直接使用了BERT-wwm的最佳學習率。
最佳學習率:
| 模型 | BERT | ERNIE | BERT-wwm* |
|---|---|---|---|
| CMRC 2018 | 3e-5 | 8e-5 | 3e-5 |
| DRCD | 3e-5 | 8e-5 | 3e-5 |
| CJRC | 4e-5 | 8e-5 | 4e-5 |
| XNLI | 3e-5 | 5e-5 | 3e-5 |
| ChnSentiCorp | 2e-5 | 5e-5 | 2e-5 |
| LCQMC | 2e-5 | 3e-5 | 2e-5 |
| BQ Corpus | 3e-5 | 5e-5 | 3e-5 |
| THUCNews | 2e-5 | 5e-5 | 2e-5 |
*代表所有wwm系列模型(BERT-wwm, BERT-wwm-ext, RoBERTa-wwm-ext, RoBERTa-wwm-ext-large)
下面僅列舉部分結果,完整結果請查看我們的技術報告。
注意:為了保證結果的可靠性,對於同一模型,我們運行10遍(不同隨機種子),匯報模型性能的最大值和平均值(括號內為平均值)。不出意外,你運行的結果應該很大概率落在這個區間內。
評測指標中,括號內表示平均值,括號外表示最大值。
CMRC 2018數據集是哈工大訊飛聯合實驗室發布的中文機器閱讀理解數據。 根據給定問題,系統需要從篇章中抽取出片段作為答案,形式與SQuAD相同。 評測指標為:EM / F1
| 模型 | 開發集 | 測試集 | 挑戰集 |
|---|---|---|---|
| BERT | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) |
| ERNIE | 65.4 (64.3) / 84.7 (84.2) | 69.4 (68.2) / 86.6 (86.1) | 19.6 (17.0) / 44.3 (42.8) |
| BERT-wwm | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) |
| BERT-wwm-ext | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) |
| RoBERTa-wwm-ext | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) |
| RoBERTa-wwm-ext-large | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) |
DRCD數據集由中國台灣台達研究院發布,其形式與SQuAD相同,是基於繁體中文的抽取式閱讀理解數據集。由於ERNIE中去除了繁體中文字符,故不建議在繁體中文數據上使用ERNIE(或轉換成簡體中文後再處理)。評測指標為:EM / F1
| 模型 | 開發集 | 測試集 |
|---|---|---|
| BERT | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) |
| ERNIE | 73.2 (73.0) / 83.9 (83.8) | 71.9 (71.4) / 82.5 (82.3) |
| BERT-wwm | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) |
| BERT-wwm-ext | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) |
| RoBERTa-wwm-ext | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) |
| RoBERTa-wwm-ext-large | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) |
CJRC數據集是哈工大訊飛聯合實驗室發布的面向司法領域的中文機器閱讀理解數據。 需要注意的是實驗中使用的數據並非官方發布的最終數據,結果僅供參考。 評測指標為:EM / F1
| 模型 | 開發集 | 測試集 |
|---|---|---|
| BERT | 54.6 (54.0) / 75.4 (74.5) | 55.1 (54.1) / 75.2 (74.3) |
| ERNIE | 54.3 (53.9) / 75.3 (74.6) | 55.0 (53.9) / 75.0 (73.9) |
| BERT-wwm | 54.7 (54.0) / 75.2 (74.8) | 55.1 (54.1) / 75.4 (74.4) |
| BERT-wwm-ext | 55.6 (54.8) / 76.0 (75.3) | 55.6 (54.9) / 75.8 (75.0) |
| RoBERTa-wwm-ext | 58.7 (57.6) / 79.1 (78.3) | 59.0 (57.8) / 79.0 (78.0) |
| RoBERTa-wwm-ext-large | 62.1 (61.1) / 82.4 (81.6) | 62.4 (61.4) / 82.2 (81.0) |
在自然語言推斷任務中,我們採用了XNLI數據,需要將文本分成三個類別: entailment , neutral , contradictory 。 評測指標為:Accuracy
| 模型 | 開發集 | 測試集 |
|---|---|---|
| BERT | 77.8 (77.4) | 77.8 (77.5) |
| ERNIE | 79.7 (79.4) | 78.6 (78.2) |
| BERT-wwm | 79.0 (78.4) | 78.2 (78.0) |
| BERT-wwm-ext | 79.4 (78.6) | 78.7 (78.3) |
| RoBERTa-wwm-ext | 80.0 (79.2) | 78.8 (78.3) |
| RoBERTa-wwm-ext-large | 82.1 (81.3) | 81.2 (80.6) |
在情感分析任務中,二分類的情感分類數據集ChnSentiCorp。 評測指標為:Accuracy
| 模型 | 開發集 | 測試集 |
|---|---|---|
| BERT | 94.7 (94.3) | 95.0 (94.7) |
| ERNIE | 95.4 (94.8) | 95.4 (95.3) |
| BERT-wwm | 95.1 (94.5) | 95.4 (95.0) |
| BERT-wwm-ext | 95.4 (94.6) | 95.3 (94.7) |
| RoBERTa-wwm-ext | 95.0 (94.6) | 95.6 (94.8) |
| RoBERTa-wwm-ext-large | 95.8 (94.9) | 95.8 (94.9) |
以下兩個數據集均需要將一個句對進行分類,判斷兩個句子的語義是否相同(二分類任務)。
LCQMC由哈工大深圳研究生院智能計算研究中心發布。 評測指標為:Accuracy
| 模型 | 開發集 | 測試集 |
|---|---|---|
| BERT | 89.4 (88.4) | 86.9 (86.4) |
| ERNIE | 89.8 (89.6) | 87.2 (87.0) |
| BERT-wwm | 89.4 (89.2) | 87.0 (86.8) |
| BERT-wwm-ext | 89.6 (89.2) | 87.1 (86.6) |
| RoBERTa-wwm-ext | 89.0 (88.7) | 86.4 (86.1) |
| RoBERTa-wwm-ext-large | 90.4 (90.0) | 87.0 (86.8) |
BQ Corpus由哈工大深圳研究生院智能計算研究中心發布,是面向銀行領域的數據集。 評測指標為:Accuracy
| 模型 | 開發集 | 測試集 |
|---|---|---|
| BERT | 86.0 (85.5) | 84.8 (84.6) |
| ERNIE | 86.3 (85.5) | 85.0 (84.6) |
| BERT-wwm | 86.1 (85.6) | 85.2 (84.9) |
| BERT-wwm-ext | 86.4 (85.5) | 85.3 (84.8) |
| RoBERTa-wwm-ext | 86.0 (85.4) | 85.0 (84.6) |
| RoBERTa-wwm-ext-large | 86.3 (85.7) | 85.8 (84.9) |
篇章級文本分類任務我們選用了由清華大學自然語言處理實驗室發布的新聞數據集THUCNews 。 我們採用的是其中一個子集,需要將新聞分成10個類別中的一個。 評測指標為:Accuracy
| 模型 | 開發集 | 測試集 |
|---|---|---|
| BERT | 97.7 (97.4) | 97.8 (97.6) |
| ERNIE | 97.6 (97.3) | 97.5 (97.3) |
| BERT-wwm | 98.0 (97.6) | 97.8 (97.6) |
| BERT-wwm-ext | 97.7 (97.5) | 97.7 (97.5) |
| RoBERTa-wwm-ext | 98.3 (97.9) | 97.7 (97.5) |
| RoBERTa-wwm-ext-large | 98.3 (97.7) | 97.8 (97.6) |
以下是在若干NLP任務上的實驗效果,表中只提供測試集結果對比。
| 模型 | CMRC 2018 | DRCD | XNLI | CSC | LCQMC | BQ | 平均 | 參數量 |
|---|---|---|---|---|---|---|---|---|
| RoBERTa-wwm-ext-large | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325M |
| RoBERTa-wwm-ext | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102M |
| RBTL3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61M (59.8%) |
| RBT3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38M (37.3%) |
效果相對值比較:
| 模型 | CMRC 2018 | DRCD | XNLI | CSC | LCQMC | BQ | 平均 | 分類平均 |
|---|---|---|---|---|---|---|---|---|
| RoBERTa-wwm-ext-large | 102.2% / 101.3% | 104.7% / 102.7% | 103.0% | 100.2% | 100.7% | 100.9% | 101.9% | 101.2% |
| RoBERTa-wwm-ext | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| RBTL3 | 87.2% / 93.3% | 90.2% / 93.0% | 93.9% | 98.5% | 98.5% | 98.4% | 94.3% | 97.35% |
| RBT3 | 85.7% / 91.5% | 87.6% / 91.2% | 91.8% | 97.1% | 98.5% | 98.0% | 92.9% | 96.35% |
歡迎使用效果更優的中文小型預訓練模型MiniRBT:https://github.com/iflytek/MiniRBT
BERT還是其他模型),需要根據目標任務進行調整。ERNIE的最佳學習率和BERT / BERT-wwm相差較大,所以使用ERNIE時請務必調整學習率(基於以上實驗結果, ERNIE需要的初始學習率較高)。BERT / BERT-wwm使用了維基百科數據進行訓練,故它們對正式文本建模較好;而ERNIE使用了額外的百度貼吧、知道等網絡數據,它對非正式文本(例如微博等)建模有優勢。BERT和BERT-wwm的效果較好。BERT或者BERT-wwm 。因為我們發現ERNIE的詞表中幾乎沒有繁體中文。 為了方便大家下載,順便帶上谷歌官方發布的英文BERT-large (wwm)模型:
BERT-Large, Uncased (Whole Word Masking) : 24-layer, 1024-hidden, 16-heads, 340M parameters
BERT-Large, Cased (Whole Word Masking) : 24-layer, 1024-hidden, 16-heads, 340M parameters
Q: 這個模型怎麼用?
A: 谷歌發布的中文BERT怎麼用,這個就怎麼用。文本不需要經過分詞,wwm只影響預訓練過程,不影響下游任務的輸入。
Q: 請問有預訓練代碼提供嗎?
A: 很遺憾,我不能提供相關代碼,實現可以參考#10 和#13。
Q: 某某數據集在哪裡下載?
A: 請查看data目錄,任務目錄下的README.md標明了數據來源。對於有版權的內容,請自行搜索或與原作者聯繫獲取數據。
Q: 會有計劃發布更大模型嗎?比如BERT-large-wwm版本?
A: 如果我們從實驗中得到更好效果,會考慮發布更大的版本。
Q: 你騙人!無法復現結果?
A: 在下游任務中,我們採用了最簡單的模型。比如分類任務,我們直接使用的是run_classifier.py (谷歌提供)。 如果無法達到平均值,說明實驗本身存在bug,請仔細排查。 最高值存在很多隨機因素,我們無法保證能夠達到最高值。 另外一個公認的因素:降低batch size會顯著降低實驗效果,具體可參考BERT,XLNet目錄的相關Issue。
Q: 我訓出來比你更好的結果!
A: 恭喜你。
Q: 訓練花了多長時間,在什麼設備上訓練的?
A: 訓練是在谷歌TPU v3版本(128G HBM)完成的,訓練BERT-wwm花費約1.5天,BERT-wwm-ext則需要數週時間(使用了更多數據需要迭代更充分)。 需要注意的是,預訓練階段我們使用的是LAMB Optimizer (TensorFlow版本實現)。該優化器對大的batch有良好的支持。 在微調下游任務時,我們採用的是BERT默認的AdamWeightDecayOptimizer 。
Q: ERNIE是誰?
A: 本項目中的ERNIE模型特指百度公司提出的ERNIE,而非清華大學在ACL 2019上發表的ERNIE。
Q: BERT-wwm的效果不是在所有任務都很好
A: 本項目的目的是為研究者提供多元化的預訓練模型,自由選擇BERT,ERNIE,或者是BERT-wwm。 我們僅提供實驗數據,具體效果如何還是得在自己的任務中不斷嘗試才能得出結論。 多一個模型,多一種選擇。
Q: 為什麼有些數據集上沒有試?
A: 很坦率的說: 1)沒精力找更多的數據; 2)沒有必要; 3)沒有鈔票;
Q: 簡單評價一下這幾個模型
A: 各有側重,各有千秋。 中文自然語言處理的研究發展需要多方共同努力。
Q: 你預測下一個預訓練模型叫什麼?
A: 可能叫ZOE吧,ZOE: Zero-shOt Embeddings from language model
Q: 更多關於RoBERTa-wwm-ext模型的細節?
A: 我們集成了RoBERTa和BERT-wwm的優點,對兩者進行了一個自然的結合。 和之前本目錄中的模型之間的區別如下:
1)預訓練階段採用wwm策略進行mask(但沒有使用dynamic masking)
2)簡單取消Next Sentence Prediction(NSP)loss
3)不再採用先max_len=128然後再max_len=512的訓練模式,直接訓練max_len=512
4)訓練步數適當延長
需要注意的是,該模型並非原版RoBERTa模型,只是按照類似RoBERTa訓練方式訓練出的BERT模型,即RoBERTa-like BERT。 故在下游任務使用、模型轉換時請按BERT的方式處理,而非RoBERTa。
如果本項目中的資源或技術對你的研究工作有所幫助,歡迎在論文中引用下述論文。
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
第一作者部分受到谷歌TPU Research Cloud計劃資助。
本項目並非谷歌官方發布的Chinese BERT-wwm模型。同時,本項目不是哈工大或科大訊飛的官方產品。技術報告中所呈現的實驗結果僅表明在特定數據集和超參組合下的表現,並不能代表各個模型的本質。 實驗結果可能因隨機數種子,計算設備而發生改變。該項目中的內容僅供技術研究參考,不作為任何結論性依據。使用者可以在許可證範圍內任意使用該模型,但我們不對因使用該項目內容造成的直接或間接損失負責。
歡迎關注哈工大訊飛聯合實驗室官方微信公眾號,了解最新的技術動態。

如有問題,請在GitHub Issue中提交。