単純化された中国人|英語

中国のマッバート|中国のエレクトラ|中国のxlnet |知識蒸留ツールTextBrewer |モデル切削工具TextPruner
HFLがリリースしたより多くのリソース:https://github.com/ymcui/hfl-anthology
2023/3/28オープンソースチャイニーズラマ&アルパカビッグモデルは、PCで迅速に展開および経験することができます。
2022/3/30は、新しい訓練を受けた新しいモデルPERTをリリースしました:https://github.com/ymcui/pert
2021/12/17モデルトリミングツールTextPruner:https://github.com/iararia/textprunerをリリースしました
2021/10/24民族言語の最初の訓練を受けたモデルをリリースしました:https://github.com/ymcui/chinese-minority-plm
2021/7/21本「自然言語処理:事前に訓練されたモデルに基づく方法」が正式に公開されました。
2020/11/3事前に訓練された中国のマッバートがリリースされ、その使用方法はBertの使用方法と同じです。
2020/9/15「中国の自然言語処理の事前に訓練されたモデルの再訪」という論文は、EMNLPの調査結果によって長い記事として雇われました。
| 章 | 説明する |
|---|---|
| 導入 | マッバートの簡単な紹介 |
| ダウンロード | MacBertをダウンロードしてください |
| クイックロード | 変圧器の使用方法は、モデルをすばやくロードします |
| ベースライン効果 | 中国のNLPタスクへの影響 |
| よくある質問 | よくある質問 |
| 引用 | 記事の引用情報 |
MacBertはBERTの改良版であり、エラー補正されたマスク言語モデル(MLMとして修正、MAC)の事前トレーニングタスクを導入し、「トレーニング前のストリームタスク」の問題を軽減します。
マスク言語モデル(MLM)では、[マスク]タグがマスキング用に導入されますが、[マスク]タグは下流タスクには表示されません。 MacBertでは、 [マスク]タグを置き換えるために同様の単語を使用します。同様の単語は、Synonyms Toolkit(Wang and Hu、2017)ツールによって取得され、アルゴリズムはWord2vec(Mikolov et al。、2013)に基づいて計算されます。同時に、単語マスキング(WWM)とN-Gramのマスキングテクノロジー全体を導入しました。 n-gramをマスキングするとき、n-gramの各単語の同様の単語を調べます。交換する同様の単語がない場合は、交換用にランダムな単語を使用します。
以下は、トレーニングサンプルの例です。
| 例 | |
|---|---|
| 元の文 | 言語モデルを使用して、次の単語の確率を予測します。 |
| MLM | 言語[M]から[M] ## di ## CTを使用します[M] ##次の単語の能力。 |
| 全体のマスキング | 次の単語の[M] [M] [M] [M] [M] [M] [M]を使用します。 |
| n-gramマスキング | [M] [M]から[M] [M] [M] [M] [M] [M] [M] [M]次の単語を使用します。 |
| 修正としてのMLM | テキストシステムを使用してCA ## lc ##次の単語のPO ## SI ##機能を獲得します。 |
Macbertの主なフレームワークはBertとまったく同じであり、既存のコードを変更せずにシームレスな遷移を可能にします。
詳細については、私たちの論文を参照してください。中国の自然言語処理の事前訓練を受けたモデルの再訪
主にTensorflow 1.xバージョンのモデルダウンロードを提供します。
MacBERT-large, Chinese :24層、1024層、16頭、324mパラメーターMacBERT-base, Chinese :12層、768人のハイダー、12頭、102mパラメーター| モデル | Googleドライブ | バイドゥディスク | サイズ |
|---|---|---|---|
MacBERT-large, Chinese | Tensorflow | Tensorflow(PW:ZEJF) | 1.2g |
MacBERT-base, Chinese | Tensorflow | Tensorflow(PW:61GA) | 383m |
モデルのpytorchまたはtensorflow2バージョンが必要な場合:
手順をダウンロードします(gitを使用してディレクトリ全体を直接クローンすることもできます):
MacBertモデルは、トランスを介して迅速にロードできます。
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
注:BerttokenizerとBertmodelを使用してMacbertモデルをロードしてください!
対応するMODEL_NAME次のとおりです。
| オリジナルモデル | モデルコール名 |
|---|---|
| MacBert-Large | HFL/中国 - マクバート - と - ラージ |
| マクバートベース | HFL/中国 - マクバートベース |
6つのダウンストリームタスクに対するMacBertの効果の表示を示します(詳細については、論文を参照してください):
結果の安定性を確保するために、平均値(括弧内)と独立の最大値が同時に10回実行されます。
CMRC 2018データセットは、ハルビン工科大学の合同研究所によってリリースされた中国の機械読解データです。特定の質問によると、システムは、章から章から断片を答えとして抽出する必要があります。評価指標は次のとおりです。EM / F1
| モデル | 発達 | テスト | チャレンジ | #params |
|---|---|---|---|---|
| バートベース | 65.5(64.4) / 84.5(84.0) | 70.0(68.7) / 87.0(86.3) | 18.6(17.0) / 43.3(41.3) | 102m |
| bert-wwm | 66.3(65.0) / 85.6(84.7) | 70.5(69.1) / 87.4(86.7) | 21.0(19.3) / 47.0(43.9) | 102m |
| bert-wwm-ext | 67.1(65.6) / 85.7(85.0) | 71.4(70.0) / 87.7(87.0) | 24.0(20.0) / 47.3(44.6) | 102m |
| roberta-wwm-ext | 67.4(66.5) / 87.2(86.5) | 72.6(71.4) / 89.4(88.8) | 26.2(24.6) / 51.0(49.1) | 102m |
| エレクトラベース | 68.4(68.0) / 84.8(84.6) | 73.1(72.7) / 87.1(86.9) | 22.6(21.7) / 45.0(43.8) | 102m |
| マクバートベース | 68.5(67.3) / 87.9(87.1) | 73.2(72.4) / 89.5(89.2) | 30.2(26.4) / 54.0(52.2) | 102m |
| エレクトラ・ラージ | 69.1(68.2) / 85.2(84.5) | 73.9(72.8) / 87.1(86.6) | 23.0(21.6) / 44.2(43.2) | 324m |
| roberta-wwm-ext-large | 68.5(67.6) / 88.4(87.9) | 74.2(72.4) / 90.6(90.0) | 31.5(30.1) / 60.1(57.5) | 324m |
| MacBert-Large | 70.7(68.6) / 88.9(88.2) | 74.8(73.2) / 90.7(90.1) | 31.9(29.6) / 60.2(57.6) | 324m |
DRCDデータセットは、中国の台湾にあるデルタ研究所によってリリースされました。そのフォームは分隊と同じであり、伝統的な中国語に基づいた抽出された読解データセットです。従来の漢字はアーニーから削除されるため、従来の中国人データでアーニーを使用して(または単純化された中国人に変換してから処理する)ことはお勧めしません。評価指標は次のとおりです。EM / F1
| モデル | 発達 | テスト | #params |
|---|---|---|---|
| バートベース | 83.1(82.7) / 89.9(89.6) | 82.2(81.6) / 89.2(88.8) | 102m |
| bert-wwm | 84.3(83.4) / 90.5(90.2) | 82.8(81.8) / 89.7(89.0) | 102m |
| bert-wwm-ext | 85.0(84.5) / 91.2(90.9) | 83.6(83.0) / 90.4(89.9) | 102m |
| roberta-wwm-ext | 86.6(85.9) / 92.5(92.2) | 85.6(85.2) / 92.0(91.7) | 102m |
| エレクトラベース | 87.5(87.0) / 92.5(92.3) | 86.9(86.6) / 91.8(91.7) | 102m |
| マクバートベース | 89.4(89.2) / 94.3(94.1) | 89.5(88.7) / 93.8(93.5) | 102m |
| エレクトラ・ラージ | 88.8(88.7) / 93.3(93.2) | 88.8(88.2) / 93.6(93.2) | 324m |
| roberta-wwm-ext-large | 89.6(89.1) / 94.8(94.4) | 89.6(88.9) / 94.5(94.1) | 324m |
| MacBert-Large | 91.2(90.8) / 95.6(95.3) | 91.7(90.9) / 95.6(95.3) | 324m |
自然言語の推論タスクでは、 XNLIデータを採用します。これcontradictoryは、テキストを3つのカテゴリにentailmentする必要がありますneutral評価インジケーターは次のとおりです。精度
| モデル | 発達 | テスト | #params |
|---|---|---|---|
| バートベース | 77.8(77.4) | 77.8(77.5) | 102m |
| bert-wwm | 79.0(78.4) | 78.2(78.0) | 102m |
| bert-wwm-ext | 79.4(78.6) | 78.7(78.3) | 102m |
| roberta-wwm-ext | 80.0(79.2) | 78.8(78.3) | 102m |
| エレクトラベース | 77.9(77.0) | 78.4(77.8) | 102m |
| マクバートベース | 80.3(79.7) | 79.3(78.8) | 102m |
| エレクトラ・ラージ | 81.5(80.8) | 81.0(80.9) | 324m |
| roberta-wwm-ext-large | 82.1(81.3) | 81.2(80.6) | 324m |
| MacBert-Large | 82.4(81.8) | 81.3(80.6) | 324m |
センチメント分析タスクでは、バイナリ感情分類データセットchnsenticorp。評価インジケーターは次のとおりです。精度
| モデル | 発達 | テスト | #params |
|---|---|---|---|
| バートベース | 94.7(94.3) | 95.0(94.7) | 102m |
| bert-wwm | 95.1(94.5) | 95.4(95.0) | 102m |
| bert-wwm-ext | 95.4(94.6) | 95.3(94.7) | 102m |
| roberta-wwm-ext | 95.0(94.6) | 95.6(94.8) | 102m |
| エレクトラベース | 93.8(93.0) | 94.5(93.5) | 102m |
| マクバートベース | 95.2(94.8) | 95.6(94.9) | 102m |
| エレクトラ・ラージ | 95.2(94.6) | 95.3(94.8) | 324m |
| roberta-wwm-ext-large | 95.8(94.9) | 95.8(94.9) | 324m |
| MacBert-Large | 95.7(95.0) | 95.9(95.1) | 324m |
LCQMCは、Harbin Technology Institute of Shenzhen大学院のインテリジェントコンピューティングリサーチセンターによってリリースされました。評価インジケーターは次のとおりです。精度
| モデル | 発達 | テスト | #params |
|---|---|---|---|
| バート | 89.4(88.4) | 86.9(86.4) | 102m |
| bert-wwm | 89.4(89.2) | 87.0(86.8) | 102m |
| bert-wwm-ext | 89.6(89.2) | 87.1(86.6) | 102m |
| roberta-wwm-ext | 89.0(88.7) | 86.4(86.1) | 102m |
| エレクトラベース | 90.2(89.8) | 87.6(87.3) | 102m |
| マクバートベース | 89.5(89.3) | 87.0(86.5) | 102m |
| エレクトラ・ラージ | 90.7(90.4) | 87.3(87.2) | 324m |
| roberta-wwm-ext-large | 90.4(90.0) | 87.0(86.8) | 324m |
| MacBert-Large | 90.6(90.3) | 87.6(87.1) | 324m |
BQ Corpusは、Harbin Technology Institute of Shenzhen大学院のインテリジェントコンピューティングリサーチセンターによってリリースされ、銀行分野のデータセットです。評価インジケーターは次のとおりです。精度
| モデル | 発達 | テスト | #params |
|---|---|---|---|
| バート | 86.0(85.5) | 84.8(84.6) | 102m |
| bert-wwm | 86.1(85.6) | 85.2(84.9) | 102m |
| bert-wwm-ext | 86.4(85.5) | 85.3(84.8) | 102m |
| roberta-wwm-ext | 86.0(85.4) | 85.0(84.6) | 102m |
| エレクトラベース | 84.8(84.7) | 84.5(84.0) | 102m |
| マクバートベース | 86.0(85.5) | 85.2(84.9) | 102m |
| エレクトラ・ラージ | 86.7(86.2) | 85.1(84.8) | 324m |
| roberta-wwm-ext-large | 86.3(85.7) | 85.8(84.9) | 324m |
| MacBert-Large | 86.2(85.7) | 85.6(85.0) | 324m |
Q1:マッバートの英語版はありますか?
A1:現時点ではありません。
Q2:MacBertの使用方法は?
A2:BERTを使用するのと同じように、モデルファイルを置き換えて使用するように設定するだけです。もちろん、モデルをロードすることで、他の事前に守られたモデルをさらにトレーニングすることもできます(つまり、トランスの初期化セクション)。
Q3:MacBertトレーニングコードを提供できますか?
A3:まだオープンソースプランはありません。
Q4:事前訓練を受けたコーパスをオープンできますか?
A4:それに応じて再リリースする権利がないため、オープンソーストレーニングコーパスはできません。 GitHubには、オープンソースの中国のコーパスリソースがいくつかあります。
Q5:より大きなコーパスとオープンソースでマッバートを訓練する計画はありますか?
A5:当面の計画はありません。
このプロジェクトのリソースがあなたの研究に役立つ場合は、次の論文を引用してください。
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
または:
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
Google TPU Research Cloud(TFRC)のコンピューティングリソースサポートに感謝します。
ご質問がある場合は、GitHub Issueで送信してください。