MacBERTダウンロードMacBERTソースコードのダウンロード

MacBERT

その他のソースコード

1.0.0

ダウンロード

単純化された中国人|英語

このディレクトリには、**マッバートの事前訓練モデル**が含まれています。これには、エラー補正されたマスク言語モデル（MAC）のトレーニング前タスクが導入され、「トレーニング前のストリームタスク」の問題を軽減します。 MacBertは、さまざまなNLPタスクで大幅なパフォーマンスの改善を達成しています。

中国の自然言語処理のための事前に訓練されたモデルを再検討します
Yiming Cui、Wanxiang Che、Ting Liu、Bing Qin、Shijin Wang、Guoping Hu
EMNLP 2020の調査結果に掲載されています

中国のマッバート|中国のエレクトラ|中国のxlnet |知識蒸留ツールTextBrewer |モデル切削工具TextPruner

HFLがリリースしたより多くのリソース：https：//github.com/ymcui/hfl-anthology

ニュース

2023/3/28オープンソースチャイニーズラマ＆アルパカビッグモデルは、PCで迅速に展開および経験することができます。

2022/3/30は、新しい訓練を受けた新しいモデルPERTをリリースしました：https：//github.com/ymcui/pert

2021/12/17モデルトリミングツールTextPruner：https：//github.com/iararia/textprunerをリリースしました

2021/10/24民族言語の最初の訓練を受けたモデルをリリースしました：https：//github.com/ymcui/chinese-minority-plm

2021/7/21本「自然言語処理：事前に訓練されたモデルに基づく方法」が正式に公開されました。

2020/11/3事前に訓練された中国のマッバートがリリースされ、その使用方法はBertの使用方法と同じです。

2020/9/15「中国の自然言語処理の事前に訓練されたモデルの再訪」という論文は、EMNLPの調査結果によって長い記事として雇われました。

章	説明する
導入	マッバートの簡単な紹介
ダウンロード	MacBertをダウンロードしてください
クイックロード	変圧器の使用方法は、モデルをすばやくロードします
ベースライン効果	中国のNLPタスクへの影響
よくある質問	よくある質問
引用	記事の引用情報

導入

MacBertはBERTの改良版であり、エラー補正されたマスク言語モデル（MLMとして修正、MAC）の事前トレーニングタスクを導入し、「トレーニング前のストリームタスク」の問題を軽減します。

マスク言語モデル（MLM）では、[マスク]タグがマスキング用に導入されますが、[マスク]タグは下流タスクには表示されません。 MacBertでは、 [マスク]タグを置き換えるために同様の単語を使用します。同様の単語は、Synonyms Toolkit（Wang and Hu、2017）ツールによって取得され、アルゴリズムはWord2vec（Mikolov et al。、2013）に基づいて計算されます。同時に、単語マスキング（WWM）とN-Gramのマスキングテクノロジー全体を導入しました。 n-gramをマスキングするとき、n-gramの各単語の同様の単語を調べます。交換する同様の単語がない場合は、交換用にランダムな単語を使用します。

以下は、トレーニングサンプルの例です。

	例
元の文	言語モデルを使用して、次の単語の確率を予測します。
MLM	言語[M]から[M] ## di ## CTを使用します[M] ##次の単語の能力。
全体のマスキング	次の単語の[M] [M] [M] [M] [M] [M] [M]を使用します。
n-gramマスキング	[M] [M]から[M] [M] [M] [M] [M] [M] [M] [M]次の単語を使用します。
修正としてのMLM	テキストシステムを使用してCA ## lc ##次の単語のPO ## SI ##機能を獲得します。

Macbertの主なフレームワークはBertとまったく同じであり、既存のコードを変更せずにシームレスな遷移を可能にします。

詳細については、私たちの論文を参照してください。中国の自然言語処理の事前訓練を受けたモデルの再訪

ダウンロード

主にTensorflow 1.xバージョンのモデルダウンロードを提供します。

MacBERT-large, Chinese ：24層、1024層、16頭、324mパラメーター
MacBERT-base, Chinese ：12層、768人のハイダー、12頭、102mパラメーター

モデル	Googleドライブ	バイドゥディスク	サイズ
`MacBERT-large, Chinese`	Tensorflow	Tensorflow（PW：ZEJF）	1.2g
`MacBERT-base, Chinese`	Tensorflow	Tensorflow（PW：61GA）	383m

pytorch/tensorflow2バージョン

モデルのpytorchまたはtensorflow2バージョンが必要な場合：

変圧器を使用して変換します
または、https：//huggingface.co/hflからダウンロードしてください

手順をダウンロードします（gitを使用してディレクトリ全体を直接クローンすることもできます）：

https://huggingface.co/hflを入力した後、Macbert-Base：https：//huggingface.co/hfl/Chinese-macbert-berseなどのMacbertモデルを選択します。
[ファイルとバージョン]タブを選択します
ダウンロードする必要があるビン/JSONおよびその他のファイルをクリックしてください

クイックロード

MacBertモデルは、トランスを介して迅速にロードできます。

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

注：BerttokenizerとBertmodelを使用してMacbertモデルをロードしてください！

対応するMODEL_NAME次のとおりです。

オリジナルモデル	モデルコール名
MacBert-Large	HFL/中国 - マクバート - と - ラージ
マクバートベース	HFL/中国 - マクバートベース

ベースライン効果

6つのダウンストリームタスクに対するMacBertの効果の表示を示します（詳細については、論文を参照してください）：

CMRC 2018（Cui et al。、2019） ：抽出された読解力（簡素化された中国語）
DRCD（Shao et al。、2018） ：抽出された読解力（伝統的な中国語）
Xnli（Conneau et al。、2018） ：自然言語の推論
Chnsenticorp ：感情的な分類
LCQMC（Liu et al。、2018） ：文のマッチング
BQコーパス（Chen et al。、2018） ：文のマッチング

結果の安定性を確保するために、平均値（括弧内）と独立の最大値が同時に10回実行されます。

CMRC 2018

CMRC 2018データセットは、ハルビン工科大学の合同研究所によってリリースされた中国の機械読解データです。特定の質問によると、システムは、章から章から断片を答えとして抽出する必要があります。評価指標は次のとおりです。EM / F1

モデル	発達	テスト	チャレンジ	#params
バートベース	65.5（64.4） / 84.5（84.0）	70.0（68.7） / 87.0（86.3）	18.6（17.0） / 43.3（41.3）	102m
bert-wwm	66.3（65.0） / 85.6（84.7）	70.5（69.1） / 87.4（86.7）	21.0（19.3） / 47.0（43.9）	102m
bert-wwm-ext	67.1（65.6） / 85.7（85.0）	71.4（70.0） / 87.7（87.0）	24.0（20.0） / 47.3（44.6）	102m
roberta-wwm-ext	67.4（66.5） / 87.2（86.5）	72.6（71.4） / 89.4（88.8）	26.2（24.6） / 51.0（49.1）	102m
エレクトラベース	68.4（68.0） / 84.8（84.6）	73.1（72.7） / 87.1（86.9）	22.6（21.7） / 45.0（43.8）	102m
マクバートベース	68.5（67.3） / 87.9（87.1）	73.2（72.4） / 89.5（89.2）	30.2（26.4） / 54.0（52.2）	102m
エレクトラ・ラージ	69.1（68.2） / 85.2（84.5）	73.9（72.8） / 87.1（86.6）	23.0（21.6） / 44.2（43.2）	324m
roberta-wwm-ext-large	68.5（67.6） / 88.4（87.9）	74.2（72.4） / 90.6（90.0）	31.5（30.1） / 60.1（57.5）	324m
MacBert-Large	70.7（68.6） / 88.9（88.2）	74.8（73.2） / 90.7（90.1）	31.9（29.6） / 60.2（57.6）	324m

DRCD

DRCDデータセットは、中国の台湾にあるデルタ研究所によってリリースされました。そのフォームは分隊と同じであり、伝統的な中国語に基づいた抽出された読解データセットです。従来の漢字はアーニーから削除されるため、従来の中国人データでアーニーを使用して（または単純化された中国人に変換してから処理する）ことはお勧めしません。評価指標は次のとおりです。EM / F1

モデル	発達	テスト	#params
バートベース	83.1（82.7） / 89.9（89.6）	82.2（81.6） / 89.2（88.8）	102m
bert-wwm	84.3（83.4） / 90.5（90.2）	82.8（81.8） / 89.7（89.0）	102m
bert-wwm-ext	85.0（84.5） / 91.2（90.9）	83.6（83.0） / 90.4（89.9）	102m
roberta-wwm-ext	86.6（85.9） / 92.5（92.2）	85.6（85.2） / 92.0（91.7）	102m
エレクトラベース	87.5（87.0） / 92.5（92.3）	86.9（86.6） / 91.8（91.7）	102m
マクバートベース	89.4（89.2） / 94.3（94.1）	89.5（88.7） / 93.8（93.5）	102m
エレクトラ・ラージ	88.8（88.7） / 93.3（93.2）	88.8（88.2） / 93.6（93.2）	324m
roberta-wwm-ext-large	89.6（89.1） / 94.8（94.4）	89.6（88.9） / 94.5（94.1）	324m
MacBert-Large	91.2（90.8） / 95.6（95.3）	91.7（90.9） / 95.6（95.3）	324m

xnli

自然言語の推論タスクでは、 XNLIデータを採用します。これcontradictoryは、テキストを3つのカテゴリにentailmentする必要がありますneutral評価インジケーターは次のとおりです。精度

モデル	発達	テスト	#params
バートベース	77.8（77.4）	77.8（77.5）	102m
bert-wwm	79.0（78.4）	78.2（78.0）	102m
bert-wwm-ext	79.4（78.6）	78.7（78.3）	102m
roberta-wwm-ext	80.0（79.2）	78.8（78.3）	102m
エレクトラベース	77.9（77.0）	78.4（77.8）	102m
マクバートベース	80.3（79.7）	79.3（78.8）	102m
エレクトラ・ラージ	81.5（80.8）	81.0（80.9）	324m
roberta-wwm-ext-large	82.1（81.3）	81.2（80.6）	324m
MacBert-Large	82.4（81.8）	81.3（80.6）	324m

Chnsenticorp

センチメント分析タスクでは、バイナリ感情分類データセットchnsenticorp。評価インジケーターは次のとおりです。精度

モデル	発達	テスト	#params
バートベース	94.7（94.3）	95.0（94.7）	102m
bert-wwm	95.1（94.5）	95.4（95.0）	102m
bert-wwm-ext	95.4（94.6）	95.3（94.7）	102m
roberta-wwm-ext	95.0（94.6）	95.6（94.8）	102m
エレクトラベース	93.8（93.0）	94.5（93.5）	102m
マクバートベース	95.2（94.8）	95.6（94.9）	102m
エレクトラ・ラージ	95.2（94.6）	95.3（94.8）	324m
roberta-wwm-ext-large	95.8（94.9）	95.8（94.9）	324m
MacBert-Large	95.7（95.0）	95.9（95.1）	324m

LCQMC

LCQMCは、Harbin Technology Institute of Shenzhen大学院のインテリジェントコンピューティングリサーチセンターによってリリースされました。評価インジケーターは次のとおりです。精度

モデル	発達	テスト	#params
バート	89.4（88.4）	86.9（86.4）	102m
bert-wwm	89.4（89.2）	87.0（86.8）	102m
bert-wwm-ext	89.6（89.2）	87.1（86.6）	102m
roberta-wwm-ext	89.0（88.7）	86.4（86.1）	102m
エレクトラベース	90.2（89.8）	87.6（87.3）	102m
マクバートベース	89.5（89.3）	87.0（86.5）	102m
エレクトラ・ラージ	90.7（90.4）	87.3（87.2）	324m
roberta-wwm-ext-large	90.4（90.0）	87.0（86.8）	324m
MacBert-Large	90.6（90.3）	87.6（87.1）	324m

BQコーパス

BQ Corpusは、Harbin Technology Institute of Shenzhen大学院のインテリジェントコンピューティングリサーチセンターによってリリースされ、銀行分野のデータセットです。評価インジケーターは次のとおりです。精度

モデル	発達	テスト	#params
バート	86.0（85.5）	84.8（84.6）	102m
bert-wwm	86.1（85.6）	85.2（84.9）	102m
bert-wwm-ext	86.4（85.5）	85.3（84.8）	102m
roberta-wwm-ext	86.0（85.4）	85.0（84.6）	102m
エレクトラベース	84.8（84.7）	84.5（84.0）	102m
マクバートベース	86.0（85.5）	85.2（84.9）	102m
エレクトラ・ラージ	86.7（86.2）	85.1（84.8）	324m
roberta-wwm-ext-large	86.3（85.7）	85.8（84.9）	324m
MacBert-Large	86.2（85.7）	85.6（85.0）	324m

よくある質問

Q1：マッバートの英語版はありますか？

A1：現時点ではありません。

Q2：MacBertの使用方法は？

A2：BERTを使用するのと同じように、モデルファイルを置き換えて使用するように設定するだけです。もちろん、モデルをロードすることで、他の事前に守られたモデルをさらにトレーニングすることもできます（つまり、トランスの初期化セクション）。

Q3：MacBertトレーニングコードを提供できますか？

A3：まだオープンソースプランはありません。

Q4：事前訓練を受けたコーパスをオープンできますか？

A4：それに応じて再リリースする権利がないため、オープンソーストレーニングコーパスはできません。 GitHubには、オープンソースの中国のコーパスリソースがいくつかあります。

Q5：より大きなコーパスとオープンソースでマッバートを訓練する計画はありますか？

A5：当面の計画はありません。

引用

このプロジェクトのリソースがあなたの研究に役立つ場合は、次の論文を引用してください。

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

または：

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

謝辞

Google TPU Research Cloud（TFRC）のコンピューティングリソースサポートに感謝します。

質問フィードバック

ご質問がある場合は、GitHub Issueで送信してください。

質問を提出する前に、FAQが問題を解決できるかどうかを確認してください。また、前の問題が問題を解決できるかどうかを確認することもお勧めします。
このプロジェクトに関連しない繰り返しの複製と問題は、[Stable-bot]（Stale・Github Marketplace）によって処理されます。
私たちはあなたの質問に可能な限り答えますが、あなたの質問に答えられることを保証することはできません。
丁寧に質問し、調和のとれたディスカッションコミュニティを構築します。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-18
サイズ 134.22KB
から Github

MacBERT

ニュース

目次

導入

ダウンロード

pytorch/tensorflow2バージョン

クイックロード

ベースライン効果

CMRC 2018

DRCD

xnli

Chnsenticorp

LCQMC

BQコーパス

よくある質問

引用

謝辞

質問フィードバック

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express