Chinese BERT wwmダウンロード - Chinese BERT wwmソースコードダウンロード

Chinese BERT wwm

その他のソースコード

1.0.0

ダウンロード

中国語 - ラマ-Alpaca-2 V1.0バージョンが正式にリリースされました！

中国語の説明|英語

自然言語処理の分野では、事前に訓練された言語モデル（事前訓練された言語モデル）が非常に重要な基本技術になりました。中国の情報処理の研究開発をさらに促進するために、単語のマスキングテクノロジー全体に基づいて中国の事前訓練を受けたモデルBERT-WWMをリリースし、この技術に密接に関連するモデル：Bert-WWM-Ext、Roberta-WWM-Ext-Large、RBT3、RBTL3など。

中国のバートのための単語全体のマスキングでトレーニング前
Yiming Cui、Wanxiang Che、Ting Liu、Bing Qin、Ziqing Yang
音声、音声、言語処理（TASLP）に関するIEEE/ACMトランザクションで公開

このプロジェクトは、Googleの公式Bert：https：//github.com/google-research/bertに基づいています

Harbin Institute of Technology（HFL）のIFLがリリースするリソースをご覧ください：https：//github.com/ymcui/hfl-anthology

ニュース

2023/3/28オープンソースチャイニーズラマ＆アルパカビッグモデルは、PCで迅速に展開および経験することができます。

2023/3/9グラフィックスとテキストでマルチモーダルの事前訓練を受けたモデルVLEを提案します。

2022/11/15私たちは、中国の小さな訓練を受けたモデルのminirbtを提案します。表示：https：//github.com/iflytek/minirbt

2022/10/29言語情報を統合する事前に訓練されたモデルLERTを提案します。表示：https：//github.com/ymcui/lert

2022/3/30新しい事前訓練を受けたモデルPERTをオープンソース。表示：https：//github.com/ymcui/pert

歴史的なニュース

2021/12/17 Iflytek共同研究所は、モデル切削工具キットTextPrunerを起動します。表示：https：//github.com/iararia/textpruner

2021/10/24 Iflytek共同研究所は、少数民族の言語向けに事前に訓練されたモデルCINOをリリースしました。ビュー：https：//github.com/ymcui/chinese-minority-plm

2021/7/21「自然言語処理：トレーニング前モデルに基づく方法」Harbin Institute of Technology Scirの多くの学者によって書かれた方法が公開されており、誰もがそれを購入できます。

2021/1/27すべてのモデルはTensorflow 2をサポートしています。トランスフォーマーライブラリから電話またはダウンロードしてください。 https://huggingface.co/hfl

2020/9/15私たちの論文「中国の自然言語処理の事前に訓練されたモデルの再訪」は、EMNLPの調査結果によって長い記事として雇われました。

2020/8/27 IFL共同研究所は、General Natural Language Understanting評価の接着剤のリストのトップになりました。

2020/3/23このディレクトリでリリースされたモデルは、パドルパドルハブに接続されています。

2020/3/11ニーズをよりよく理解するために、より良いリソースを提供するためにアンケートに記入するよう招待されています。

2020/2/26 Iflytek共同研究所は、知識蒸留ツールのテキストブリューアーを解放します

2020/1/20ネズミの年の幸運を祈ります。今回は、RBT3とRBTL3（3層Roberta-WWM-Ext-Base/Large）がリリースされ、小さなパラメーター数量モデルが表示されました。

2019/12/19このディレクトリに公開されているモデルは、高速負荷を表示するためにHuggingface-Transformersに接続されています

2019/10/14 roberta-wwm-ext-largeモデルをリリースし、中国モデルのダウンロードを見る

2019/9/10 roberta-wwm-extモデルをリリースし、中国モデルのダウンロードを表示

2019/7/30は、より大きな一般的なコーパス（5.4bワードカウント）で訓練された中国のBERT-wwm-extモデルを提供しています。

2019/6/20初期バージョンでは、モデルはGoogleからダウンロードでき、国内のクラウドディスクもアップロードされています。中国モデルのダウンロードを確認してください

コンテンツガイダンス

章	説明する
導入	Bert-WWMの基本原則の紹介
中国のモデルのダウンロード	Bert-WWMのダウンロードアドレスを提供します
クイックロード	トランスとパドルハブの使用方法モデルをすばやく読み込みます
モデル比較	このディレクトリのモデルのパラメーターの比較を提供します
中国のベースラインシステム効果	中国のベースラインシステムの効果をリストします
小さなパラメーター数量モデル	小さなパラメーター数量モデル（3層変圧器）の効果をリストします
使用に関する推奨事項	中国の事前訓練モデルを使用するためのいくつかの提案が提供されます
英語モデルをダウンロードしてください	Googleの公式英語Bert-WWMダウンロードアドレス
よくある質問	FAQと回答
引用	このディレクトリの技術レポート

導入

フルワードマスクまたは整词Mask全词Maskとして一時的に翻訳されたWhole Word Masking（WWM）は、2019年5月31日にGoogleがリリースしたBertのアップグレードバージョンであり、主に元のトレーニング前の段階でトレーニングサンプル生成戦略を変更します。簡単に言えば、元のワードピースベースの単語セグメンテーション方法は、完全な単語をいくつかのサブワードに分割します。トレーニングサンプルを生成すると、これらの分離されたサブワードはランダムにマスクされます。全词Maskでは、完全な単語のワードピースサブワードがマスクされている場合、同じ単語の他の部分がマスクされている、つまり全词Mask 。

ここのマスクは一般化されたマスク（[マスク]に置き換えられ、元の語彙を維持し、ランダムに別の単語に置き換えます）を指し、単語が[MASK]タグに置き換える場合に限定されないことに注意してください。より詳細な説明と例については、＃4を参照してください。

同様に、GoogleはBERT-base, Chinese公式にリリースして以来、中国語は粒度としてキャラクターで分割され、従来のNLPの中国分詞（CWS）を考慮していません。中国語でフルワードマスクの方法を適用し、トレーニングに中国のウィキペディア（簡素化された伝統的な中国語を含む）を使用し、ハルビン技術研究所LTPを単語セグメンテーションツールとして使用しました。つまり、同じ単語を構成するすべての漢字がマッピングされました。

次のテキストは全词Maskのサンプル生成を示しています。注：簡単に理解するために、[マスク]タグを交換する場合のみが、次の例で考慮されます。

説明します	サンプル
元のテキスト	言語モデルを使用して、次の単語の確率を予測します。
単語分詞テキスト	言語モデルを使用して、次の単語の確率を予測します。
元のマスク入力	言語[マスク]タイプを使用して、次の単語pro [マスク] ## lityのプロ[マスク]をテストします。
完全なワードマスク入力	言語[マスク] [マスク]から[マスク] [マスク]を使用して、次の単語[マスク] [マスク]を使用します。

中国のモデルのダウンロード

このディレクトリには主にベースモデルが含まれているため、モデルの略語に単語baseにラベルを付けません。他のサイズのモデルの場合、対応するタグ（たとえば、大きい）にマークされています。

BERT-large模型：24層、1024距離、16頭、330mパラメーター
BERT-base模型：12層、768人の隠された、12頭、110mパラメーター

注：オープンソースバージョンには、MLMタスクの重量が含まれていません。 MLMタスクを実行する必要がある場合は、セカンダリプリトレーニングに追加データを使用してください（他のダウンストリームタスクと同様）。

モデルの略語	材料	Googleダウンロード	Baidu Netdiskダウンロード
`RBT6, Chinese`	extデータ^[1]	-	Tensorflow（パスワードhniy）
`RBT4, Chinese`	extデータ^[1]	-	Tensorflow（パスワードSJPT）
`RBTL3, Chinese`	extデータ^[1]	Tensorflow Pytorch	Tensorflow（パスワードS6CU）
`RBT3, Chinese`	extデータ^[1]	Tensorflow Pytorch	Tensorflow（パスワード5A57）
`RoBERTa-wwm-ext-large, Chinese`	extデータ^[1]	Tensorflow Pytorch	Tensorflow（パスワードDQQE）
`RoBERTa-wwm-ext, Chinese`	extデータ^[1]	Tensorflow Pytorch	Tensorflow（パスワードvybq）
`BERT-wwm-ext, Chinese`	extデータ^[1]	Tensorflow Pytorch	Tensorflow（パスワードWGNT）
`BERT-wwm, Chinese`	中国のウィキ	Tensorflow Pytorch	Tensorflow（パスワードQFH8）
`BERT-base, Chinese` ^Google	中国のウィキ	Googleクラウド	-
`BERT-base, Multilingual Cased` ^Google	多言語wiki	Googleクラウド	-
`BERT-base, Multilingual Uncased` ^Google	多言語wiki	Googleクラウド	-

[1] EXTデータには、中国のウィキペディア、その他の百科事典、ニュース、Q＆A、その他のデータが含まれます。

Pytorchバージョン

Pytorchバージョンが必要な場合は、

1）トランスが提供する変換スクリプトを通して自分で変換してください。

2）Huggingface：https：//huggingface.co/hflの公式ウェブサイトからPytorchを直接ダウンロードする

ダウンロード方法：ダウンロードするモデルをクリックします→[ファイルとバージョン]タブを選択→対応するモデルファイルをダウンロードします。

使用する手順

中国本土でBaidu NetDiskダウンロードポイントを使用することをお勧めします。また、海外のユーザーはGoogleダウンロードポイントを使用することをお勧めします。ベースモデルファイルのサイズは約400mです。 TensorflowバージョンのBERT-wwm, Chinese例として使用して、ダウンロードした後、ZIPファイルを減圧して取得します。

 chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

その中で、 bert_config.jsonとvocab.txt 、GoogleのオリジナルのBERT-base, Chineseとまったく同じです。 Pytorchバージョンには、 pytorch_model.bin 、 bert_config.json 、 vocab.txtファイルが含まれています。

クイックロード

Huggingface-Transformersを使用します

「Transformersライブラリ」に依存すると、上記のモデルは簡単に呼び出されます。

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

注：このディレクトリのすべてのモデルは、BerttokenizerとBertmodelを使用してロードされます。 robertatokenizer/robertamodelを使用しないでください！

MODEL_NAMEの対応するリストは次のとおりです。

モデル名	model_name
roberta-wwm-ext-large	HFL/中国 - ロベルタ-WWM-Ext-Large
roberta-wwm-ext	HFL/中国 - ロベルタ-WWM-Ext
bert-wwm-ext	HFL/中国語-WWM-Ext
bert-wwm	HFL/中国人-WWM
RBT3	HFL/RBT3
RBTL3	HFL/RBTL3

Paddlehubの使用

Paddlehubに依存すると、モデルを1行のコードでダウンロードしてインストールできます。10行以上のコードは、テキスト分類、シーケンスアノテーション、読解力などのタスクを完了できます。

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

MODULE_NAMEの対応するリストは次のとおりです。

モデル名	module_name
roberta-wwm-ext-large	中国 - ロベルタ-WWM-Ext-Large
roberta-wwm-ext	中国 - ロベルタ-WWM-EXT
bert-wwm-ext	中国人-WWM-Ext
bert-wwm	中国人 - wwm
RBT3	RBT3
RBTL3	RBTL3

モデル比較

以下は、誰もがより心配しているモデルの詳細のいくつかの要約です。

-	バート^グーグル	bert-wwm	bert-wwm-ext	roberta-wwm-ext	roberta-wwm-ext-large
マスキング	ワードピース	WWM ^[1]	WWM	WWM	WWM
タイプ	ベース	ベース	ベース	ベース	大きい
データソース	ウィキ	ウィキ	wiki+ext ^[2]	wiki+ext	wiki+ext
トレーニングトークン＃	0.4b	0.4b	5.4b	5.4b	5.4b
デバイス	TPU POD V2	TPU V3	TPU V3	TPU V3	TPU POD V3-32 ^[3]
トレーニング手順	？	100K ^MAX128 +100K ^MAX512	1M ^MAX128 +400K ^MAX512	1M ^MAX512	2m ^max512
バッチサイズ	？	2,560 / 384	2,560 / 384	384	512
オプティマイザ	アダム	子羊	子羊	アダム	アダム
語彙	21,128	〜Bert ^[4]	〜バート	〜バート	〜バート
initチェックポイント	ランダムinit	〜バート	〜バート	〜バート	ランダムinit

[1] wwm =全体のワードマスキング
[2] ext =拡張データ
[3] TPU POD V3-32（512G HBM）は4つのTPU V3（128G HBM）に相当します
[4] ~BERT Googleの元の中国のBertの属性を継承することを意味します

中国のベースラインシステム効果

ベースライン効果を比較するために、句子级と篇章级タスクを含む、次の中国のデータセットでテストしました。 BERT-wwm-ext 、 RoBERTa-wwm-ext 、およびRoBERTa-wwm-ext-largeの場合、最適な学習率をさらに調整することはありませんでしたが、 BERT-wwmの最適な学習率を直接使用しました。

最良の学習率：

モデル	バート	アーニー	bert-wwm*
CMRC 2018	3E-5	8e-5	3E-5
DRCD	3E-5	8e-5	3E-5
CJRC	4E-5	8e-5	4E-5
xnli	3E-5	5E-5	3E-5
Chnsenticorp	2E-5	5E-5	2E-5
LCQMC	2E-5	3E-5	2E-5
BQコーパス	3E-5	5E-5	3E-5
thucnews	2E-5	5E-5	2E-5

*すべてのWWMシリーズモデルを表します（Bert-WWM、Bert-WWM-Ext、Roberta-WWM-Ext、Roberta-WWM-Ext-Large）

いくつかの結果のみを以下に示します。完全な結果については、テクニカルレポートをご覧ください。

CMRC 2018 ：章の断片抽出の読解力（簡素化された中国語）
DRCD ：章の断片抽出の読解力（伝統的な中国語）
CJRC ：法的読解（単純化された中国語）
XNLI ：自然言語の推論
Chnsenticorp ：Senti分析
LCQMC ：文のマッチング
BQコーパス：文のマッチング
Thucnews ：チャプターレベルのテキスト分類

注：結果の信頼性を確保するために、同じモデルで、モデルパフォーマンスの最大値と平均値（ブラケットの平均値）を報告するために10倍（異なるランダムシード）を実行します。予期しないことが起こらない場合、操作の結果はこの範囲にあるはずです。

評価インジケーターでは、平均値は括弧内に表され、最大値はブラケットの外側に表されます。

単純化された中国の読解：CMRC 2018

CMRC 2018データセットは、ハルビン工科大学の合同研究所によってリリースされた中国の機械読解データです。特定の質問によると、システムは、章から章から断片を答えとして抽出する必要があります。評価指標は次のとおりです。EM / F1

モデル	開発セット	テストセット	チャレンジセット
バート	65.5（64.4） / 84.5（84.0）	70.0（68.7） / 87.0（86.3）	18.6（17.0） / 43.3（41.3）
アーニー	65.4（64.3） / 84.7（84.2）	69.4（68.2） / 86.6（86.1）	19.6（17.0） / 44.3（42.8）
bert-wwm	66.3（65.0） / 85.6（84.7）	70.5（69.1） / 87.4（86.7）	21.0（19.3） / 47.0（43.9）
bert-wwm-ext	67.1（65.6） / 85.7（85.0）	71.4（70.0） / 87.7（87.0）	24.0（20.0） / 47.3（44.6）
roberta-wwm-ext	67.4（66.5） / 87.2（86.5）	72.6（71.4） / 89.4（88.8）	26.2（24.6） / 51.0（49.1）
roberta-wwm-ext-large	68.5（67.6） / 88.4（87.9）	74.2（72.4） / 90.6（90.0）	31.5（30.1） / 60.1（57.5）

伝統的な中国の読解：DRCD

DRCDデータセットは、中国の台湾にあるデルタ研究所によってリリースされました。そのフォームは分隊と同じであり、伝統的な中国語に基づいた抽出された読解データセットです。従来の漢字はアーニーから削除されるため、従来の中国人データでアーニーを使用して（または単純化された中国人に変換してから処理する）ことはお勧めしません。評価指標は次のとおりです。EM / F1

モデル	開発セット	テストセット
バート	83.1（82.7） / 89.9（89.6）	82.2（81.6） / 89.2（88.8）
アーニー	73.2（73.0） / 83.9（83.8）	71.9（71.4） / 82.5（82.3）
bert-wwm	84.3（83.4） / 90.5（90.2）	82.8（81.8） / 89.7（89.0）
bert-wwm-ext	85.0（84.5） / 91.2（90.9）	83.6（83.0） / 90.4（89.9）
roberta-wwm-ext	86.6（85.9） / 92.5（92.2）	85.6（85.2） / 92.0（91.7）
roberta-wwm-ext-large	89.6（89.1） / 94.8（94.4）	89.6（88.9） / 94.5（94.1）

司法読解：CJRC

CJRCデータセットは、 Iflytekの共同研究所によってリリースされた司法分野の中国の機械読解データです。実験で使用されるデータは、公式がリリースした最終データではなく、結果は参照のみであることに注意する必要があります。評価指標は次のとおりです。EM / F1

モデル	開発セット	テストセット
バート	54.6（54.0） / 75.4（74.5）	55.1（54.1） / 75.2（74.3）
アーニー	54.3（53.9） / 75.3（74.6）	55.0（53.9） / 75.0（73.9）
bert-wwm	54.7（54.0） / 75.2（74.8）	55.1（54.1） / 75.4（74.4）
bert-wwm-ext	55.6（54.8） / 76.0（75.3）	55.6（54.9） / 75.8（75.0）
roberta-wwm-ext	58.7（57.6） / 79.1（78.3）	59.0（57.8） / 79.0（78.0）
roberta-wwm-ext-large	62.1（61.1） / 82.4（81.6）	62.4（61.4） / 82.2（81.0）

自然言語の推論：xnli

自然言語の推論タスクでは、 XNLIデータを採用します。これcontradictoryは、テキストを3つのカテゴリにentailmentする必要がありますneutral評価インジケーターは次のとおりです。精度

モデル	開発セット	テストセット
バート	77.8（77.4）	77.8（77.5）
アーニー	79.7（79.4）	78.6（78.2）
bert-wwm	79.0（78.4）	78.2（78.0）
bert-wwm-ext	79.4（78.6）	78.7（78.3）
roberta-wwm-ext	80.0（79.2）	78.8（78.3）
roberta-wwm-ext-large	82.1（81.3）	81.2（80.6）

センチコープ

センチメント分析タスクでは、バイナリ感情分類データセットchnsenticorp。評価インジケーターは次のとおりです。精度

モデル	開発セット	テストセット
バート	94.7（94.3）	95.0（94.7）
アーニー	95.4（94.8）	95.4 （95.3）
bert-wwm	95.1（94.5）	95.4（95.0）
bert-wwm-ext	95.4（94.6）	95.3（94.7）
roberta-wwm-ext	95.0（94.6）	95.6（94.8）
roberta-wwm-ext-large	95.8（94.9）	95.8 （94.9）

文ペアの分類：LCQMC、BQコーパス

次の2つのデータセットでは、文のペアを分類して、2つの文のセマンティクスが同じかどうかを判断する必要があります（バイナリ分類タスク）。

LCQMC

LCQMCは、Harbin Technology Institute of Shenzhen大学院のインテリジェントコンピューティングリサーチセンターによってリリースされました。評価インジケーターは次のとおりです。精度

モデル	開発セット	テストセット
バート	89.4（88.4）	86.9（86.4）
アーニー	89.8（89.6）	87.2（87.0）
bert-wwm	89.4（89.2）	87.0（86.8）
bert-wwm-ext	89.6（89.2）	87.1（86.6）
roberta-wwm-ext	89.0（88.7）	86.4（86.1）
roberta-wwm-ext-large	90.4（90.0）	87.0（86.8）

BQコーパス

BQ Corpusは、Harbin Technology Institute of Shenzhen大学院のインテリジェントコンピューティングリサーチセンターによってリリースされ、銀行分野のデータセットです。評価インジケーターは次のとおりです。精度

モデル	開発セット	テストセット
バート	86.0（85.5）	84.8（84.6）
アーニー	86.3（85.5）	85.0（84.6）
bert-wwm	86.1（85.6）	85.2 （84.9）
bert-wwm-ext	86.4 （85.5）	85.3（84.8）
roberta-wwm-ext	86.0（85.4）	85.0（84.6）
roberta-wwm-ext-large	86.3 （85.7）	85.8（84.9）

チャプターレベルのテキスト分類：Thucnews

チャプターレベルのテキスト分類タスクについては、Tsinghua大学の自然言語処理研究所がリリースしたニュースデータセットであるThucnewsを選択しました。私たちはサブセットの1つを取得しており、ニュースを10のカテゴリの1つに分割する必要があります。評価インジケーターは次のとおりです。精度

モデル	開発セット	テストセット
バート	97.7（97.4）	97.8（97.6）
アーニー	97.6（97.3）	97.5（97.3）
bert-wwm	98.0（97.6）	97.8（97.6）
bert-wwm-ext	97.7（97.5）	97.7（97.5）
roberta-wwm-ext	98.3（97.9）	97.7（97.5）
roberta-wwm-ext-large	98.3（97.7）	97.8（97.6）

小さなパラメーター数量モデル

以下は、いくつかのNLPタスクの実験結果であり、テストセットの結果の比較のみが表に記載されています。

モデル	CMRC 2018	DRCD	xnli	CSC	LCQMC	BQ	平均	パラメーター数
roberta-wwm-ext-large	74.2 / 90.6	89.6 / 94.5	81.2	95.8	87.0	85.8	87.335	325m
roberta-wwm-ext	72.6 / 89.4	85.6 / 92.0	78.8	95.6	86.4	85.0	85.675	102m
RBTL3	63.3 / 83.4	77.2 / 85.6	74.0	94.2	85.1	83.6	80.800	61m（59.8％）
RBT3	62.2 / 81.8	75.0 / 83.9	72.3	92.8	85.1	83.3	79.550	38m（37.3％）

相対効果の比較：

モデル	CMRC 2018	DRCD	xnli	CSC	LCQMC	BQ	平均	分類平均
roberta-wwm-ext-large	102.2％ / 101.3％	104.7％ / 102.7％	103.0％	100.2％	100.7％	100.9％	101.9％	101.2％
roberta-wwm-ext	100％ / 100％	100％ / 100％	100％	100％	100％	100％	100％	100％
RBTL3	87.2％ / 93.3％	90.2％ / 93.0％	93.9％	98.5％	98.5％	98.4％	94.3％	97.35％
RBT3	85.7％ / 91.5％	87.6％ / 91.2％	91.8％	97.1％	98.5％	98.0％	92.9％	96.35％

パラメーター数量は、XNLI分類タスクに基づいて計算されます
ブラケットのパラメーターの割合は、元のベースモデル（つまり、Roberta-WWM-Ext）に基づいています
RBT3：Roberta-WWM-Ext Layer 3によって初期化され、1mのステップでトレーニングを続けました。
RBTL3：Roberta-WWM-Ext-Large Layer 3によって初期化され、1mのステップでトレーニングを続けました。
RBTの名前はロバータの3つの音節イニシャルで構成され、Lは大きなモデルを表します
初期化とトレーニングのダウンストリームタスクのためにRoberta-WWM-Ext-Largeの最初の3層を直接使用すると、効果が大幅に低下します。たとえば、CMRC 2018では、テストセットは42.9/65.3にしか達しませんが、RBTL3は63.3/83.4に達することができます。

より良い結果を伴う中国の小さな訓練を受けたモデルMINIRBTへようこそ：https：//github.com/iflytek/minirbt

使用に関する推奨事項

初期学習率は非常に重要なパラメーター（ BERTまたは他のモデルであろうと）であり、ターゲットタスクに従って調整する必要があります。
ERNIEの最適学習率はBERT / BERT-wwmとはまったく異なるため、 ERNIEを使用するときは学習率を調整してください（上記の実験結果に基づいて、 ERNIEに必要な初期学習率は比較的高いです）。
BERT / BERT-wwmはトレーニングにWikipediaデータを使用しているため、正式なテキストのモデリングに適しています。 ERNIE 、Baidu TiebaやZhiなどの追加のネットワークデータを使用しています。これは、非公式のテキスト（Weiboなど）のモデリングに利点があります。
読解力、ドキュメント分類、 BERT 、 BERT-wwmなどの長いテキストモデリングタスクでは、より良い結果が得られます。
ターゲットタスクのデータが事前に訓練されたモデルのフィールドと異なる場合は、独自のデータセットでさらに事前トレーニングを行います。
従来の中国のデータを処理する場合は、 BERTまたはBERT-wwmを使用してください。なぜなら、 ERNIEの語彙リストにはほとんど伝統的な中国人がいないことがわかったからです。

英語モデルをダウンロードしてください

全員がダウンロードできるようにするには、 Googleが正式にリリースしたEnglish BERT-large (wwm)モデルをお届けします。

BERT-Large, Uncased (Whole Word Masking) ：24層、1024距離、16頭、340mパラメーター
BERT-Large, Cased (Whole Word Masking) ：24層、1024距離、16頭、340mパラメーター

よくある質問

Q：このモデルの使用方法は？
A：Googleがリリースした中国のBertの使用方法、これを使用する方法。テキストは単語セグメンテーションを実行する必要はなく、WWMはトレーニング前のプロセスにのみ影響し、下流タスクの入力に影響しません。

Q：トレーニング前のコードはありますか？
A：残念ながら、関連するコードを提供することはできません。実装については、＃10と＃13を参照できます。

Q：特定のデータセットはどこからダウンロードしますか？
A： dataディレクトリを確認してください。タスクディレクトリのREADME.mdは、データソースを示します。著作権で保護されたコンテンツについては、自分で検索するか、元の著者に連絡してデータを取得してください。

Q：より大きなモデルをリリースする計画はありますか？たとえば、Bert-Large-WWMバージョン？
A：実験の結果が良くなった場合は、より大きなバージョンをリリースすることを検討します。

Q：あなたは嘘をついています！結果を再現できませんか？
A：ダウンストリームタスクでは、最も単純なモデルを採用しました。たとえば、分類タスクには、 run_classifier.py （Googleが提供）を直接使用します。平均値に達することができない場合、実験自体にバグがあることを意味します。注意深く確認してください。最高値には多くのランダムな要因があり、最高の値に達することができることを保証することはできません。もう1つの認識要因：バッチサイズを縮小すると、実験効果が大幅に減少します。詳細については、BERTおよびXLNETディレクトリの関連する問題を参照してください。

Q：あなたよりも良い結果が得られます！
A：おめでとうございます。

Q：訓練にはどのくらい時間がかかり、どのような機器が訓練しましたか？
A：Google TPU V3バージョン（128G HBM）でトレーニングが完了しました。 Bert-WMのトレーニングには約1。5日かかりますが、Bert-WWM-Extには数週間かかります（さらに多くのデータを使用して、より多くのデータを使用します）。トレーニング前の段階では、 LAMB Optimizer （TensorFlowバージョンの実装）を使用することに注意してください。このオプティマイザーは、大きなバッチを適切にサポートしています。ダウンストリームタスクを微調整する場合、BertのデフォルトのAdamWeightDecayOptimizerを使用します。

Q：アーニーは誰ですか？
A：このプロジェクトのアーニーモデルは、ACL 2019でTsinghua大学が発行したアーニーではなく、バイドゥが提案したアーニーを具体的に指します。

Q：Bert-WWMの効果はすべてのタスクであまり良くありません
A：このプロジェクトの目的は、研究者に多様な事前訓練を受けたモデルを提供し、Bert、Ernie、またはBert-WMを自由に選択することです。私たちは実験データのみを提供しているだけであり、結論を引き出すために私たち自身のタスクで常に最善を尽くさなければなりません。もう1つのモデル、もう1つの選択肢。

Q：なぜ一部のデータセットが試されていないのですか？
A：率直に言って、私はより多くのデータを見つける気分ではありません。 2）する必要はありません。 3）お金がありません。

Q：これらのモデルを簡単に評価しましょう
A：それぞれに独自の焦点と独自の強みがあります。中国の自然言語処理の研究開発には、すべての関係者からの共同努力が必要です。

Q：あなたが予測する次の事前に守られたモデルの名前は何ですか？
A：多分それはゾーイと呼ばれています。 ZOE：言語モデルからのゼロショット埋め込み

Q： RoBERTa-wwm-extモデルの詳細は？
A：RobertaとBert-WMの利点を統合して、2つの自然な組み合わせを作成します。このディレクトリのモデル間の違いは次のとおりです。
1）WWM戦略を使用して、トレーニング前の段階でマスクします（ただし、動的マスキングはありません）
2）次の文予測（NSP）損失をキャンセルするだけです
3）MAX_LEN = 128のトレーニングモードを使用しなくなり、MAX_LEN = 512、MAX_LEN = 512を直接トレーニングします
4）トレーニング手順を適切に延長します

このモデルは元のRobertaモデルではなく、同様のRobertaトレーニング方法、つまりRobertaのようなBertでトレーニングされたBertモデルであることに注意する必要があります。したがって、ダウンストリームタスクを使用してモデルを変換する場合は、ロベルタではなくバートでモデルを処理してください。

引用

このプロジェクトのリソースまたはテクノロジーが研究作業に役立つ場合は、論文の次の論文を参照してください。

優先（Journal Explore）：https：//ieeexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

または（会議バージョン）：https：//www.aclweb.org/anthology/2020.findings-emnlp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

謝辞

最初の著者は、GoogleのTPU Research Cloud Programによって部分的に資金提供されています。

免責事項

このプロジェクトは、Googleが公式にリリースした中国のBert-WMモデルではありません。同時に、このプロジェクトは、Harbin Institute of TechnologyまたはIflytekの公式製品ではありません。テクニカルレポートで提示された実験結果は、特定のデータセットとハイパーパラメーターの組み合わせでのパフォーマンスが各モデルの性質を表していないことを示しています。実験結果は、乱数の種子とコンピューティングデバイスのために変化する可能性があります。このプロジェクトのコンテンツは、技術研究の参照のみであり、最後の基盤として使用されません。ユーザーは、ライセンスの範囲内でいつでもモデルを使用できますが、プロジェクトのコンテンツの使用によって引き起こされる直接的または間接的な損失については責任を負いません。

私たちに従ってください

イフィーテク共同研究所の公式WeChat公式アカウントをフォローして、最新の技術動向について学びます。

質問フィードバック

ご質問がある場合は、GitHub Issueで送信してください。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-16
サイズ 15.63MB
から Github