中国語の説明|英語

自然言語処理の分野では、事前に訓練された言語モデル(事前訓練された言語モデル)が非常に重要な基本技術になりました。中国の情報処理の研究開発をさらに促進するために、単語のマスキングテクノロジー全体に基づいて中国の事前訓練を受けたモデルBERT-WWMをリリースし、この技術に密接に関連するモデル:Bert-WWM-Ext、Roberta-WWM-Ext-Large、RBT3、RBTL3など。
このプロジェクトは、Googleの公式Bert:https://github.com/google-research/bertに基づいています
中国語のレート|中国の英語のパート|中国のマッバート|中国のエレクトラ|中国のxlnet |中国のバート|知識蒸留ツールTextBrewer |モデル切削工具TextPruner
Harbin Institute of Technology(HFL)のIFLがリリースするリソースをご覧ください:https://github.com/ymcui/hfl-anthology
2023/3/28オープンソースチャイニーズラマ&アルパカビッグモデルは、PCで迅速に展開および経験することができます。
2023/3/9グラフィックスとテキストでマルチモーダルの事前訓練を受けたモデルVLEを提案します。
2022/11/15私たちは、中国の小さな訓練を受けたモデルのminirbtを提案します。表示:https://github.com/iflytek/minirbt
2022/10/29言語情報を統合する事前に訓練されたモデルLERTを提案します。表示:https://github.com/ymcui/lert
2022/3/30新しい事前訓練を受けたモデルPERTをオープンソース。表示:https://github.com/ymcui/pert
2021/10/24 Iflytek共同研究所は、少数民族の言語向けに事前に訓練されたモデルCINOをリリースしました。ビュー:https://github.com/ymcui/chinese-minority-plm
2021/7/21「自然言語処理:トレーニング前モデルに基づく方法」Harbin Institute of Technology Scirの多くの学者によって書かれた方法が公開されており、誰もがそれを購入できます。
2021/1/27すべてのモデルはTensorflow 2をサポートしています。トランスフォーマーライブラリから電話またはダウンロードしてください。 https://huggingface.co/hfl
2020/9/15私たちの論文「中国の自然言語処理の事前に訓練されたモデルの再訪」は、EMNLPの調査結果によって長い記事として雇われました。
2020/8/27 IFL共同研究所は、General Natural Language Understanting評価の接着剤のリストのトップになりました。
2020/3/23このディレクトリでリリースされたモデルは、パドルパドルハブに接続されています。
2020/3/11ニーズをよりよく理解するために、より良いリソースを提供するためにアンケートに記入するよう招待されています。
2020/2/26 Iflytek共同研究所は、知識蒸留ツールのテキストブリューアーを解放します
2020/1/20ネズミの年の幸運を祈ります。今回は、RBT3とRBTL3(3層Roberta-WWM-Ext-Base/Large)がリリースされ、小さなパラメーター数量モデルが表示されました。
2019/12/19このディレクトリに公開されているモデルは、高速負荷を表示するためにHuggingface-Transformersに接続されています
2019/10/14 roberta-wwm-ext-largeモデルをリリースし、中国モデルのダウンロードを見る
2019/9/10 roberta-wwm-extモデルをリリースし、中国モデルのダウンロードを表示
2019/7/30は、より大きな一般的なコーパス(5.4bワードカウント)で訓練された中国のBERT-wwm-extモデルを提供しています。
2019/6/20初期バージョンでは、モデルはGoogleからダウンロードでき、国内のクラウドディスクもアップロードされています。中国モデルのダウンロードを確認してください
| 章 | 説明する |
|---|---|
| 導入 | Bert-WWMの基本原則の紹介 |
| 中国のモデルのダウンロード | Bert-WWMのダウンロードアドレスを提供します |
| クイックロード | トランスとパドルハブの使用方法モデルをすばやく読み込みます |
| モデル比較 | このディレクトリのモデルのパラメーターの比較を提供します |
| 中国のベースラインシステム効果 | 中国のベースラインシステムの効果をリストします |
| 小さなパラメーター数量モデル | 小さなパラメーター数量モデル(3層変圧器)の効果をリストします |
| 使用に関する推奨事項 | 中国の事前訓練モデルを使用するためのいくつかの提案が提供されます |
| 英語モデルをダウンロードしてください | Googleの公式英語Bert-WWMダウンロードアドレス |
| よくある質問 | FAQと回答 |
| 引用 | このディレクトリの技術レポート |
フルワードマスクまたは整词Mask全词Maskとして一時的に翻訳されたWhole Word Masking(WWM)は、2019年5月31日にGoogleがリリースしたBertのアップグレードバージョンであり、主に元のトレーニング前の段階でトレーニングサンプル生成戦略を変更します。簡単に言えば、元のワードピースベースの単語セグメンテーション方法は、完全な単語をいくつかのサブワードに分割します。トレーニングサンプルを生成すると、これらの分離されたサブワードはランダムにマスクされます。全词Maskでは、完全な単語のワードピースサブワードがマスクされている場合、同じ単語の他の部分がマスクされている、つまり全词Mask 。
ここのマスクは一般化されたマスク([マスク]に置き換えられ、元の語彙を維持し、ランダムに別の単語に置き換えます)を指し、単語が[MASK]タグに置き換える場合に限定されないことに注意してください。より詳細な説明と例については、#4を参照してください。
同様に、GoogleはBERT-base, Chinese公式にリリースして以来、中国語は粒度としてキャラクターで分割され、従来のNLPの中国分詞(CWS)を考慮していません。中国語でフルワードマスクの方法を適用し、トレーニングに中国のウィキペディア(簡素化された伝統的な中国語を含む)を使用し、ハルビン技術研究所LTPを単語セグメンテーションツールとして使用しました。つまり、同じ単語を構成するすべての漢字がマッピングされました。
次のテキストは全词Maskのサンプル生成を示しています。注:簡単に理解するために、[マスク]タグを交換する場合のみが、次の例で考慮されます。
| 説明します | サンプル |
|---|---|
| 元のテキスト | 言語モデルを使用して、次の単語の確率を予測します。 |
| 単語分詞テキスト | 言語モデルを使用して、次の単語の確率を予測します。 |
| 元のマスク入力 | 言語[マスク]タイプを使用して、次の単語pro [マスク] ## lityのプロ[マスク]をテストします。 |
| 完全なワードマスク入力 | 言語[マスク] [マスク]から[マスク] [マスク]を使用して、次の単語[マスク] [マスク]を使用します。 |
このディレクトリには主にベースモデルが含まれているため、モデルの略語に単語baseにラベルを付けません。他のサイズのモデルの場合、対応するタグ(たとえば、大きい)にマークされています。
BERT-large模型:24層、1024距離、16頭、330mパラメーターBERT-base模型:12層、768人の隠された、12頭、110mパラメーター注:オープンソースバージョンには、MLMタスクの重量が含まれていません。 MLMタスクを実行する必要がある場合は、セカンダリプリトレーニングに追加データを使用してください(他のダウンストリームタスクと同様)。
| モデルの略語 | 材料 | Googleダウンロード | Baidu Netdiskダウンロード |
|---|---|---|---|
RBT6, Chinese | extデータ[1] | - | Tensorflow(パスワードhniy) |
RBT4, Chinese | extデータ[1] | - | Tensorflow(パスワードSJPT) |
RBTL3, Chinese | extデータ[1] | Tensorflow Pytorch | Tensorflow(パスワードS6CU) |
RBT3, Chinese | extデータ[1] | Tensorflow Pytorch | Tensorflow(パスワード5A57) |
RoBERTa-wwm-ext-large, Chinese | extデータ[1] | Tensorflow Pytorch | Tensorflow(パスワードDQQE) |
RoBERTa-wwm-ext, Chinese | extデータ[1] | Tensorflow Pytorch | Tensorflow(パスワードvybq) |
BERT-wwm-ext, Chinese | extデータ[1] | Tensorflow Pytorch | Tensorflow(パスワードWGNT) |
BERT-wwm, Chinese | 中国のウィキ | Tensorflow Pytorch | Tensorflow(パスワードQFH8) |
BERT-base, Chinese Google | 中国のウィキ | Googleクラウド | - |
BERT-base, Multilingual Cased Google | 多言語wiki | Googleクラウド | - |
BERT-base, Multilingual Uncased Google | 多言語wiki | Googleクラウド | - |
[1] EXTデータには、中国のウィキペディア、その他の百科事典、ニュース、Q&A、その他のデータが含まれます。
Pytorchバージョンが必要な場合は、
1)トランスが提供する変換スクリプトを通して自分で変換してください。
2)Huggingface:https://huggingface.co/hflの公式ウェブサイトからPytorchを直接ダウンロードする
ダウンロード方法:ダウンロードするモデルをクリックします→[ファイルとバージョン]タブを選択→対応するモデルファイルをダウンロードします。
中国本土でBaidu NetDiskダウンロードポイントを使用することをお勧めします。また、海外のユーザーはGoogleダウンロードポイントを使用することをお勧めします。ベースモデルファイルのサイズは約400mです。 TensorflowバージョンのBERT-wwm, Chinese例として使用して、ダウンロードした後、ZIPファイルを減圧して取得します。
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
その中で、 bert_config.jsonとvocab.txt 、GoogleのオリジナルのBERT-base, Chineseとまったく同じです。 Pytorchバージョンには、 pytorch_model.bin 、 bert_config.json 、 vocab.txtファイルが含まれています。
「Transformersライブラリ」に依存すると、上記のモデルは簡単に呼び出されます。
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
注:このディレクトリのすべてのモデルは、BerttokenizerとBertmodelを使用してロードされます。 robertatokenizer/robertamodelを使用しないでください!
MODEL_NAMEの対応するリストは次のとおりです。
| モデル名 | model_name |
|---|---|
| roberta-wwm-ext-large | HFL/中国 - ロベルタ-WWM-Ext-Large |
| roberta-wwm-ext | HFL/中国 - ロベルタ-WWM-Ext |
| bert-wwm-ext | HFL/中国語-WWM-Ext |
| bert-wwm | HFL/中国人-WWM |
| RBT3 | HFL/RBT3 |
| RBTL3 | HFL/RBTL3 |
Paddlehubに依存すると、モデルを1行のコードでダウンロードしてインストールできます。10行以上のコードは、テキスト分類、シーケンスアノテーション、読解力などのタスクを完了できます。
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
MODULE_NAMEの対応するリストは次のとおりです。
| モデル名 | module_name |
|---|---|
| roberta-wwm-ext-large | 中国 - ロベルタ-WWM-Ext-Large |
| roberta-wwm-ext | 中国 - ロベルタ-WWM-EXT |
| bert-wwm-ext | 中国人-WWM-Ext |
| bert-wwm | 中国人 - wwm |
| RBT3 | RBT3 |
| RBTL3 | RBTL3 |
以下は、誰もがより心配しているモデルの詳細のいくつかの要約です。
| - | バートグーグル | bert-wwm | bert-wwm-ext | roberta-wwm-ext | roberta-wwm-ext-large |
|---|---|---|---|---|---|
| マスキング | ワードピース | WWM [1] | WWM | WWM | WWM |
| タイプ | ベース | ベース | ベース | ベース | 大きい |
| データソース | ウィキ | ウィキ | wiki+ext [2] | wiki+ext | wiki+ext |
| トレーニングトークン# | 0.4b | 0.4b | 5.4b | 5.4b | 5.4b |
| デバイス | TPU POD V2 | TPU V3 | TPU V3 | TPU V3 | TPU POD V3-32 [3] |
| トレーニング手順 | ? | 100K MAX128 +100K MAX512 | 1M MAX128 +400K MAX512 | 1M MAX512 | 2m max512 |
| バッチサイズ | ? | 2,560 / 384 | 2,560 / 384 | 384 | 512 |
| オプティマイザ | アダム | 子羊 | 子羊 | アダム | アダム |
| 語彙 | 21,128 | 〜Bert [4] | 〜バート | 〜バート | 〜バート |
| initチェックポイント | ランダムinit | 〜バート | 〜バート | 〜バート | ランダムinit |
[1] wwm =全体のワードマスキング
[2] ext =拡張データ
[3] TPU POD V3-32(512G HBM)は4つのTPU V3(128G HBM)に相当します
[4]~BERTGoogleの元の中国のBertの属性を継承することを意味します
ベースライン効果を比較するために、句子级と篇章级タスクを含む、次の中国のデータセットでテストしました。 BERT-wwm-ext 、 RoBERTa-wwm-ext 、およびRoBERTa-wwm-ext-largeの場合、最適な学習率をさらに調整することはありませんでしたが、 BERT-wwmの最適な学習率を直接使用しました。
最良の学習率:
| モデル | バート | アーニー | bert-wwm* |
|---|---|---|---|
| CMRC 2018 | 3E-5 | 8e-5 | 3E-5 |
| DRCD | 3E-5 | 8e-5 | 3E-5 |
| CJRC | 4E-5 | 8e-5 | 4E-5 |
| xnli | 3E-5 | 5E-5 | 3E-5 |
| Chnsenticorp | 2E-5 | 5E-5 | 2E-5 |
| LCQMC | 2E-5 | 3E-5 | 2E-5 |
| BQコーパス | 3E-5 | 5E-5 | 3E-5 |
| thucnews | 2E-5 | 5E-5 | 2E-5 |
*すべてのWWMシリーズモデルを表します(Bert-WWM、Bert-WWM-Ext、Roberta-WWM-Ext、Roberta-WWM-Ext-Large)
いくつかの結果のみを以下に示します。完全な結果については、テクニカルレポートをご覧ください。
注:結果の信頼性を確保するために、同じモデルで、モデルパフォーマンスの最大値と平均値(ブラケットの平均値)を報告するために10倍(異なるランダムシード)を実行します。予期しないことが起こらない場合、操作の結果はこの範囲にあるはずです。
評価インジケーターでは、平均値は括弧内に表され、最大値はブラケットの外側に表されます。
CMRC 2018データセットは、ハルビン工科大学の合同研究所によってリリースされた中国の機械読解データです。特定の質問によると、システムは、章から章から断片を答えとして抽出する必要があります。評価指標は次のとおりです。EM / F1
| モデル | 開発セット | テストセット | チャレンジセット |
|---|---|---|---|
| バート | 65.5(64.4) / 84.5(84.0) | 70.0(68.7) / 87.0(86.3) | 18.6(17.0) / 43.3(41.3) |
| アーニー | 65.4(64.3) / 84.7(84.2) | 69.4(68.2) / 86.6(86.1) | 19.6(17.0) / 44.3(42.8) |
| bert-wwm | 66.3(65.0) / 85.6(84.7) | 70.5(69.1) / 87.4(86.7) | 21.0(19.3) / 47.0(43.9) |
| bert-wwm-ext | 67.1(65.6) / 85.7(85.0) | 71.4(70.0) / 87.7(87.0) | 24.0(20.0) / 47.3(44.6) |
| roberta-wwm-ext | 67.4(66.5) / 87.2(86.5) | 72.6(71.4) / 89.4(88.8) | 26.2(24.6) / 51.0(49.1) |
| roberta-wwm-ext-large | 68.5(67.6) / 88.4(87.9) | 74.2(72.4) / 90.6(90.0) | 31.5(30.1) / 60.1(57.5) |
DRCDデータセットは、中国の台湾にあるデルタ研究所によってリリースされました。そのフォームは分隊と同じであり、伝統的な中国語に基づいた抽出された読解データセットです。従来の漢字はアーニーから削除されるため、従来の中国人データでアーニーを使用して(または単純化された中国人に変換してから処理する)ことはお勧めしません。評価指標は次のとおりです。EM / F1
| モデル | 開発セット | テストセット |
|---|---|---|
| バート | 83.1(82.7) / 89.9(89.6) | 82.2(81.6) / 89.2(88.8) |
| アーニー | 73.2(73.0) / 83.9(83.8) | 71.9(71.4) / 82.5(82.3) |
| bert-wwm | 84.3(83.4) / 90.5(90.2) | 82.8(81.8) / 89.7(89.0) |
| bert-wwm-ext | 85.0(84.5) / 91.2(90.9) | 83.6(83.0) / 90.4(89.9) |
| roberta-wwm-ext | 86.6(85.9) / 92.5(92.2) | 85.6(85.2) / 92.0(91.7) |
| roberta-wwm-ext-large | 89.6(89.1) / 94.8(94.4) | 89.6(88.9) / 94.5(94.1) |
CJRCデータセットは、 Iflytekの共同研究所によってリリースされた司法分野の中国の機械読解データです。実験で使用されるデータは、公式がリリースした最終データではなく、結果は参照のみであることに注意する必要があります。評価指標は次のとおりです。EM / F1
| モデル | 開発セット | テストセット |
|---|---|---|
| バート | 54.6(54.0) / 75.4(74.5) | 55.1(54.1) / 75.2(74.3) |
| アーニー | 54.3(53.9) / 75.3(74.6) | 55.0(53.9) / 75.0(73.9) |
| bert-wwm | 54.7(54.0) / 75.2(74.8) | 55.1(54.1) / 75.4(74.4) |
| bert-wwm-ext | 55.6(54.8) / 76.0(75.3) | 55.6(54.9) / 75.8(75.0) |
| roberta-wwm-ext | 58.7(57.6) / 79.1(78.3) | 59.0(57.8) / 79.0(78.0) |
| roberta-wwm-ext-large | 62.1(61.1) / 82.4(81.6) | 62.4(61.4) / 82.2(81.0) |
自然言語の推論タスクでは、 XNLIデータを採用します。これcontradictoryは、テキストを3つのカテゴリにentailmentする必要がありますneutral評価インジケーターは次のとおりです。精度
| モデル | 開発セット | テストセット |
|---|---|---|
| バート | 77.8(77.4) | 77.8(77.5) |
| アーニー | 79.7(79.4) | 78.6(78.2) |
| bert-wwm | 79.0(78.4) | 78.2(78.0) |
| bert-wwm-ext | 79.4(78.6) | 78.7(78.3) |
| roberta-wwm-ext | 80.0(79.2) | 78.8(78.3) |
| roberta-wwm-ext-large | 82.1(81.3) | 81.2(80.6) |
センチメント分析タスクでは、バイナリ感情分類データセットchnsenticorp。評価インジケーターは次のとおりです。精度
| モデル | 開発セット | テストセット |
|---|---|---|
| バート | 94.7(94.3) | 95.0(94.7) |
| アーニー | 95.4(94.8) | 95.4 (95.3) |
| bert-wwm | 95.1(94.5) | 95.4(95.0) |
| bert-wwm-ext | 95.4(94.6) | 95.3(94.7) |
| roberta-wwm-ext | 95.0(94.6) | 95.6(94.8) |
| roberta-wwm-ext-large | 95.8(94.9) | 95.8 (94.9) |
次の2つのデータセットでは、文のペアを分類して、2つの文のセマンティクスが同じかどうかを判断する必要があります(バイナリ分類タスク)。
LCQMCは、Harbin Technology Institute of Shenzhen大学院のインテリジェントコンピューティングリサーチセンターによってリリースされました。評価インジケーターは次のとおりです。精度
| モデル | 開発セット | テストセット |
|---|---|---|
| バート | 89.4(88.4) | 86.9(86.4) |
| アーニー | 89.8(89.6) | 87.2(87.0) |
| bert-wwm | 89.4(89.2) | 87.0(86.8) |
| bert-wwm-ext | 89.6(89.2) | 87.1(86.6) |
| roberta-wwm-ext | 89.0(88.7) | 86.4(86.1) |
| roberta-wwm-ext-large | 90.4(90.0) | 87.0(86.8) |
BQ Corpusは、Harbin Technology Institute of Shenzhen大学院のインテリジェントコンピューティングリサーチセンターによってリリースされ、銀行分野のデータセットです。評価インジケーターは次のとおりです。精度
| モデル | 開発セット | テストセット |
|---|---|---|
| バート | 86.0(85.5) | 84.8(84.6) |
| アーニー | 86.3(85.5) | 85.0(84.6) |
| bert-wwm | 86.1(85.6) | 85.2 (84.9) |
| bert-wwm-ext | 86.4 (85.5) | 85.3(84.8) |
| roberta-wwm-ext | 86.0(85.4) | 85.0(84.6) |
| roberta-wwm-ext-large | 86.3 (85.7) | 85.8(84.9) |
チャプターレベルのテキスト分類タスクについては、Tsinghua大学の自然言語処理研究所がリリースしたニュースデータセットであるThucnewsを選択しました。私たちはサブセットの1つを取得しており、ニュースを10のカテゴリの1つに分割する必要があります。評価インジケーターは次のとおりです。精度
| モデル | 開発セット | テストセット |
|---|---|---|
| バート | 97.7(97.4) | 97.8(97.6) |
| アーニー | 97.6(97.3) | 97.5(97.3) |
| bert-wwm | 98.0(97.6) | 97.8(97.6) |
| bert-wwm-ext | 97.7(97.5) | 97.7(97.5) |
| roberta-wwm-ext | 98.3(97.9) | 97.7(97.5) |
| roberta-wwm-ext-large | 98.3(97.7) | 97.8(97.6) |
以下は、いくつかのNLPタスクの実験結果であり、テストセットの結果の比較のみが表に記載されています。
| モデル | CMRC 2018 | DRCD | xnli | CSC | LCQMC | BQ | 平均 | パラメーター数 |
|---|---|---|---|---|---|---|---|---|
| roberta-wwm-ext-large | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325m |
| roberta-wwm-ext | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102m |
| RBTL3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61m(59.8%) |
| RBT3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38m(37.3%) |
相対効果の比較:
| モデル | CMRC 2018 | DRCD | xnli | CSC | LCQMC | BQ | 平均 | 分類平均 |
|---|---|---|---|---|---|---|---|---|
| roberta-wwm-ext-large | 102.2% / 101.3% | 104.7% / 102.7% | 103.0% | 100.2% | 100.7% | 100.9% | 101.9% | 101.2% |
| roberta-wwm-ext | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| RBTL3 | 87.2% / 93.3% | 90.2% / 93.0% | 93.9% | 98.5% | 98.5% | 98.4% | 94.3% | 97.35% |
| RBT3 | 85.7% / 91.5% | 87.6% / 91.2% | 91.8% | 97.1% | 98.5% | 98.0% | 92.9% | 96.35% |
より良い結果を伴う中国の小さな訓練を受けたモデルMINIRBTへようこそ:https://github.com/iflytek/minirbt
BERTまたは他のモデルであろうと)であり、ターゲットタスクに従って調整する必要があります。ERNIEの最適学習率はBERT / BERT-wwmとはまったく異なるため、 ERNIEを使用するときは学習率を調整してください(上記の実験結果に基づいて、 ERNIEに必要な初期学習率は比較的高いです)。BERT / BERT-wwmはトレーニングにWikipediaデータを使用しているため、正式なテキストのモデリングに適しています。 ERNIE 、Baidu TiebaやZhiなどの追加のネットワークデータを使用しています。これは、非公式のテキスト(Weiboなど)のモデリングに利点があります。BERT 、 BERT-wwmなどの長いテキストモデリングタスクでは、より良い結果が得られます。BERTまたはBERT-wwmを使用してください。なぜなら、 ERNIEの語彙リストにはほとんど伝統的な中国人がいないことがわかったからです。 全員がダウンロードできるようにするには、 Googleが正式にリリースしたEnglish BERT-large (wwm)モデルをお届けします。
BERT-Large, Uncased (Whole Word Masking) :24層、1024距離、16頭、340mパラメーター
BERT-Large, Cased (Whole Word Masking) :24層、1024距離、16頭、340mパラメーター
Q:このモデルの使用方法は?
A:Googleがリリースした中国のBertの使用方法、これを使用する方法。テキストは単語セグメンテーションを実行する必要はなく、WWMはトレーニング前のプロセスにのみ影響し、下流タスクの入力に影響しません。
Q:トレーニング前のコードはありますか?
A:残念ながら、関連するコードを提供することはできません。実装については、#10と#13を参照できます。
Q:特定のデータセットはどこからダウンロードしますか?
A: dataディレクトリを確認してください。タスクディレクトリのREADME.mdは、データソースを示します。著作権で保護されたコンテンツについては、自分で検索するか、元の著者に連絡してデータを取得してください。
Q:より大きなモデルをリリースする計画はありますか?たとえば、Bert-Large-WWMバージョン?
A:実験の結果が良くなった場合は、より大きなバージョンをリリースすることを検討します。
Q:あなたは嘘をついています!結果を再現できませんか?
A:ダウンストリームタスクでは、最も単純なモデルを採用しました。たとえば、分類タスクには、 run_classifier.py (Googleが提供)を直接使用します。平均値に達することができない場合、実験自体にバグがあることを意味します。注意深く確認してください。最高値には多くのランダムな要因があり、最高の値に達することができることを保証することはできません。もう1つの認識要因:バッチサイズを縮小すると、実験効果が大幅に減少します。詳細については、BERTおよびXLNETディレクトリの関連する問題を参照してください。
Q:あなたよりも良い結果が得られます!
A:おめでとうございます。
Q:訓練にはどのくらい時間がかかり、どのような機器が訓練しましたか?
A:Google TPU V3バージョン(128G HBM)でトレーニングが完了しました。 Bert-WMのトレーニングには約1。5日かかりますが、Bert-WWM-Extには数週間かかります(さらに多くのデータを使用して、より多くのデータを使用します)。トレーニング前の段階では、 LAMB Optimizer (TensorFlowバージョンの実装)を使用することに注意してください。このオプティマイザーは、大きなバッチを適切にサポートしています。ダウンストリームタスクを微調整する場合、BertのデフォルトのAdamWeightDecayOptimizerを使用します。
Q:アーニーは誰ですか?
A:このプロジェクトのアーニーモデルは、ACL 2019でTsinghua大学が発行したアーニーではなく、バイドゥが提案したアーニーを具体的に指します。
Q:Bert-WWMの効果はすべてのタスクであまり良くありません
A:このプロジェクトの目的は、研究者に多様な事前訓練を受けたモデルを提供し、Bert、Ernie、またはBert-WMを自由に選択することです。私たちは実験データのみを提供しているだけであり、結論を引き出すために私たち自身のタスクで常に最善を尽くさなければなりません。もう1つのモデル、もう1つの選択肢。
Q:なぜ一部のデータセットが試されていないのですか?
A:率直に言って、私はより多くのデータを見つける気分ではありません。 2)する必要はありません。 3)お金がありません。
Q:これらのモデルを簡単に評価しましょう
A:それぞれに独自の焦点と独自の強みがあります。中国の自然言語処理の研究開発には、すべての関係者からの共同努力が必要です。
Q:あなたが予測する次の事前に守られたモデルの名前は何ですか?
A:多分それはゾーイと呼ばれています。 ZOE:言語モデルからのゼロショット埋め込み
Q: RoBERTa-wwm-extモデルの詳細は?
A:RobertaとBert-WMの利点を統合して、2つの自然な組み合わせを作成します。このディレクトリのモデル間の違いは次のとおりです。
1)WWM戦略を使用して、トレーニング前の段階でマスクします(ただし、動的マスキングはありません)
2)次の文予測(NSP)損失をキャンセルするだけです
3)MAX_LEN = 128のトレーニングモードを使用しなくなり、MAX_LEN = 512、MAX_LEN = 512を直接トレーニングします
4)トレーニング手順を適切に延長します
このモデルは元のRobertaモデルではなく、同様のRobertaトレーニング方法、つまりRobertaのようなBertでトレーニングされたBertモデルであることに注意する必要があります。したがって、ダウンストリームタスクを使用してモデルを変換する場合は、ロベルタではなくバートでモデルを処理してください。
このプロジェクトのリソースまたはテクノロジーが研究作業に役立つ場合は、論文の次の論文を参照してください。
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
最初の著者は、GoogleのTPU Research Cloud Programによって部分的に資金提供されています。
このプロジェクトは、Googleが公式にリリースした中国のBert-WMモデルではありません。同時に、このプロジェクトは、Harbin Institute of TechnologyまたはIflytekの公式製品ではありません。テクニカルレポートで提示された実験結果は、特定のデータセットとハイパーパラメーターの組み合わせでのパフォーマンスが各モデルの性質を表していないことを示しています。実験結果は、乱数の種子とコンピューティングデバイスのために変化する可能性があります。このプロジェクトのコンテンツは、技術研究の参照のみであり、最後の基盤として使用されません。ユーザーは、ライセンスの範囲内でいつでもモデルを使用できますが、プロジェクトのコンテンツの使用によって引き起こされる直接的または間接的な損失については責任を負いません。
イフィーテク共同研究所の公式WeChat公式アカウントをフォローして、最新の技術動向について学びます。

ご質問がある場合は、GitHub Issueで送信してください。