中国語|英語
事前に訓練された言語モデルは、NLPのさまざまな分野で広く使用されていますが、その高さとコンピューティングのパワーコストは依然として緊急の問題です。これには、特定のコンピューティングパワーの制約の下でより良いインジケーターを備えたモデルを開発する必要があります。
私たちの目標は、より大きなモデルサイズを追求することではなく、軽量でありながらより強力なモデルを追求することですが、より展開可能で産業的な着陸に優しいものです。
言語情報統合やトレーニングの加速などの方法に基づいて、Mengziシリーズモデルを開発しました。 BERTと一致するモデル構造のおかげで、Mengziモデルは既存の事前に処理されたモデルをすばやく置き換えることができます。
詳細な技術レポートについては、参照してください。
Mengzi:中国語の軽量でありながら独創的な事前訓練を受けたモデルに向けて
2つのオープンソースGPTアーキテクチャモデルを追加します。
@huajingyun
@hululuzhu Mengzi-T5-Baseに基づいて、中国のAI執筆モデルは詩とペアを生成するために訓練されています。モデルと特定の使用については、中国語と執筆の株を参照してください
いくつかの世代の例:
上: 不待鸣钟已汗颜,重来试手竟何艰
下: 何堪击鼓频催泪?一别伤心更枉然
上: 北国风光,千里冰封,万里雪飘
下: 南疆气象,五湖浪涌,三江潮来
標題: 作诗:中秋
詩歌: 秋氣侵肌骨,寒光入鬢毛。雲收千里月,風送一帆高。
標題: 作诗:中秋 模仿:苏轼
詩歌: 月從海上生,照我庭下影。不知此何夕,但見天宇靜。
PADDLENLPバージョンのモデルとパドルパドルチーム@yingyibiaoが提供するドキュメントに感謝します。
注:PADDLENLPバージョンモデルは、Lanzhouテクノロジーの産物ではなく、その結果と結果に対する対応する責任を想定していません。
| モデル | パラメーター数 | 適用可能なシナリオ | 特徴 | ダウンロードリンク |
|---|---|---|---|---|
| Mengzi-Bert-Base | 110m | テキスト分類、エンティティ認識、関係抽出、読解などの自然言語理解タスク | Bert構造と同じように、既存のBertの重量を直接交換できます。 | Huggingface、国内のzipダウンロード、paddlenlp |
| Mengzi-Bert-L6-H768 | 60m | テキスト分類、エンティティ認識、関係抽出、読解などの自然言語理解タスク | Mengzi-Bert-Largeの蒸留によって得られた | ハギングフェイス |
| Mengzi-Bert-Base-Fin | 110m | 金融分野での自然言語理解タスク | Mengzi-Bert-Baseに基づく金融コーパスのトレーニング | Huggingface、国内のzipダウンロード、paddlenlp |
| Mengzi-T5-Base | 220m | コピーライティングの生成やニュース生成などの制御可能なテキスト生成タスクに適しています | T5と同じ構造には、下流のタスクが含まれておらず、特定のタスクでFinetune後に使用する必要があります。 GPTポジショニングとは異なり、テキストの続編には適していません | Huggingface、国内のzipダウンロード、paddlenlp |
| Mengzi-T5-Base-Mt | 220m | ゼロショットと少数のショット機能を提供します | マルチタスクモデルは、プロンプトを通じてさまざまなタスクを完了できます | ハギングフェイス |
| Mengzi-Iscar-Base | 110m | 写真の説明、写真、テキストの検査、その他のタスクに適しています | Mengzi-Bert-Baseに基づくマルチモーダルモデル。百万レベルの写真とテキストペアのトレーニング | ハギングフェイス |
| mengzi-gpt-neo-base | 125m | テキストの継続タスク | 関連する作業のベースラインモデルとして適した中国のコーパスリフレイントレーニングに基づく | ハギングフェイス |
| bloom-389m-zh | 389m | テキストの継続タスク | 中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデルは、ビデオメモリの必要性を減らします | ハギングフェイス |
| bloom-800m-zh | 800m | テキストの継続タスク | 中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデルは、ビデオメモリの必要性を減らします | ハギングフェイス |
| Bloom-1B4-Zh | 1400m | テキストの継続タスク | 中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデルは、ビデオメモリの必要性を減らします | ハギングフェイス |
| Bloom-2B5-Zh | 2500m | テキストの継続タスク | 中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデルは、ビデオメモリの必要性を減らします | ハギングフェイス |
| bloom-6b4-zh | 6400m | テキストの継続タスク | 中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデルは、ビデオメモリの必要性を減らします | ハギングフェイス |
| regpt-125m-200g | 125m | テキストの継続タスク | https://github.com/langboat/mengzi-retrieval-lmを介してGPT-NEO-125Mで訓練されたモデル | ハギングフェイス |
| guohua-diffusion | - | 中国の絵画スタイルとテキストの生成 | StabledIffusion v1.5に基づくDreamboothトレーニング | ハギングフェイス |
# 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )または
# 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )グラデーションを使用してハグするフェイススペースに統合されています。デモを参照してください:
# 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )または
# 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )参照ドキュメント
# 使用 Huggingface transformers 加载
pip install transformersまたは
# 使用 PaddleNLP 加载
pip install paddlenlp| モデル | AFQMC | tnews | iflytek | cmnli | WSC | CSL | CMRC2018 | C3 | チッド |
|---|---|---|---|---|---|---|---|---|---|
| roberta-wwm-ext | 74.30 | 57.51 | 60.80 | 80.70 | 67.20 | 80.67 | 77.59 | 67.06 | 83.78 |
| Mengzi-Bert-Base | 74.58 | 57.97 | 60.68 | 82.12 | 87.50 | 85.40 | 78.54 | 71.70 | 84.16 |
| Mengzi-Bert-L6-H768 | 74.75 | 56.68 | 60.22 | 81.10 | 84.87 | 85.77 | 78.06 | 65.49 | 80.59 |
Roberta-WWM-Extスコアは、Clue Baselineから来ています
| タスク | 学習率 | グローバルバッチサイズ | エポック |
|---|---|---|---|
| AFQMC | 3E-5 | 32 | 10 |
| tnews | 3E-5 | 128 | 10 |
| iflytek | 3E-5 | 64 | 10 |
| cmnli | 3E-5 | 512 | 10 |
| WSC | 8e-6 | 64 | 50 |
| CSL | 5E-5 | 128 | 5 |
| CMRC2018 | 5E-5 | 8 | 5 |
| C3 | 1E-4 | 240 | 3 |
| チッド | 5E-5 | 256 | 5 |

wangyulong [at] langboat [dot] com
Q. Mengzi-Bert-Base保存されたモデルサイズは196mです。しかし、バートベースのモデルサイズは約389mですか?定義されたベースに違いはありますか、それとも保存されたときに不必要なコンテンツが欠けていますか?
A:これは、Mengzi-Bert-BaseがFP16でトレーニングされているためです。
Q.財務事前訓練モデルのデータソースは何ですか?
A:財務ニュース、発表、および調査報告書は、Webページでrawっています。
Q. Tensorflowバージョンモデルはありますか?
A:自分で変換できます。
Q.トレーニングコードを開いた状態にすることはできますか?
A:内部インフラストラクチャとの緊密な結合により、現在計画はありません。
Q. Langboatの公式Webサイトでテキスト生成と同じ効果をどのように達成できますか?
A:コアテキスト生成モデルは、T5アーキテクチャに基づいています。基本的なテキスト生成アルゴリズムは、GoogleのT5論文を参照できます:https://arxiv.org/pdf/1910.10683.pdf。オープンソースのMengzi-T5モデルは、GoogleのT5事前訓練を受けたモデルアーキテクチャと同じです。これは、一般的な事前訓練モデルであり、特別なテキスト生成タスクを持っていません。当社のマーケティングコピーライティングの生成機能は、特定のダウンストリームタスクFinetuneに大量のデータを使用することです。これに基づいて、制御可能な生成効果を実現するために、データクリーニング、知識抽出、トレーニングデータ構築、世代の品質評価まで、テキスト生成パイプラインの完全なセットを構築しました。それらのほとんどは、商業実装シナリオに従ってカスタマイズされています。さまざまなトレーニング前および微調整タスクが、さまざまなビジネスニーズとさまざまなデータフォームに従って構築されます。この部分には、比較的複雑なソフトウェアアーキテクチャと特定のビジネスシナリオが含まれており、まだオープンソースを実施していません。
Q. Mengzi-T5-Baseは直接推論できますか?
A:T5 V1.1を参照し、下流のタスクは含まれていません。
Q:Huggingfaceトランスでエラーをロードした場合はどうすればよいですか?
A: force_download=Trueを追加してみてください。
Q:Mengzi-T5-baseは、制約生成を行うときに常に単語の粒度の候補を生成する傾向がありますが、MT5は逆ですが、単語の粒度が好まれます。これはトレーニングプロセスという言葉の粒度プロセスですか?
A:MT5の語彙を使用する代わりに、より多くの語彙を含むコーパスに基づいてトークン剤を再編成しました。このようにして、同じ長さのテキストをエンコードした後、トークンの数が小さくなり、メモリの使用量が小さくなり、トレーニング速度が高速になります。
このプロジェクトのコンテンツは、技術研究の参照のみであり、最後の基盤として使用されません。ユーザーは、ライセンスの範囲内でいつでもモデルを使用できますが、プロジェクトのコンテンツの使用によって引き起こされる直接的または間接的な損失については責任を負いません。テクニカルレポートで提示された実験結果は、特定のデータセットとハイパーパラメーターの組み合わせでのパフォーマンスが各モデルの性質を表していないことを示しています。実験結果は、乱数の種子とコンピューティングデバイスのために変化する可能性があります。
このモデルをさまざまな方法で使用する過程で(修正、直接使用、第三者を介した使用を含むがこれらに限定されない)、ユーザーは、属する管轄区域の法律および規制に違反する行為に直接または間接的に関与してはなりません(変更、直接使用、および社会的道徳に限定されない任意の方法ではありません。法的責任または共同責任を想定します。
この免責事項を解釈、変更、更新する権利があります。
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}