MengziダウンロードMengziソースコードのダウンロード

Mengzi

その他のソースコード

1.0.0

ダウンロード

中国語|英語

メンジュジ

事前に訓練された言語モデルは、NLPのさまざまな分野で広く使用されていますが、その高さとコンピューティングのパワーコストは依然として緊急の問題です。これには、特定のコンピューティングパワーの制約の下でより良いインジケーターを備えたモデルを開発する必要があります。

私たちの目標は、より大きなモデルサイズを追求することではなく、軽量でありながらより強力なモデルを追求することですが、より展開可能で産業的な着陸に優しいものです。

言語情報統合やトレーニングの加速などの方法に基づいて、Mengziシリーズモデルを開発しました。 BERTと一致するモデル構造のおかげで、Mengziモデルは既存の事前に処理されたモデルをすばやく置き換えることができます。

詳細な技術レポートについては、参照してください。

Mengzi：中国語の軽量でありながら独創的な事前訓練を受けたモデルに向けて

更新2022-11-10

guohua-diffusionを追加します

更新2022-10-13

GPT-NEO-125MでトレーニングされたMengzi-Retrieval-LMモデルに基づいて、regpt-125M-200Gを追加します

更新2022-09-01

中国のコーパス作物に基づいて4つのブルームモデルを追加します

更新2022-08-29

2つのオープンソースGPTアーキテクチャモデルを追加します。

中国のコーパスでのde novoトレーニングに基づくgpt-neoモデルmengzi-gpt-neo-base
中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデル-389m-zh

更新2022-08-18

@huajingyun

オープンソースMencius蒸留モデルMengzi-Bert-L6-H768を追加しました。このモデルは、Mengzi-Bert-Largeの蒸留によって得られました。
オープンソースのMenciusマルチタスクモデルMengzi-T5-Base-MTを追加しました。このモデルは、Mengzi-T5-Baseに基づくマルチタスクモデルであり、追加の27のデータセットと301 Proptsを使用してマルチタスクトレーニングが取得されました。 Mengzi Zero-Shotのオープンソースプロジェクトは、エンティティ抽出、セマンティックな類似性、金融関係の抽出、広告コピー生成、医療場の意図分類、感情分類、コメントオブジェクト抽出、ニュース分類などの機能を提供し、箱から出しています。

更新2022-02-26

@hululuzhu Mengzi-T5-Baseに基づいて、中国のAI執筆モデルは詩とペアを生成するために訓練されています。モデルと特定の使用については、中国語と執筆の株を参照してください

いくつかの世代の例：

上： 不待鸣钟已汗颜，重来试手竟何艰
下： 何堪击鼓频催泪？一别伤心更枉然
上： 北国风光，千里冰封，万里雪飘
下： 南疆气象，五湖浪涌，三江潮来

標題： 作诗：中秋
詩歌： 秋氣侵肌骨，寒光入鬢毛。雲收千里月，風送一帆高。
標題： 作诗：中秋 模仿：苏轼
詩歌： 月從海上生，照我庭下影。不知此何夕，但見天宇靜。

更新2022-02-10

PADDLENLPバージョンのモデルとパドルパドルチーム@yingyibiaoが提供するドキュメントに感謝します。

注：PADDLENLPバージョンモデルは、Lanzhouテクノロジーの産物ではなく、その結果と結果に対する対応する責任を想定していません。

モデルの紹介

モデル	パラメーター数	適用可能なシナリオ	特徴	ダウンロードリンク
Mengzi-Bert-Base	110m	テキスト分類、エンティティ認識、関係抽出、読解などの自然言語理解タスク	Bert構造と同じように、既存のBertの重量を直接交換できます。	Huggingface、国内のzipダウンロード、paddlenlp
Mengzi-Bert-L6-H768	60m	テキスト分類、エンティティ認識、関係抽出、読解などの自然言語理解タスク	Mengzi-Bert-Largeの蒸留によって得られた	ハギングフェイス
Mengzi-Bert-Base-Fin	110m	金融分野での自然言語理解タスク	Mengzi-Bert-Baseに基づく金融コーパスのトレーニング	Huggingface、国内のzipダウンロード、paddlenlp
Mengzi-T5-Base	220m	コピーライティングの生成やニュース生成などの制御可能なテキスト生成タスクに適しています	T5と同じ構造には、下流のタスクが含まれておらず、特定のタスクでFinetune後に使用する必要があります。 GPTポジショニングとは異なり、テキストの続編には適していません	Huggingface、国内のzipダウンロード、paddlenlp
Mengzi-T5-Base-Mt	220m	ゼロショットと少数のショット機能を提供します	マルチタスクモデルは、プロンプトを通じてさまざまなタスクを完了できます	ハギングフェイス
Mengzi-Iscar-Base	110m	写真の説明、写真、テキストの検査、その他のタスクに適しています	Mengzi-Bert-Baseに基づくマルチモーダルモデル。百万レベルの写真とテキストペアのトレーニング	ハギングフェイス
mengzi-gpt-neo-base	125m	テキストの継続タスク	関連する作業のベースラインモデルとして適した中国のコーパスリフレイントレーニングに基づく	ハギングフェイス
bloom-389m-zh	389m	テキストの継続タスク	中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデルは、ビデオメモリの必要性を減らします	ハギングフェイス
bloom-800m-zh	800m	テキストの継続タスク	中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデルは、ビデオメモリの必要性を減らします	ハギングフェイス
Bloom-1B4-Zh	1400m	テキストの継続タスク	中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデルは、ビデオメモリの必要性を減らします	ハギングフェイス
Bloom-2B5-Zh	2500m	テキストの継続タスク	中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデルは、ビデオメモリの必要性を減らします	ハギングフェイス
bloom-6b4-zh	6400m	テキストの継続タスク	中国のコーパスに基づいて多言語バージョンをトリミングするブルームモデルは、ビデオメモリの必要性を減らします	ハギングフェイス
regpt-125m-200g	125m	テキストの継続タスク	https://github.com/langboat/mengzi-retrieval-lmを介してGPT-NEO-125Mで訓練されたモデル	ハギングフェイス
guohua-diffusion	-	中国の絵画スタイルとテキストの生成	StabledIffusion v1.5に基づくDreamboothトレーニング	ハギングフェイス

すぐに始めましょう

Mengzi-Bert

 # 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel

tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )

または

 # 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel

tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )

グラデーションを使用してハグするフェイススペースに統合されています。デモを参照してください：

Mengzi-T5

 # 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration

tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )

または

 # 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration

tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )

Mengzi-oscar

参照ドキュメント

インストールに依存します

 # 使用 Huggingface transformers 加载
pip install transformers

または

 # 使用 PaddleNLP 加载
pip install paddlenlp

ダウンストリームタスク

手がかりのスコア

モデル	AFQMC	tnews	iflytek	cmnli	WSC	CSL	CMRC2018	C3	チッド
roberta-wwm-ext	74.30	57.51	60.80	80.70	67.20	80.67	77.59	67.06	83.78
Mengzi-Bert-Base	74.58	57.97	60.68	82.12	87.50	85.40	78.54	71.70	84.16
Mengzi-Bert-L6-H768	74.75	56.68	60.22	81.10	84.87	85.77	78.06	65.49	80.59

Roberta-WWM-Extスコアは、Clue Baselineから来ています

スーパー登録に対応しています

タスク	学習率	グローバルバッチサイズ	エポック
AFQMC	3E-5	32	10
tnews	3E-5	128	10
iflytek	3E-5	64	10
cmnli	3E-5	512	10
WSC	8e-6	64	50
CSL	5E-5	128	5
CMRC2018	5E-5	8	5
C3	1E-4	240	3
チッド	5E-5	256	5

連絡先

Wechatディスカッショングループ

郵便

wangyulong [at] langboat [dot] com

よくある質問

Q. Mengzi-Bert-Base保存されたモデルサイズは196mです。しかし、バートベースのモデルサイズは約389mですか？定義されたベースに違いはありますか、それとも保存されたときに不必要なコンテンツが欠けていますか？
A：これは、Mengzi-Bert-BaseがFP16でトレーニングされているためです。

Q.財務事前訓練モデルのデータソースは何ですか？
A：財務ニュース、発表、および調査報告書は、Webページでrawっています。

Q. Tensorflowバージョンモデルはありますか？
A：自分で変換できます。

Q.トレーニングコードを開いた状態にすることはできますか？
A：内部インフラストラクチャとの緊密な結合により、現在計画はありません。

Q. Langboatの公式Webサイトでテキスト生成と同じ効果をどのように達成できますか？
A：コアテキスト生成モデルは、T5アーキテクチャに基づいています。基本的なテキスト生成アルゴリズムは、GoogleのT5論文を参照できます：https：//arxiv.org/pdf/1910.10683.pdf。オープンソースのMengzi-T5モデルは、GoogleのT5事前訓練を受けたモデルアーキテクチャと同じです。これは、一般的な事前訓練モデルであり、特別なテキスト生成タスクを持っていません。当社のマーケティングコピーライティングの生成機能は、特定のダウンストリームタスクFinetuneに大量のデータを使用することです。これに基づいて、制御可能な生成効果を実現するために、データクリーニング、知識抽出、トレーニングデータ構築、世代の品質評価まで、テキスト生成パイプラインの完全なセットを構築しました。それらのほとんどは、商業実装シナリオに従ってカスタマイズされています。さまざまなトレーニング前および微調整タスクが、さまざまなビジネスニーズとさまざまなデータフォームに従って構築されます。この部分には、比較的複雑なソフトウェアアーキテクチャと特定のビジネスシナリオが含まれており、まだオープンソースを実施していません。

Q. Mengzi-T5-Baseは直接推論できますか？
A：T5 V1.1を参照し、下流のタスクは含まれていません。

Q：Huggingfaceトランスでエラーをロードした場合はどうすればよいですか？
A： force_download=Trueを追加してみてください。

Q：Mengzi-T5-baseは、制約生成を行うときに常に単語の粒度の候補を生成する傾向がありますが、MT5は逆ですが、単語の粒度が好まれます。これはトレーニングプロセスという言葉の粒度プロセスですか？
A：MT5の語彙を使用する代わりに、より多くの語彙を含むコーパスに基づいてトークン剤を再編成しました。このようにして、同じ長さのテキストをエンコードした後、トークンの数が小さくなり、メモリの使用量が小さくなり、トレーニング速度が高速になります。

免責事項

このプロジェクトのコンテンツは、技術研究の参照のみであり、最後の基盤として使用されません。ユーザーは、ライセンスの範囲内でいつでもモデルを使用できますが、プロジェクトのコンテンツの使用によって引き起こされる直接的または間接的な損失については責任を負いません。テクニカルレポートで提示された実験結果は、特定のデータセットとハイパーパラメーターの組み合わせでのパフォーマンスが各モデルの性質を表していないことを示しています。実験結果は、乱数の種子とコンピューティングデバイスのために変化する可能性があります。

このモデルをさまざまな方法で使用する過程で（修正、直接使用、第三者を介した使用を含むがこれらに限定されない）、ユーザーは、属する管轄区域の法律および規制に違反する行為に直接または間接的に関与してはなりません（変更、直接使用、および社会的道徳に限定されない任意の方法ではありません。法的責任または共同責任を想定します。

この免責事項を解釈、変更、更新する権利があります。

文献の引用

 @misc{zhang2021mengzi,
      title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese}, 
      author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
      year={2021},
      eprint={2110.06696},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-19
サイズ 462.91KB
から Github

Mengzi

メンジュジ

更新2022-11-10

更新2022-10-13

更新2022-09-01

更新2022-08-29

更新2022-08-18

更新2022-02-26

更新2022-02-10

ナビゲーション

モデルの紹介

すぐに始めましょう

Mengzi-Bert

Mengzi-T5

Mengzi-oscar

インストールに依存します

ダウンストリームタスク

手がかりのスコア

スーパー登録に対応しています

連絡先

Wechatディスカッショングループ

郵便

よくある質問

免責事項

文献の引用

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express