Chinois | Anglais
Bien que les modèles de langage pré-formés aient été largement utilisés dans divers domaines de la PNL, leur temps élevé et leurs coûts de puissance de calcul sont toujours un problème urgent. Cela nous oblige à développer des modèles avec de meilleurs indicateurs sous certaines contraintes de puissance de calcul.
Notre objectif n'est pas de poursuivre des modèles de modèles plus importants, mais des modèles légers mais plus puissants, tout en étant plus déployables et adaptés à l'atterrissage industriel.
Sur la base de méthodes telles que l'intégration linguistique de l'information et l'accélération de la formation, nous avons développé le modèle de la série Mengzi. Grâce à la structure du modèle cohérente avec Bert, le modèle Mengzi peut rapidement remplacer les modèles pré-entraînés existants.
Pour des rapports techniques détaillés, veuillez vous référer à:
Mengzi: Vers des modèles pré-formés légers mais ingénieux pour chinois
Ajoutez deux modèles d'architecture GPT open source:
@huajingyun
@Hululuzhu basé sur le modèle de rédaction de Mengzi-T5, le modèle d'écriture d'IA chinois est formé pour générer de la poésie et des paires. Pour le modèle et l'utilisation spécifique, veuillez vous référer à: Chinese-Aai-Writing-Share
Quelques exemples de génération:
上: 不待鸣钟已汗颜,重来试手竟何艰
下: 何堪击鼓频催泪?一别伤心更枉然
上: 北国风光,千里冰封,万里雪飘
下: 南疆气象,五湖浪涌,三江潮来
標題: 作诗:中秋
詩歌: 秋氣侵肌骨,寒光入鬢毛。雲收千里月,風送一帆高。
標題: 作诗:中秋 模仿:苏轼
詩歌: 月從海上生,照我庭下影。不知此何夕,但見天宇靜。
Merci au modèle et à la documentation de la version Paddlenlp fournies par l'équipe Paddlepaddle @yyingyibiao.
Remarque: Le modèle de version Paddlenlp n'est pas un produit de la technologie Lanzhou, et nous n'assuçons pas la responsabilité correspondante de ses résultats et de ses résultats.
| Modèle | Quantité de paramètre | Scénarios applicables | Caractéristiques | Lien de téléchargement |
|---|---|---|---|---|
| Mengzi-bert-base | 110m | Les tâches de compréhension du langage naturel telles que la classification du texte, la reconnaissance des entités, l'extraction des relations et la compréhension de la lecture | Comme la structure Bert, les poids Bert existants peuvent être remplacés directement. | Houggingface, téléchargement de zip domestique, paddlenlp |
| Mengzi-berter-L6-H768 | 60m | Les tâches de compréhension du langage naturel telles que la classification du texte, la reconnaissance des entités, l'extraction des relations et la compréhension de la lecture | Obtenu par distillation Mengzi-bert-Large | Étreinte |
| Mengzi-bert-base-nage | 110m | Tâches de compréhension du langage naturel dans le domaine financier | Formation sur le corpus financier basé sur la base de Mengzi-Bert | Houggingface, téléchargement de zip domestique, paddlenlp |
| Base de Mengzi-T5 | 220m | Convient pour des tâches de génération de texte contrôlables telles que la génération de rédaction et la génération de nouvelles | La même structure que T5 n'inclut pas les tâches en aval et doit être utilisée après Finetune sur une tâche spécifique. Contrairement au positionnement GPT, il ne convient pas à la suite de texte | Houggingface, téléchargement de zip domestique, paddlenlp |
| Mengzi-T5-Base-MT | 220m | Fournir des capacités zéro-shot et à quelques coups | Modèle multitâche, peut effectuer diverses tâches via une invite | Étreinte |
| Base de l'oscar | 110m | Convient pour la description des images, l'inspection des images et du texte et d'autres tâches | Modèle multimodal basé sur la base de Mengzi-Bert. Formation sur des images et des paires de texte à un million de niveaux | Étreinte |
| Mengzi-gpt-neo-base | 125m | Tâche de continuation de texte | Basé sur la formation chinoise du corpus refrain, adapté comme modèle de référence pour le travail connexe | Étreinte |
| Bloom-389m-Zh | 389m | Tâche de continuation de texte | Le modèle Bloom qui coupe les versions multilingues basées sur le corpus chinois réduit le besoin de mémoire vidéo | Étreinte |
| Bloom-800M-ZH | 800m | Tâche de continuation de texte | Le modèle Bloom qui coupe les versions multilingues basées sur le corpus chinois réduit le besoin de mémoire vidéo | Étreinte |
| Bloom-1b4-zh | 1400m | Tâche de continuation de texte | Le modèle Bloom qui coupe les versions multilingues basées sur le corpus chinois réduit le besoin de mémoire vidéo | Étreinte |
| Bloom-2b5-zh | 2500m | Tâche de continuation de texte | Le modèle Bloom qui coupe les versions multilingues basées sur le corpus chinois réduit le besoin de mémoire vidéo | Étreinte |
| Bloom-6B4-Zh | 6400m | Tâche de continuation de texte | Le modèle Bloom qui coupe les versions multilingues basées sur le corpus chinois réduit le besoin de mémoire vidéo | Étreinte |
| Regpt-125m-200G | 125m | Tâche de continuation de texte | Modèle formé sur GPT-NEO-125M via https://github.com/langboat/Mengzi-Retrieval-LM | Étreinte |
| Guohua-diffusion | - | Génération de style et de texte de peinture chinois | Formation Dreambooth basée sur Stiffusion v1.5 | Étreinte |
# 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )ou
# 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )Intégré aux espaces étreintes avec Gradio. Voir démo:
# 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )ou
# 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )Documents de référence
# 使用 Huggingface transformers 加载
pip install transformersou
# 使用 PaddleNLP 加载
pip install paddlenlp| Modèle | Afqmc | Tnews | Iflytek | Cmnli | WSC | CSL | CMRC2018 | C3 | Se déshabiller |
|---|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-ext | 74.30 | 57,51 | 60,80 | 80.70 | 67.20 | 80.67 | 77,59 | 67.06 | 83,78 |
| Mengzi-bert-base | 74,58 | 57,97 | 60,68 | 82.12 | 87.50 | 85.40 | 78,54 | 71.70 | 84.16 |
| Mengzi-berter-L6-H768 | 74.75 | 56,68 | 60,22 | 81.10 | 84.87 | 85,77 | 78.06 | 65.49 | 80,59 |
Le score Roberta-WWM-EXT provient de la ligne de base des indices
| Tâche | Taux d'apprentissage | Taille du lot mondial | Époques |
|---|---|---|---|
| Afqmc | 3E-5 | 32 | 10 |
| Tnews | 3E-5 | 128 | 10 |
| Iflytek | 3E-5 | 64 | 10 |
| Cmnli | 3E-5 | 512 | 10 |
| WSC | 8E-6 | 64 | 50 |
| CSL | 5E-5 | 128 | 5 |
| CMRC2018 | 5E-5 | 8 | 5 |
| C3 | 1E-4 | 240 | 3 |
| Se déshabiller | 5E-5 | 256 | 5 |

wangyulong [at] langboutat [dot] com
Q. Mengzi-berd-Base La taille du modèle enregistré est de 196 m. Mais la taille du modèle de Bert-base est-elle autour de 389 m? Y a-t-il une différence dans la base définie ou manque-t-il un contenu inutile lorsqu'il est enregistré?
R: C'est parce que Mengzi-berd-base est formé avec FP16.
Q. Quelle est la source des données pour les modèles financiers pré-entraînés?
R: Les nouvelles financières, les annonces et les rapports de recherche rampent sur les pages Web.
Q. Y a-t-il un modèle de version TensorFlow?
R: Vous pouvez le convertir par vous-même.
Q. Le code de formation peut-il être ouvert?
R: En raison du couplage serré avec des infrastructures internes, il n'y a actuellement aucun plan.
Q. Comment pouvons-nous réaliser le même effet que la génération de texte sur le site officiel de Langboat?
R: Notre modèle de génération de texte de base est basé sur l'architecture T5. L'algorithme de génération de texte de base peut se référer au papier T5 de Google: https://arxiv.org/pdf/1910.10683.pdf. Notre modèle Open Source Mengzi-T5 est le même que l'architecture du modèle pré-formé T5 de Google, qui est un modèle général pré-formé et n'a pas de tâches de génération de texte spéciales. Notre fonctionnalité de génération de copywriting marketing consiste à utiliser une grande quantité de données à ce sujet pour des tâches en aval spécifiques Finetune. Sur cette base, afin d'obtenir des effets de génération contrôlables, nous avons construit un ensemble complet de pipelines de génération de texte: à partir du nettoyage des données, de l'extraction des connaissances, de la construction de données de formation à une évaluation de la qualité de génération. La plupart d'entre eux sont personnalisés en fonction des scénarios de mise en œuvre commerciaux: différentes tâches de pré-formation et de finetune sont construites en fonction des différents besoins commerciaux et des différentes formes de données. Cette partie implique des architectures logicielles relativement complexes et des scénarios commerciaux spécifiques, et nous n'avons pas encore mené à open source.
Q. Mengzi-T5-base peut-il directement l'inférence?
R: Nous nous référons à T5 v1.1 et n'incluons pas les tâches en aval.
Q: Que dois-je faire si je charge les erreurs avec un transformateur HuggingFace?
A: Essayez d'ajouter force_download=True .
Q: La base de Mengzi-T5 a toujours tendance à générer des candidats à la granularité des mots lors de la génération de contraintes, tandis que MT5 est le contraire, la granularité des mots est préférée. Est-ce le processus de formation le mot de granularité du mot?
R: Au lieu d'utiliser le vocabulaire de MT5, nous avons recyclé le tokenizer basé sur le corpus, y compris plus de vocabulaire. De cette façon, après encoder des textes de la même longueur, le nombre de jetons sera plus petit, l'utilisation de la mémoire sera plus petite et la vitesse de formation sera plus rapide.
Le contenu de ce projet concerne uniquement la référence de la recherche technique et n'est pas utilisé comme base de conclusion. Les utilisateurs peuvent utiliser le modèle à tout moment dans le cadre de la licence, mais nous ne sommes pas responsables des pertes directes ou indirectes causées par l'utilisation du contenu du projet. Les résultats expérimentaux présentés dans le rapport technique montrent uniquement que les performances dans un ensemble de données spécifiques et une combinaison hyperparamètre ne représente pas la nature de chaque modèle. Les résultats expérimentaux peuvent changer en raison de graines de nombre aléatoire et de dispositifs informatiques.
Pendant le processus d'utilisation de ce modèle de diverses manières (y compris, mais sans s'y limiter, la modification, l'utilisation directe et l'utilisation par le biais de tiers), les utilisateurs ne doivent pas s'engager directement ou indirectement dans des actes qui violent les lois et réglementations de la juridiction à laquelle ils appartiennent (y compris mais sans s'y limiter, la modification, la manière légale et la moralité sociale pour tous les litiges. toute responsabilité légale ou conjointe.
Nous avons le droit d'interpréter, de modifier et de mettre à jour cet avertissement.
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}