Chinês | Inglês
Embora os modelos de idiomas pré-treinados tenham sido amplamente utilizados em vários campos da PNL, seus custos de energia de computação e computação ainda são um problema urgente. Isso exige que desenvolvamos modelos com melhores indicadores sob certas restrições de potência de computação.
Nosso objetivo não é buscar tamanhos de modelos maiores, mas modelos leves, mas mais poderosos, enquanto mais implantáveis e industriais favoráveis.
Com base em métodos como integração de informações linguísticas e aceleração de treinamento, desenvolvemos o modelo da série Mengzi. Graças à estrutura do modelo, consistente com o BERT, o modelo Mengzi pode substituir rapidamente os modelos pré -traidos existentes.
Para relatórios técnicos detalhados, consulte: Consulte:
Mengzi: Para modelos pré-treinados leves e engenhosos para chinês
Adicione dois modelos de arquitetura GPT de código aberto:
@huajingyun
@HululUzhu Com base no Mengzi-T5-Base, o modelo de redação da IA chinês é treinado para gerar poesia e pares. Para o modelo e o uso específico, consulte: S-Ai-Writing Share, chinês
Alguns exemplos de geração:
上: 不待鸣钟已汗颜,重来试手竟何艰
下: 何堪击鼓频催泪?一别伤心更枉然
上: 北国风光,千里冰封,万里雪飘
下: 南疆气象,五湖浪涌,三江潮来
標題: 作诗:中秋
詩歌: 秋氣侵肌骨,寒光入鬢毛。雲收千里月,風送一帆高。
標題: 作诗:中秋 模仿:苏轼
詩歌: 月從海上生,照我庭下影。不知此何夕,但見天宇靜。
Graças ao modelo e documentação da versão Paddlenlp fornecida pela equipe Paddlepddle @yingyibiao.
Nota: O modelo de versão Paddlenlp não é um produto da tecnologia Lanzhou e não assumimos a responsabilidade correspondente por seus resultados e resultados.
| Modelo | Quantidade de parâmetro | Cenários aplicáveis | Características | Baixar link |
|---|---|---|---|---|
| Mengzi-Bert-Base | 110m | Tarefas de compreensão da linguagem natural, como classificação de texto, reconhecimento de entidades, extração de relacionamento e compreensão de leitura | O mesmo que a estrutura Bert, os pesos Bert existentes podem ser substituídos diretamente. | Huggingface, download doméstico de zip, paddlenlp |
| Mengzi-Bert-L6-H768 | 60m | Tarefas de compreensão da linguagem natural, como classificação de texto, reconhecimento de entidades, extração de relacionamento e compreensão de leitura | Obtido por destilação de Mengzi-Bert-Large | Huggingface |
| Mengzi-Bert-Base-Fin | 110m | Tarefas de compreensão da linguagem natural no campo financeiro | Treinamento em corpus financeiro baseado em Mengzi-Bert-Base | Huggingface, download doméstico de zip, paddlenlp |
| Mengzi-T5-Base | 220m | Adequado para tarefas de geração de texto controláveis, como geração de redatores e geração de notícias | A mesma estrutura que o T5 não inclui tarefas a jusante e precisa ser usada após o Finetune em uma tarefa específica. Ao contrário do posicionamento GPT, não é adequado para sequência de texto | Huggingface, download doméstico de zip, paddlenlp |
| Mengzi-T5-BASE-MT | 220m | Forneça recursos de tiro zero e poucos anos | Modelo multitarefa, pode concluir várias tarefas por meio de prompt | Huggingface |
| Mengzi-OSCAR-BASE | 110m | Adequado para fotos descrição, inspeção de imagem e texto e outras tarefas | Modelo multimodal baseado em Mengzi-Bert-Base. Treinamento em imagens de um milhão de níveis e pares de texto | Huggingface |
| Mengzi-Gpt-Neo-Base | 125m | Tarefa de continuação de texto | Com base no treinamento de refrão do corpus chinês, adequado como modelo de linha de base para o trabalho relacionado | Huggingface |
| Bloom-389m-Zh | 389m | Tarefa de continuação de texto | O modelo Bloom que apara versões multilíngues baseadas no corpus chinês reduz a necessidade de memória de vídeo | Huggingface |
| Bloom-800m-Zh | 800m | Tarefa de continuação de texto | O modelo Bloom que apara versões multilíngues baseadas no corpus chinês reduz a necessidade de memória de vídeo | Huggingface |
| Bloom-1b4-Zh | 1400m | Tarefa de continuação de texto | O modelo Bloom que apara versões multilíngues baseadas no corpus chinês reduz a necessidade de memória de vídeo | Huggingface |
| Bloom-2b5-Zh | 2500m | Tarefa de continuação de texto | O modelo Bloom que apara versões multilíngues baseadas no corpus chinês reduz a necessidade de memória de vídeo | Huggingface |
| Bloom-6b4-Zh | 6400m | Tarefa de continuação de texto | O modelo Bloom que apara versões multilíngues baseadas no corpus chinês reduz a necessidade de memória de vídeo | Huggingface |
| REGPT-125M-200G | 125m | Tarefa de continuação de texto | Modelo treinado em GPT-neo-125m via https://github.com/langboat/mengzi-retrieval-lm | Huggingface |
| Guohua-difusão | - | Geração de estilo e texto de pintura chinesa | Treinamento Dreambooth baseado no stablediffusion v1.5 | Huggingface |
# 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )ou
# 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )Integrado a espaços Hugging Space com Gradio. Veja Demo:
# 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )ou
# 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )Documentos de referência
# 使用 Huggingface transformers 加载
pip install transformersou
# 使用 PaddleNLP 加载
pip install paddlenlp| Modelo | AFQMC | Tnews | Iflytek | Cmnli | WSC | Csl | CMRC2018 | C3 | CHID |
|---|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-ext | 74.30 | 57.51 | 60,80 | 80,70 | 67.20 | 80.67 | 77.59 | 67.06 | 83.78 |
| Mengzi-Bert-Base | 74.58 | 57.97 | 60.68 | 82.12 | 87,50 | 85.40 | 78.54 | 71.70 | 84.16 |
| Mengzi-Bert-L6-H768 | 74.75 | 56.68 | 60.22 | 81.10 | 84.87 | 85.77 | 78.06 | 65.49 | 80,59 |
Roberta-Wwm-Ext Score vem da linha de base da pista
| Tarefa | Taxa de aprendizado | Tamanho global do lote | Épocas |
|---|---|---|---|
| AFQMC | 3E-5 | 32 | 10 |
| Tnews | 3E-5 | 128 | 10 |
| Iflytek | 3E-5 | 64 | 10 |
| Cmnli | 3E-5 | 512 | 10 |
| WSC | 8e-6 | 64 | 50 |
| Csl | 5E-5 | 128 | 5 |
| CMRC2018 | 5E-5 | 8 | 5 |
| C3 | 1e-4 | 240 | 3 |
| CHID | 5E-5 | 256 | 5 |

Wangyulong [at] Langboat [DOT] COM
Q. Mengzi-Bert-Base O tamanho do modelo salvo é de 196m. Mas o tamanho do modelo da Bert-Base é em torno de 389m? Existe alguma diferença na base definida ou está faltando algum conteúdo desnecessário quando é salvo?
R: Isso ocorre porque o Mengzi-Bert-Base é treinado com FP16.
P. Qual é a fonte de dados para modelos financeiros pré-treinados?
R: Notícias financeiras, anúncios e relatórios de pesquisa rastejando em páginas da web.
P. Existe um modelo de versão do tensorflow?
A: Você pode convertê -lo sozinho.
P. O código de treinamento pode ser de origem aberta?
R: Devido ao acoplamento apertado com a infraestrutura interna, atualmente não há plano.
P. Como podemos alcançar o mesmo efeito que a geração de texto no site oficial do Langboat?
R: Nosso modelo de geração de texto principal é baseado na arquitetura T5. O algoritmo básico de geração de texto pode se referir ao papel T5 do Google: https://arxiv.org/pdf/1910.10683.pdf. Nosso modelo Mengzi-T5 de código aberto é o mesmo que a arquitetura de modelo pré-treinada do T5 do Google, que é um modelo pré-treinado geral e não possui tarefas especiais de geração de texto. Nosso recurso de geração de redatores de marketing é usar uma grande quantidade de dados nele para tarefas específicas a jusante Finetune. Nesta base, para obter efeitos controláveis de geração, construímos um conjunto completo de pipelines de geração de texto: da limpeza de dados, extração de conhecimento, construção de dados de dados à avaliação da qualidade da geração. A maioria deles é personalizada de acordo com os cenários de implementação comercial: diferentes tarefas de pré-treinamento e Finetune são construídas de acordo com diferentes necessidades de negócios e diferentes formulários de dados. Esta parte envolve arquiteturas de software relativamente complexas e cenários de negócios específicos, e ainda não realizamos código aberto.
P. O Mengzi-T5-BASE pode ingerir diretamente?
R: Nós nos referimos a T5 V1.1 e não incluímos tarefas a jusante.
P: O que devo fazer se carregar erros com o Huggingface Transformer?
A: Tente adicionar force_download=True .
P: O Mengzi-T5-Base sempre tende a gerar candidatos à granularidade do Word ao fazer a geração de restrições, enquanto o MT5 é o oposto, a granularidade da palavra é preferida. É esse o processo de treinamento a palavra processo de granularidade?
R: Em vez de usar o vocabulário do MT5, treinamos o tokenizer baseado no corpus, incluindo mais vocabulário. Dessa forma, após codificar textos do mesmo comprimento, o número de tokens será menor, o uso da memória será menor e a velocidade de treinamento será mais rápida.
O conteúdo deste projeto é apenas para referência de pesquisa técnica e não é usada como base final. Os usuários podem usar o modelo a qualquer momento dentro do escopo da licença, mas não somos responsáveis por perdas diretas ou indiretas causadas pelo uso do conteúdo do projeto. Os resultados experimentais apresentados no relatório técnico mostram apenas que o desempenho sob um conjunto de dados específico e a combinação de hiperparâmetro não representa a natureza de cada modelo. Os resultados experimentais podem mudar devido a sementes de número aleatório e dispositivos de computação.
Durante o processo de uso desse modelo de várias maneiras (incluindo, entre outros, modificação, uso direto e uso por terceiros), os usuários não devem se envolver direta ou indiretamente em atos que violam as leis e regulamentos da jurisdição a que pertencem (não são limitados a usar o uso de todo o uso e o uso de todos os usuários. qualquer responsabilidade legal ou conjunta.
Temos o direito de interpretar, modificar e atualizar este aviso.
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}