Chino | Inglés
Aunque los modelos de lenguaje previamente capacitados se han utilizado ampliamente en varios campos de PNL, sus costos de energía y energía informática siguen siendo un problema urgente. Esto requiere que desarrollemos modelos con mejores indicadores bajo ciertas restricciones de potencia informática.
Nuestro objetivo no es buscar tamaños de modelos más grandes, sino modelos livianos sino más potentes, mientras que más desplegables e industriales de aterrizaje.
Según métodos como la integración lingüística de la información y la aceleración de capacitación, desarrollamos el modelo de la serie Mengzi. Gracias a la estructura del modelo consistente con Bert, el modelo Mengzi puede reemplazar rápidamente a los modelos previos a la pretrada existentes.
Para informes técnicos detallados, consulte:
Mengzi: hacia modelos livianos pero ingeniosos previamente capacitados para chinos
Agregue dos modelos de arquitectura GPT de código abierto:
@huajingyun
@Hululuzhu Basado en la base Mengzi-T5, el modelo de escritura de IA china está entrenado para generar poesía y pares. Para el modelo y el uso específico, consulte: chino-ai-escritura-compartir
Algunos ejemplos de generación:
上: 不待鸣钟已汗颜,重来试手竟何艰
下: 何堪击鼓频催泪?一别伤心更枉然
上: 北国风光,千里冰封,万里雪飘
下: 南疆气象,五湖浪涌,三江潮来
標題: 作诗:中秋
詩歌: 秋氣侵肌骨,寒光入鬢毛。雲收千里月,風送一帆高。
標題: 作诗:中秋 模仿:苏轼
詩歌: 月從海上生,照我庭下影。不知此何夕,但見天宇靜。
Gracias al modelo de versión de Paddlenlp y la documentación proporcionada por el equipo de Paddlepaddle @ingyibiao.
Nota: El modelo de versión PaddlenLP no es un producto de la tecnología Lanzhou, y no asumimos la responsabilidad correspondiente por sus resultados y resultados.
| Modelo | Cantidad de parámetros | Escenarios aplicables | Características | Enlace de descarga |
|---|---|---|---|---|
| Mengzi-base-base | 110m | Tareas de comprensión del lenguaje natural, como clasificación de texto, reconocimiento de entidades, extracción de relaciones y comprensión de lectura | Lo mismo que la estructura Bert, los pesos Bert existentes se pueden reemplazar directamente. | Huggingface, descarga doméstica de zip, paddlenlp |
| Mengzi-Bert-L6-H768 | 60m | Tareas de comprensión del lenguaje natural, como clasificación de texto, reconocimiento de entidades, extracción de relaciones y comprensión de lectura | Obtenido por destilación de Mengzi-Bert-Large | Cara de abrazo |
| Mengzi-Bert-Base-Fin | 110m | Tareas de comprensión del lenguaje natural en el campo financiero | Capacitación en el corpus financiero basado en Mengzi-Base-Base | Huggingface, descarga doméstica de zip, paddlenlp |
| Mengzi-t5-base | 220m | Adecuado para tareas de generación de texto controlables, como generación de redacción y generación de noticias | La misma estructura que T5 no incluye tareas aguas abajo, y debe usarse después de Finetune en una tarea específica. A diferencia del posicionamiento de GPT, no es adecuado para la secuela de texto | Huggingface, descarga doméstica de zip, paddlenlp |
| Mengzi-T5-Base-MT | 220m | Proporcionar capacidades de cero disparos y pocos disparos | Modelo multitarea, puede completar varias tareas a través de la solicitud | Cara de abrazo |
| Mengzi-Oscar-base | 110m | Adecuado para la descripción de las imágenes, la inspección de la imagen y el texto y otras tareas | Modelo multimodal basado en Mengzi-Bert-Base. Entrenamiento en fotos y pares de texto de millones de niveles | Cara de abrazo |
| Mengzi-gpt-neo-base | 125m | Tarea de continuación de texto | Basado en la capacitación del estribillo del cuerpo chino, adecuado como modelo de referencia para el trabajo relacionado | Cara de abrazo |
| Bloom-389m-zh | 389m | Tarea de continuación de texto | El modelo Bloom que recorta versiones multilingües basadas en el corpus chino reduce la necesidad de la memoria de video | Cara de abrazo |
| Bloom-800m-zh | 800m | Tarea de continuación de texto | El modelo Bloom que recorta versiones multilingües basadas en el corpus chino reduce la necesidad de la memoria de video | Cara de abrazo |
| Bloom-1B4-Zh | 1400m | Tarea de continuación de texto | El modelo Bloom que recorta versiones multilingües basadas en el corpus chino reduce la necesidad de la memoria de video | Cara de abrazo |
| Bloom-2B5-Zh | 2500m | Tarea de continuación de texto | El modelo Bloom que recorta versiones multilingües basadas en el corpus chino reduce la necesidad de la memoria de video | Cara de abrazo |
| Bloom-6B4-Zh | 6400m | Tarea de continuación de texto | El modelo Bloom que recorta versiones multilingües basadas en el corpus chino reduce la necesidad de la memoria de video | Cara de abrazo |
| Regpt-125m-200g | 125m | Tarea de continuación de texto | Modelo entrenado en gpt-neo-125m a través de https://github.com/langbook/mengzi-retrieval-lm | Cara de abrazo |
| Difusión de Guohua | - | Generación de estilo y texto de pintura china | Entrenamiento de DreamBooth basado en estabilizados V1.5 | Cara de abrazo |
# 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )o
# 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )Integrado a los espacios de la cara de abrazos con Gradio. Ver demostración:
# 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )o
# 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )Documentos de referencia
# 使用 Huggingface transformers 加载
pip install transformerso
# 使用 PaddleNLP 加载
pip install paddlenlp| Modelo | AFQMC | TNEWS | Iflytek | Cmnli | WSC | CSL | CMRC2018 | C3 | Chid |
|---|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-ext | 74.30 | 57.51 | 60.80 | 80.70 | 67.20 | 80.67 | 77.59 | 67.06 | 83.78 |
| Mengzi-base-base | 74.58 | 57.97 | 60.68 | 82.12 | 87.50 | 85.40 | 78.54 | 71.70 | 84.16 |
| Mengzi-Bert-L6-H768 | 74.75 | 56.68 | 60.22 | 81.10 | 84.87 | 85.77 | 78.06 | 65.49 | 80.59 |
La puntuación de Roberta-WWM-EXT proviene de la línea de base de Clue
| Tarea | Tasa de aprendizaje | Tamaño de lote global | Épocas |
|---|---|---|---|
| AFQMC | 3E-5 | 32 | 10 |
| TNEWS | 3E-5 | 128 | 10 |
| Iflytek | 3E-5 | 64 | 10 |
| Cmnli | 3E-5 | 512 | 10 |
| WSC | 8E-6 | 64 | 50 |
| CSL | 5E-5 | 128 | 5 |
| CMRC2018 | 5E-5 | 8 | 5 |
| C3 | 1e-4 | 240 | 3 |
| Chid | 5E-5 | 256 | 5 |

wangyulong [at] langboat [dot] com
P. Mengzi-Base-Base El tamaño del modelo guardado es de 196 m. ¿Pero es el tamaño del modelo de Bert-Base alrededor de 389 m? ¿Hay alguna diferencia en la base definida, o le falta un contenido innecesario cuando se guarda?
R: Esto se debe a que Mengzi-Bert-Base está entrenado con FP16.
P. ¿Cuál es la fuente de datos para los modelos financieros previamente capacitados?
R: Noticias financieras, anuncios e informes de investigación que se arrastran en las páginas web.
P. ¿Existe un modelo de versión TensorFlow?
R: Puedes convertirlo solo.
P. ¿Se puede obtener el código de capacitación?
R: Debido al acoplamiento estricto con infraestructura interna, actualmente no hay ningún plan.
P. ¿Cómo podemos lograr el mismo efecto que la generación de texto en el sitio web oficial de Langboat?
R: Nuestro modelo de generación de texto central se basa en la arquitectura T5. El algoritmo básico de generación de texto puede consultar el documento T5 de Google: https://arxiv.org/pdf/1910.10683.pdf. Nuestro modelo Mengzi-T5 de código abierto es el mismo que la arquitectura del modelo T5 pretrontrate de Google, que es un modelo general previamente capacitado y no tiene tareas especiales de generación de texto. Nuestra función de generación de redacción de marketing es utilizar una gran cantidad de datos sobre ella para tareas posteriores específicas Finetune. Sobre esta base, para lograr efectos de generación controlables, hemos creado un conjunto completo de tuberías de generación de texto: desde limpieza de datos, extracción de conocimiento, construcción de datos de capacitación hasta evaluación de calidad de generación. La mayoría de ellos se personalizan de acuerdo con los escenarios de implementación comercial: se construyen diferentes tareas de pre-entrenamiento y finetune de acuerdo con diferentes necesidades comerciales y diferentes formularios de datos. Esta parte implica arquitecturas de software relativamente complejas y escenarios comerciales específicos, y aún no hemos realizado código abierto.
P. ¿Puede la base de Mengzi-T5 directamente inferir?
R: Nos referimos a T5 V1.1 y no incluimos tareas aguas abajo.
P: ¿Qué debo hacer si cargo errores con Huggingface Transformer?
A: intente agregar force_download=True .
P: La base de Mengzi-T5 siempre tiende a generar candidatos para la granularidad de las palabras al hacer una generación de restricción, mientras que MT5 es lo contrario, se prefiere la granularidad de las palabras. ¿Es este el proceso de capacitación el proceso de granularidad?
R: En lugar de usar el vocabulario de MT5, se recuperamos el tokenizador basado en el corpus, incluido más vocabulario. De esta manera, después de codificar los textos de la misma longitud, el número de tokens será menor, el uso de la memoria será menor y la velocidad de entrenamiento será más rápida.
El contenido en este proyecto es solo para referencia de investigación técnica y no se utiliza como base final. Los usuarios pueden usar el modelo en cualquier momento dentro del alcance de la licencia, pero no somos responsables de las pérdidas directas o indirectas causadas por el uso del contenido del proyecto. Los resultados experimentales presentados en el informe técnico solo muestran que el rendimiento bajo un conjunto de datos específico y la combinación de hiperparameter no representa la naturaleza de cada modelo. Los resultados experimentales pueden cambiar debido a semillas de números aleatorios y dispositivos de computación.
Durante el proceso de uso de este modelo de varias maneras (incluida, entre otras, la modificación, el uso directo y el uso a través de terceros), los usuarios no deberán participar directa o indirectamente en actos que violen las leyes y regulaciones de la jurisdicción a la que pertenecen (incluidas, entre otras, la modificación, el uso directo y la moralidad social de ninguna manera. Los usuarios son responsables de sus propias acciones. El usuario será legal y de todos los sentidos de todos los modelos de todos los modelos. cualquier responsabilidad legal o conjunta.
Tenemos derecho a interpretar, modificar y actualizar este descargo de responsabilidad.
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}