중국어 | 영어
미리 훈련 된 언어 모델은 NLP의 다양한 분야에서 널리 사용되었지만 높은 시간과 컴퓨팅 전력 비용은 여전히 긴급한 문제입니다. 이를 위해서는 특정 컴퓨팅 전력 제약 하에서 더 나은 지표가있는 모델을 개발해야합니다.
우리의 목표는 더 큰 모델 크기를 추구하는 것이 아니라 가벼우면서도 더 강력한 모델을 추구하는 것이며 더 많은 배포 가능하고 산업용 착륙 친화적입니다.
언어 정보 통합 및 교육 가속과 같은 방법을 기반으로 Mengzi 시리즈 모델을 개발했습니다. BERT와 일치하는 모델 구조 덕분에 Mengzi 모델은 기존의 사기꾼 모델을 빠르게 대체 할 수 있습니다.
자세한 기술 보고서는 다음을 참조하십시오.
Mengzi : 중국에 대한 가벼우면서도 독창적 인 미리 훈련 된 모델을 향해
두 개의 오픈 소스 GPT 아키텍처 모델 추가 :
@Huajingyun
@hululuzhu Mengzi-T5-Base를 기반으로 한 중국 AI 작문 모델은시와 쌍을 생성하도록 훈련되었습니다. 모델 및 특정 사용에 대해서는 다음을 참조하십시오.
일부 세대 예 :
上: 不待鸣钟已汗颜,重来试手竟何艰
下: 何堪击鼓频催泪?一别伤心更枉然
上: 北国风光,千里冰封,万里雪飘
下: 南疆气象,五湖浪涌,三江潮来
標題: 作诗:中秋
詩歌: 秋氣侵肌骨,寒光入鬢毛。雲收千里月,風送一帆高。
標題: 作诗:中秋 模仿:苏轼
詩歌: 月從海上生,照我庭下影。不知此何夕,但見天宇靜。
PaddlEnlp 버전 모델 및 PaddlePaddle Team @yingyibiao가 제공하는 문서 덕분입니다.
참고 : PaddlEnlp 버전 모델은 Lanzhou 기술의 제품이 아니며 결과 및 결과에 대한 해당 책임을 가정하지 않습니다.
| 모델 | 매개 변수 수량 | 해당 시나리오 | 특징 | 링크 다운로드 |
|---|---|---|---|---|
| Mengzi-Bert-Base | 110m | 텍스트 분류, 엔티티 인식, 관계 추출 및 독해와 같은 자연 언어 이해 작업 | 베르트 구조와 동일하게 기존 버트 가중치를 직접 교체 할 수 있습니다. | Huggingface, 국내 지퍼 다운로드, Paddlenlp |
| Mengzi-Bert-L6-H768 | 60m | 텍스트 분류, 엔티티 인식, 관계 추출 및 독해와 같은 자연 언어 이해 작업 | Mengzi-Bert-Large 증류에 의해 얻어졌다 | 포옹 페이스 |
| Mengzi-Bert-Base-Fin | 110m | 자연어 이해 금융 분야의 작업 | Mengzi-Bert-Base를 기반으로 한 금융 코퍼스 교육 | Huggingface, 국내 지퍼 다운로드, Paddlenlp |
| Mengzi-T5-Base | 220m | 카피 라이팅 생성 및 뉴스 생성과 같은 제어 가능한 텍스트 생성 작업에 적합 | T5와 동일한 구조에는 다운 스트림 작업이 포함되지 않으며 특정 작업에서 Finetune 후에 사용해야합니다. GPT 포지셔닝과 달리 텍스트 속편에 적합하지 않습니다. | Huggingface, 국내 지퍼 다운로드, Paddlenlp |
| Mengzi-T5-Base-MT | 220m | 제로 샷 및 소수의 기능을 제공합니다 | 멀티 태스킹 모델은 프롬프트를 통해 다양한 작업을 완료 할 수 있습니다 | 포옹 페이스 |
| Mengzi-Oscar-Base | 110m | 그림 설명, 그림 및 텍스트 검사 및 기타 작업에 적합합니다. | mengzi-bert-base를 기반으로 한 멀티 모달 모델. 백만 레벨 사진 및 텍스트 쌍에 대한 교육 | 포옹 페이스 |
| Mengzi-Gpt-Neo-Base | 125m | 텍스트 연속 작업 | 중국 코퍼스 자제 훈련을 기반으로 관련 작업의 기준 모델로 적합합니다. | 포옹 페이스 |
| 블룸 -389m-zh | 389m | 텍스트 연속 작업 | 중국 코퍼스를 기반으로 다국어 버전을 트림하는 블룸 모델은 비디오 메모리의 필요성을 줄입니다. | 포옹 페이스 |
| 블룸 -800m-zh | 800m | 텍스트 연속 작업 | 중국 코퍼스를 기반으로 다국어 버전을 트림하는 블룸 모델은 비디오 메모리의 필요성을 줄입니다. | 포옹 페이스 |
| 블룸 -1B4-ZH | 1400m | 텍스트 연속 작업 | 중국 코퍼스를 기반으로 다국어 버전을 트림하는 블룸 모델은 비디오 메모리의 필요성을 줄입니다. | 포옹 페이스 |
| 블룸 -2b5-zh | 2500m | 텍스트 연속 작업 | 중국 코퍼스를 기반으로 다국어 버전을 트림하는 블룸 모델은 비디오 메모리의 필요성을 줄입니다. | 포옹 페이스 |
| 블룸 -6b4-zh | 6400m | 텍스트 연속 작업 | 중국 코퍼스를 기반으로 다국어 버전을 트림하는 블룸 모델은 비디오 메모리의 필요성을 줄입니다. | 포옹 페이스 |
| REGPT-125M-200G | 125m | 텍스트 연속 작업 | https://github.com/langboat/mengzi-retrieval-lm을 통해 GPT-Neo-125M에 대한 모델 | 포옹 페이스 |
| 구아 후아-확산 | - | 중국 그림 스타일과 텍스트 생성 | 안정된 확신 v1.5를 기반으로 한 Dreambooth 교육 | 포옹 페이스 |
# 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )또는
# 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )Gradio와 함께 포옹 페이스 공간에 통합되었습니다. 데모 참조 :
# 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )또는
# 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )참조 문서
# 使用 Huggingface transformers 加载
pip install transformers또는
# 使用 PaddleNLP 加载
pip install paddlenlp| 모델 | AFQMC | tnews | Iflytek | cmnli | WSC | CSL | CMRC2018 | C3 | chid |
|---|---|---|---|---|---|---|---|---|---|
| Roberta-WWM-EXT | 74.30 | 57.51 | 60.80 | 80.70 | 67.20 | 80.67 | 77.59 | 67.06 | 83.78 |
| Mengzi-Bert-Base | 74.58 | 57.97 | 60.68 | 82.12 | 87.50 | 85.40 | 78.54 | 71.70 | 84.16 |
| Mengzi-Bert-L6-H768 | 74.75 | 56.68 | 60.22 | 81.10 | 84.87 | 85.77 | 78.06 | 65.49 | 80.59 |
Roberta-WWM-EXT 점수는 단서 기준에서 나옵니다
| 일 | 학습 속도 | 글로벌 배치 크기 | 에포크 |
|---|---|---|---|
| AFQMC | 3E-5 | 32 | 10 |
| tnews | 3E-5 | 128 | 10 |
| Iflytek | 3E-5 | 64 | 10 |
| cmnli | 3E-5 | 512 | 10 |
| WSC | 8E-6 | 64 | 50 |
| CSL | 5E-5 | 128 | 5 |
| CMRC2018 | 5E-5 | 8 | 5 |
| C3 | 1E-4 | 240 | 3 |
| chid | 5E-5 | 256 | 5 |

Wangyulong [at] langboat [dot] com
Q. Mengzi-Bert-Base 저장된 모델 크기는 196m입니다. 그러나 Bert-Base의 모델 크기는 약 389m입니까? 정의 된베이스에 차이가 있습니까? 아니면 저장 될 때 불필요한 콘텐츠가 누락됩니까?
A : Mengzi-Bert-Base가 FP16으로 훈련 되었기 때문입니다.
Q. 재무 미리 훈련 된 모델의 데이터 소스는 무엇입니까?
A : 금융 뉴스, 공지 사항 및 연구 보고서는 웹 페이지에 기어 들어갑니다.
Q. Tensorflow 버전 모델이 있습니까?
A : 직접 변환 할 수 있습니다.
Q. 교육 코드를 공개 할 수 있습니까?
A : 내부 인프라와의 긴밀한 결합으로 인해 현재 계획이 없습니다.
Q. Langboat 공식 웹 사이트의 텍스트 생성과 동일한 효과를 어떻게 달성 할 수 있습니까?
A : 핵심 텍스트 생성 모델은 T5 아키텍처를 기반으로합니다. 기본 텍스트 생성 알고리즘은 Google의 T5 논문을 참조 할 수 있습니다 : https://arxiv.org/pdf/1910.10683.pdf. 오픈 소스 Mengzi-T5 모델은 일반적인 미리 훈련 된 모델이며 특별한 텍스트 생성 작업이없는 Google의 T5 미리 훈련 된 모델 아키텍처와 동일합니다. 마케팅 카피 라이팅 생성 기능은 특정 다운 스트림 작업 Finetune에 많은 양의 데이터를 사용하는 것입니다. 이를 바탕으로 제어 가능한 생성 효과를 달성하기 위해 데이터 청소, 지식 추출, 교육 데이터 구성에 이르기까지 모든 텍스트 생성 파이프 라인 세트를 구축했습니다. 그들 대부분은 상업적 구현 시나리오에 따라 사용자 정의됩니다. 다른 사전 훈련 및 양방향 작업은 다른 비즈니스 요구와 다른 데이터 양식에 따라 구성됩니다. 이 부분에는 비교적 복잡한 소프트웨어 아키텍처 및 특정 비즈니스 시나리오가 포함되며 아직 오픈 소스를 수행하지 않았습니다.
Q. Mengzi-T5-Base가 직접 추론 할 수 있습니까?
A : 우리는 T5 v1.1을 참조하고 다운 스트림 작업을 포함하지 않습니다.
Q : Huggingface Transformer로 오류를로드하면 어떻게해야합니까?
A : force_download=True 추가 해보십시오.
Q : Mengzi-T5-Base는 항상 구속력 생성을 수행 할 때 단어 세분화 후보를 생성하는 경향이있는 반면, MT5는 반대이며, 단어 세분성이 선호됩니다. 이것이 훈련 과정이라는 단어이 세분화 과정입니까?
A : MT5의 어휘를 사용하는 대신 더 많은 어휘를 포함하여 코퍼스를 기반으로 토큰 화기를 재교육했습니다. 이런 식으로, 동일한 길이의 텍스트를 인코딩 한 후에는 토큰 수가 더 작아지고 메모리 사용량은 더 작고 훈련 속도가 더 빠릅니다.
이 프로젝트의 내용은 기술적 연구 참조를위한 것이며 결론적으로 사용되지 않습니다. 사용자는 라이센스 범위 내에서 언제든지 모델을 사용할 수 있지만 프로젝트 컨텐츠 사용으로 인한 직간접 손실에 대해 책임을지지 않습니다. 기술 보고서에 제시된 실험 결과는 특정 데이터 세트와 하이퍼 파라미터 조합에서 성능이 각 모델의 특성을 나타내지 않음을 보여줍니다. 임의의 숫자 씨앗과 컴퓨팅 장치로 인해 실험 결과가 변경 될 수 있습니다.
이 모델을 다양한 방식으로 사용하는 과정 (제 3자를 통한 수정, 직접 사용 및 사용에 국한되지는 않지만), 사용자는 자신이 속한 관할 구역의 법률과 규정을 위반하는 행위에 직접 또는 간접적으로 관여해서는 안됩니다 (수정, 직접 사용 및 사회적 도덕성을 포함하지만 어떤 방식 으로든 모든 법률 및 공동의 책임을지지 않습니다. 법적 또는 공동 책임.
우리는이 면책 조항을 해석, 수정 및 업데이트 할 권리가 있습니다.
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}