Chinesisch | Englisch
Obwohl in verschiedenen Bereichen von NLP vorgebrachte Sprachmodelle häufig verwendet wurden, sind ihre höchsten Zeit- und Rechenleistungkosten immer noch ein dringendes Problem. Dies erfordert, dass wir Modelle mit besseren Indikatoren unter bestimmten Rechenleistungskontrollen entwickeln.
Unser Ziel ist es nicht, größere Modellgrößen zu verfolgen, sondern leichte, aber leistungsfähigere Modelle, während ein Einsatz und die industriellere Landing-freundlich ist.
Basierend auf Methoden wie der Integration von Sprachinformationen und der Schulungsbeschleunigung haben wir das Modell der Mengzi -Serie entwickelt. Dank der Modellstruktur, die mit Bert übereinstimmt, kann das Mengzi -Modell vorhandenen vorhandenen Modellen schnell ersetzen.
Ausführliche technische Berichte finden Sie unter:
Mengzi: Auf dem Weg zu leichten, aber genialen vorgebrachten Modellen für Chinesisch
Fügen Sie zwei Open -Source -GPT -Architekturmodelle hinzu:
@Huajingyun
@Hululuzhu basierend auf Mengzi-T5-Base wird das chinesische KI-Schreibmodell geschult, um Gedichte und Paare zu generieren. Für das Modell und die spezifische Nutzung finden Sie unter: Chinese-AI-Schreib-Share
Einige Beispiele für Generation:
上: 不待鸣钟已汗颜,重来试手竟何艰
下: 何堪击鼓频催泪?一别伤心更枉然
上: 北国风光,千里冰封,万里雪飘
下: 南疆气象,五湖浪涌,三江潮来
標題: 作诗:中秋
詩歌: 秋氣侵肌骨,寒光入鬢毛。雲收千里月,風送一帆高。
標題: 作诗:中秋 模仿:苏轼
詩歌: 月從海上生,照我庭下影。不知此何夕,但見天宇靜。
Vielen Dank an das Paddlenlp -Versionsmodell und die Dokumentation des Paddlepaddle -Teams @yingyibiao.
Hinweis: Das Paddlenlp -Versionsmodell ist kein Produkt der Lanzhou -Technologie, und wir übernehmen nicht die entsprechende Verantwortung für seine Ergebnisse und Ergebnisse.
| Modell | Parametermenge | Anwendbare Szenarien | Merkmale | Link herunterladen |
|---|---|---|---|---|
| Mengzi-Bert-Base | 110 m | Aufgaben des natürlichen Sprachverständnisses wie Textklassifizierung, Entitätserkennung, Beziehungsextraktion und Leseverständnis | Das gleiche wie die Bert -Struktur, können die vorhandenen Bert -Gewichte direkt ersetzt werden. | Umarmung, Download inländischer ZIP, Paddlenlp |
| Mengzi-Bert-L6-H768 | 60 m | Aufgaben des natürlichen Sprachverständnisses wie Textklassifizierung, Entitätserkennung, Beziehungsextraktion und Leseverständnis | Erhalten von Mengzi-tbert-large Destillation | Umarmung |
| Mengzi-Bert-Base-Fin | 110 m | Aufgaben des natürlichen Sprachverständnisses im finanziellen Bereich | Schulung über Finanzkorpus basierend auf Mengzi-Bert-Base | Umarmung, Download inländischer ZIP, Paddlenlp |
| Mengzi-T5-Base | 220 m | Geeignet für steuerbare Aufgaben zur Erzeugung von Textgenerierung wie die Erzeugung von Texten und Nachrichtengenerierung | Die gleiche Struktur wie T5, enthält keine nachgeschalteten Aufgaben und muss nach dem Finetune für eine bestimmte Aufgabe verwendet werden. Im Gegensatz zur GPT -Positionierung ist sie nicht für die Fortsetzung von Text geeignet | Umarmung, Download inländischer ZIP, Paddlenlp |
| Mengzi-T5-Base-Mt | 220 m | Stellen Sie Null- und wenige Schussfunktionen zur Verfügung | Multitasking -Modell kann verschiedene Aufgaben durch Eingabeaufforderung ausführen | Umarmung |
| Mengzi-Oscar-Base | 110 m | Geeignet für Bilder Beschreibung, Bild- und Textinspektion und andere Aufgaben | Multimodales Modell basierend auf Mengzi-Bert-Base. Training auf Millionsstufenbildern und Textpaaren | Umarmung |
| Mengzi-gpt-Neo-Base | 125 m | Textdaueraufgabe | Basierend auf dem chinesischen Corpus Refrain Training, geeignet als Basismodell für verwandte Arbeiten | Umarmung |
| BLOOM-389M-ZH | 389 m | Textdaueraufgabe | Das Bloom -Modell, das mehrsprachige Versionen basierend auf dem chinesischen Korpus abschneidet | Umarmung |
| BLOOM-800M-ZH | 800 m | Textdaueraufgabe | Das Bloom -Modell, das mehrsprachige Versionen basierend auf dem chinesischen Korpus abschneidet | Umarmung |
| Bloom-1b4-Zh | 1400 m | Textdaueraufgabe | Das Bloom -Modell, das mehrsprachige Versionen basierend auf dem chinesischen Korpus abschneidet | Umarmung |
| Bloom-2B5-Zh | 2500 m | Textdaueraufgabe | Das Bloom -Modell, das mehrsprachige Versionen basierend auf dem chinesischen Korpus abschneidet | Umarmung |
| Bloom-6b4-Zh | 6400 m | Textdaueraufgabe | Das Bloom -Modell, das mehrsprachige Versionen basierend auf dem chinesischen Korpus abschneidet | Umarmung |
| Regpt-125M-200g | 125 m | Textdaueraufgabe | Modell, das auf GPT-neo-125m über https://github.com/langboat/mengzi-retrieval-lm ausgebildet ist | Umarmung |
| Guohua-Diffusion | - - | Generierung des chinesischen Malstils und Textes | Dreambooth -Training basierend auf Stiftediffusion v1.5 | Umarmung |
# 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )oder
# 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )Integriert in Umarmungsflächen mit Gradio. Siehe Demo:
# 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )oder
# 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )Referenzdokumente
# 使用 Huggingface transformers 加载
pip install transformersoder
# 使用 PaddleNLP 加载
pip install paddlenlp| Modell | AFQMC | Tnews | Iflytek | Cmnli | WSC | CSL | CMRC2018 | C3 | Chid |
|---|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-text | 74.30 | 57.51 | 60.80 | 80.70 | 67.20 | 80.67 | 77,59 | 67.06 | 83.78 |
| Mengzi-Bert-Base | 74,58 | 57.97 | 60.68 | 82.12 | 87,50 | 85,40 | 78,54 | 71.70 | 84.16 |
| Mengzi-Bert-L6-H768 | 74,75 | 56.68 | 60.22 | 81.10 | 84,87 | 85.77 | 78.06 | 65.49 | 80.59 |
Roberta-wwm-EXTS-Punktzahl stammt aus der Ahnung Baseline
| Aufgabe | Lernrate | Globale Chargengröße | Epochen |
|---|---|---|---|
| AFQMC | 3e-5 | 32 | 10 |
| Tnews | 3e-5 | 128 | 10 |
| Iflytek | 3e-5 | 64 | 10 |
| Cmnli | 3e-5 | 512 | 10 |
| WSC | 8E-6 | 64 | 50 |
| CSL | 5e-5 | 128 | 5 |
| CMRC2018 | 5e-5 | 8 | 5 |
| C3 | 1e-4 | 240 | 3 |
| Chid | 5e-5 | 256 | 5 |

Wangyulong [at] Langboat [dot] com
Q. Mengzi-Bert-Base Die gespeicherte Modellgröße beträgt 196 m. Aber ist die Modellgröße der Bert-Base um 389 m? Gibt es einen Unterschied in der definierten Basis, oder fehlt ihnen unnötige Inhalte, wenn sie gespeichert werden?
A: Dies liegt daran, dass Mengzi-Bert-Base mit FP16 trainiert wird.
Frage: Was ist die Datenquelle für finanzielle vorgebrachte Modelle?
A: Finanznachrichten, Ankündigungen und Forschungsberichte, die auf Webseiten kriechen.
Frage: Gibt es ein TensorFlow -Versionsmodell?
A: Sie können es selbst konvertieren.
Frage: Kann der Trainingscode offen bezogen werden?
A: Aufgrund der engen Kopplung mit interner Infrastruktur gibt es derzeit keinen Plan.
Frage: Wie können wir den gleichen Effekt wie die Textgenerierung von Text auf der offiziellen Website von Langboat erzielen?
A: Unser Modell der Kerntextgenerierung basiert auf der T5 -Architektur. Der grundlegende Algorithmus für Textgenerierung kann sich auf das T5 -Papier von Google beziehen: https://arxiv.org/pdf/1910.10683.pdf. Unser Open-Source-Modell Mengzi-T5-Modell ist das gleiche wie die vorgebrachte Modellarchitektur von Google, bei der es sich um ein allgemeines vorgebildetes Modell handelt und keine speziellen Aufgaben für die Textgenerierung hat. Unsere Marketing -Copywriting -Erzeugungsfunktion besteht darin, eine große Menge an Daten für bestimmte nachgeschaltete Aufgaben zu verwenden. Um kontrollierbare Erzeugungseffekte zu erzielen, haben wir auf dieser Basis einen vollständigen Satz von Pipelines der Textgenerierung aufgebaut: von Datenreinigung, Wissensextraktion, Trainingsdatenkonstruktion bis zur Qualitätsbewertung der Generation. Die meisten von ihnen werden nach kommerziellen Implementierungsszenarien angepasst: Verschiedene Voraussetzungs- und Finetunenaufgaben werden nach verschiedenen Geschäftsanforderungen und unterschiedlichen Datenformen erstellt. Dieser Teil umfasst relativ komplexe Softwarearchitekturen und spezifische Geschäftsszenarien, und wir haben noch keine Open Source durchgeführt.
Frage: Kann Mengzi-T5-Base direkt inferenzieren?
A: Wir verweisen auf T5 V1.1 und enthalten keine nachgeschalteten Aufgaben.
F: Was soll ich tun, wenn ich Fehler mit dem Umarmungsface -Transformator lade?
A: Versuchen Sie, force_download=True hinzuzufügen.
F: Mengzi-T5-Base neigt immer dazu, Kandidaten für Wortgranularität bei der Einschränkung der Erzeugung zu erzeugen, während MT5 das Gegenteil ist, die Wortgranularität bevorzugt. Ist dies der Schulungsprozess der Wort Granularitätsprozess?
A: Anstatt den Wortschatz von MT5 zu verwenden, haben wir den Tokenizer basierend auf dem Korpus, einschließlich mehr Wortschatz, umgeschrieben. Auf diese Weise ist die Anzahl der Token nach der Encodierung von Texten derselben Länge kleiner, die Speicherverwendung kleiner und die Trainingsgeschwindigkeit schneller.
Der Inhalt in diesem Projekt dient nur für technische Forschungsreferenz und wird nicht als abschließende Grundlage verwendet. Benutzer können das Modell jederzeit im Rahmen der Lizenz verwenden, aber wir sind nicht für direkte oder indirekte Verluste verantwortlich, die durch die Verwendung des Inhalts des Projekts verursacht werden. Die im technischen Bericht vorgestellten experimentellen Ergebnisse zeigen nur, dass die Leistung unter einem bestimmten Datensatz und einer Hyperparameter -Kombination nicht die Art jedes Modells darstellt. Die experimentellen Ergebnisse können sich aufgrund von Zufallszahlensamen und Computergeräten ändern.
Während des Prozesses der Verwendung dieses Modells auf verschiedene Arten (einschließlich, aber nicht beschränkt auf Änderungen, direkte Verwendung und Verwendung durch Dritte) dürfen Benutzer nicht direkt oder indirekt an Handlungen führen, die gegen die Gesetze und Vorschriften der Gerichtsbarkeit verstoßen, zu der sie gehören (einschließlich, aber nicht beschränkt auf Änderungen, direkte Verwendung und soziale Moral, soziale Moral. Benutzer sind nicht verantwortlich für ihre eigenen Handlungen. Der Benutzern, das sich auf die gesamte Weise befasst. übernehmen eine rechtliche oder gemeinsame Haftung.
Wir haben das Recht, diesen Haftungsausschluss zu interpretieren, zu ändern und zu aktualisieren.
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}