Cina | Bahasa inggris
Meskipun model bahasa pra-terlatih telah banyak digunakan di berbagai bidang NLP, biaya daya dan daya komputasi yang tinggi masih merupakan masalah yang mendesak. Ini mengharuskan kita untuk mengembangkan model dengan indikator yang lebih baik di bawah kendala daya komputasi tertentu.
Tujuan kami bukan untuk mengejar ukuran model yang lebih besar, tetapi model yang ringan tetapi lebih kuat, sementara lebih mudah dan ramah industri.
Berdasarkan metode seperti integrasi informasi linguistik dan akselerasi pelatihan, kami mengembangkan model seri Mengzi. Berkat struktur model yang konsisten dengan Bert, model Mengzi dapat dengan cepat menggantikan model pretrain yang ada.
Untuk laporan teknis terperinci, silakan merujuk ke:
Mengzi: Menuju model pra-terlatih yang ringan namun cerdik untuk Cina
Tambahkan dua model arsitektur GPT open source:
@huajingyun
@hululuzhu berdasarkan pada model penulisan AI-T5-Base, Cina dilatih untuk menghasilkan puisi dan pasangan. Untuk model dan penggunaan spesifik, silakan merujuk ke: China-ai-penulisan-saham
Beberapa contoh generasi:
上: 不待鸣钟已汗颜,重来试手竟何艰
下: 何堪击鼓频催泪?一别伤心更枉然
上: 北国风光,千里冰封,万里雪飘
下: 南疆气象,五湖浪涌,三江潮来
標題: 作诗:中秋
詩歌: 秋氣侵肌骨,寒光入鬢毛。雲收千里月,風送一帆高。
標題: 作诗:中秋 模仿:苏轼
詩歌: 月從海上生,照我庭下影。不知此何夕,但見天宇靜。
Berkat model dan dokumentasi versi paddlenlp yang disediakan oleh tim Paddlepaddle @Iningyibiao.
Catatan: Model versi Paddlenlp bukanlah produk dari teknologi Lanzhou, dan kami tidak memikul tanggung jawab yang sesuai atas hasil dan hasilnya.
| Model | Kuantitas parameter | Skenario yang berlaku | Fitur | Tautan unduh |
|---|---|---|---|---|
| Mengzi-Bert-Base | 110m | Tugas pemahaman bahasa alami seperti klasifikasi teks, pengenalan entitas, ekstraksi hubungan, dan pemahaman membaca | Sama seperti struktur Bert, bobot Bert yang ada dapat diganti secara langsung. | Huggingface, unduhan zip domestik, paddlenlp |
| Mengzi-Bert-L6-H768 | 60m | Tugas pemahaman bahasa alami seperti klasifikasi teks, pengenalan entitas, ekstraksi hubungan, dan pemahaman membaca | Diperoleh dengan distilasi Mengzi-Bert-Large | Huggingface |
| Mengzi-Bert-Base-Fin | 110m | Tugas pemahaman bahasa alami di bidang keuangan | Pelatihan tentang Corpus Keuangan Berdasarkan Base-Bert | Huggingface, unduhan zip domestik, paddlenlp |
| Mengzi-T5-Base | 220m | Cocok untuk tugas pembuatan teks yang dapat dikendalikan seperti pembuatan copywriting dan generasi berita | Struktur yang sama dengan T5, tidak termasuk tugas hilir, dan perlu digunakan setelah Finetune pada tugas tertentu. Tidak seperti posisi GPT, tidak cocok untuk sekuel teks | Huggingface, unduhan zip domestik, paddlenlp |
| Mengzi-t5-base-mt | 220m | Memberikan kemampuan zero-shot dan beberapa tembakan | Model multitasking, dapat menyelesaikan berbagai tugas melalui prompt | Huggingface |
| Mengzi-Oscar-Base | 110m | Cocok untuk deskripsi gambar, inspeksi gambar dan teks dan tugas lainnya | Model Multimodal Berdasarkan Mengzi-Bert-Base. Pelatihan tentang gambar jutaan-tingkat dan pasangan teks | Huggingface |
| Mengzi-GPT-NEO-BASE | 125m | Tugas Kelanjutan Teks | Berdasarkan pelatihan corpus corpus Cina, cocok sebagai model dasar untuk pekerjaan terkait | Huggingface |
| Bloom-389m-Zh | 389m | Tugas Kelanjutan Teks | Model mekar yang memangkas versi multibahasa berdasarkan corpus Cina mengurangi kebutuhan untuk memori video | Huggingface |
| Bloom-800m-Zh | 800m | Tugas Kelanjutan Teks | Model mekar yang memangkas versi multibahasa berdasarkan corpus Cina mengurangi kebutuhan untuk memori video | Huggingface |
| Bloom-1b4-zh | 1400m | Tugas Kelanjutan Teks | Model mekar yang memangkas versi multibahasa berdasarkan corpus Cina mengurangi kebutuhan untuk memori video | Huggingface |
| Bloom-2b5-Zh | 2500m | Tugas Kelanjutan Teks | Model mekar yang memangkas versi multibahasa berdasarkan corpus Cina mengurangi kebutuhan untuk memori video | Huggingface |
| Bloom-6B4-ZH | 6400m | Tugas Kelanjutan Teks | Model mekar yang memangkas versi multibahasa berdasarkan corpus Cina mengurangi kebutuhan untuk memori video | Huggingface |
| Regpt-125m-200g | 125m | Tugas Kelanjutan Teks | Model dilatih pada GPT-NEO-125M melalui https://github.com/langboat/mengzi-retrieval-lm | Huggingface |
| Guohua-difusi | - | Generasi Gaya Lukisan dan Teks Lukisan Cina | Pelatihan DreamBooth Berdasarkan Stablediffusion v1.5 | Huggingface |
# 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )atau
# 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )Terintegrasi ke ruang pelukan dengan gradio. Lihat Demo:
# 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )atau
# 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )Dokumen referensi
# 使用 Huggingface transformers 加载
pip install transformersatau
# 使用 PaddleNLP 加载
pip install paddlenlp| Model | AFQMC | Tnews | Iflytek | Cmnli | WSC | CSL | CMRC2018 | C3 | Chid |
|---|---|---|---|---|---|---|---|---|---|
| Roberta-WWM-EXT | 74.30 | 57.51 | 60.80 | 80.70 | 67.20 | 80.67 | 77.59 | 67.06 | 83.78 |
| Mengzi-Bert-Base | 74.58 | 57.97 | 60.68 | 82.12 | 87.50 | 85.40 | 78.54 | 71.70 | 84.16 |
| Mengzi-Bert-L6-H768 | 74.75 | 56.68 | 60.22 | 81.10 | 84.87 | 85.77 | 78.06 | 65.49 | 80.59 |
Skor Roberta-WWM-EXT berasal dari CLUE BASELINE
| Tugas | Tingkat pembelajaran | Ukuran batch global | Zaman |
|---|---|---|---|
| AFQMC | 3e-5 | 32 | 10 |
| Tnews | 3e-5 | 128 | 10 |
| Iflytek | 3e-5 | 64 | 10 |
| Cmnli | 3e-5 | 512 | 10 |
| WSC | 8e-6 | 64 | 50 |
| CSL | 5e-5 | 128 | 5 |
| CMRC2018 | 5e-5 | 8 | 5 |
| C3 | 1E-4 | 240 | 3 |
| Chid | 5e-5 | 256 | 5 |

wangyulong [at] langboat [dot] com
Q. Mengzi-Base-Base Ukuran model yang disimpan adalah 196m. Tetapi apakah ukuran model base sekitar 389m? Apakah ada perbedaan dalam basis yang ditentukan, atau apakah itu kehilangan beberapa konten yang tidak perlu saat disimpan?
A: Ini karena Mengzi-Bert-Base dilatih dengan FP16.
Q. Apa sumber data untuk model pra-terlatih keuangan?
A: Berita keuangan, pengumuman, dan laporan penelitian merangkak di halaman web.
Q. Apakah ada model versi TensorFlow?
A: Anda dapat mengubahnya sendiri.
Q. Bisakah kode pelatihan bersumber terbuka?
A: Karena kopling ketat dengan infrastruktur internal, saat ini tidak ada rencana.
Q. Bagaimana kita dapat mencapai efek yang sama dengan pembuatan teks di situs web resmi Langboat?
A: Model pembuatan teks inti kami didasarkan pada arsitektur T5. Algoritma pembuatan teks dasar dapat merujuk ke kertas Google T5: https://arxiv.org/pdf/1910.10683.pdf. Model open source Mengzi-T5 kami sama dengan arsitektur model pra-terlatih Google T5, yang merupakan model pra-terlatih umum dan tidak memiliki tugas pembuatan teks khusus. Fitur pembuatan copywriting pemasaran kami adalah menggunakan sejumlah besar data di atasnya untuk tugas hilir tertentu Finetune. Atas dasar ini, untuk mencapai efek pembuatan yang dapat dikendalikan, kami telah membangun serangkaian pipa pembuatan teks lengkap: dari pembersihan data, ekstraksi pengetahuan, pelatihan konstruksi data hingga evaluasi kualitas generasi. Sebagian besar dari mereka disesuaikan sesuai dengan skenario implementasi komersial: berbagai tugas pra-pelatihan dan finetune dibangun sesuai dengan kebutuhan bisnis yang berbeda dan formulir data yang berbeda. Bagian ini melibatkan arsitektur perangkat lunak yang relatif kompleks dan skenario bisnis tertentu, dan kami belum melakukan open source.
Q. Dapatkah Mengzi-T5-Base Inferensi Langsung?
A: Kami merujuk ke T5 v1.1 dan tidak termasuk tugas hilir.
T: Apa yang harus saya lakukan jika saya memuat kesalahan dengan transformator huggingface?
A: Coba tambahkan force_download=True .
T: Mengzi-T5-Base selalu cenderung menghasilkan kandidat untuk granularitas kata saat melakukan pembatasan generasi, sedangkan MT5 adalah sebaliknya, granularitas kata lebih disukai. Apakah ini proses pelatihan kata proses granularitas?
A: Alih -alih menggunakan kosakata MT5, kami melatih kembali tokenizer berdasarkan corpus, termasuk lebih banyak kosa kata. Dengan cara ini, setelah mengkodekan teks dengan panjang yang sama, jumlah token akan lebih kecil, penggunaan memori akan lebih kecil, dan kecepatan pelatihan akan lebih cepat.
Konten dalam proyek ini hanya untuk referensi penelitian teknis dan tidak digunakan sebagai dasar penutup. Pengguna dapat menggunakan model kapan saja dalam ruang lingkup lisensi, tetapi kami tidak bertanggung jawab atas kerugian langsung atau tidak langsung yang disebabkan oleh penggunaan konten proyek. Hasil eksperimen yang disajikan dalam laporan teknis hanya menunjukkan bahwa kinerja di bawah kumpulan data tertentu dan kombinasi hiperparameter tidak mewakili sifat masing -masing model. Hasil eksperimen dapat berubah karena biji bilangan acak dan perangkat komputasi.
Selama proses menggunakan model ini dengan berbagai cara (termasuk tetapi tidak terbatas pada modifikasi, penggunaan langsung, dan penggunaan melalui pihak ketiga), pengguna tidak boleh secara langsung atau tidak langsung terlibat dalam tindakan yang melanggar hukum dan peraturan yurisdiksi yang menjadi milik mereka (termasuk tetapi tidak ada yang digunakan oleh semua orang yang tidak ada. menanggung tanggung jawab hukum atau bersama.
Kami memiliki hak untuk menafsirkan, memodifikasi, dan memperbarui penafian ini.
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}