China yang disederhanakan | Bahasa inggris

Macbert Cina | China Electra | Xlnet Cina | Alat Distilasi Pengetahuan TextBrewer | Model Cutting Tool TextPruner
Lebih Banyak Sumber Daya Dirilis oleh HFL: https://github.com/ymcui/hfl-anthology
2023/3/28 Open Source Chinese Llama & Alpaca Big Model, yang dapat dengan cepat digunakan dan dialami di PC, Lihat: https://github.com/ymcui/chinese-llama-alpaca
2022/3/30 merilis model pra-terlatih baru: https://github.com/ymcui/pert
2021/12/17 merilis alat pemangkasan model TextPruner: https://github.com/airaria/textpruner
2021/10/24 merilis model pra-terlatih pertama untuk bahasa etnis minoritas: https://github.com/ymcui/chinese-minority-plm
2021/7/21 Buku "Pemrosesan Bahasa Alami: Metode berdasarkan model pra-terlatih" secara resmi diterbitkan.
2020/11/3 Macbert Cina yang dilatih sebelumnya telah dirilis dan metode penggunaannya sama dengan Bert.
2020/9/15 Makalah "Meninjau kembali model pra-terlatih untuk pemrosesan bahasa alami Cina" dipekerjakan sebagai artikel panjang dengan temuan EMNLP.
| bab | menggambarkan |
|---|---|
| Perkenalan | Pengantar Singkat untuk Macbert |
| unduh | Unduh MacBert |
| Pemuatan cepat | Cara menggunakan transformer dengan cepat memuat model |
| Efek dasar | Efek pada tugas NLP Cina |
| FAQ | Pertanyaan yang sering diajukan |
| Mengutip | Informasi Kutipan Artikel |
MacBert adalah versi yang lebih baik dari Bert, memperkenalkan model bahasa topeng yang dikoreksi kesalahan (MLM sebagai koreksi, Mac) tugas pra-pelatihan, mengurangi masalah "tugas pra-pelatihan-henti".
Dalam model bahasa topeng (MLM), tag [topeng] diperkenalkan untuk menutupi, tetapi tag [mask] tidak muncul dalam tugas hilir. Di Macbert, kami menggunakan kata -kata serupa untuk mengganti tag [topeng] . Kata -kata serupa diperoleh oleh alat Synonyms Toolkit (Wang dan Hu, 2017), dan algoritma dihitung berdasarkan Word2Vec (Mikolov et al., 2013). Pada saat yang sama, kami juga telah memperkenalkan seluruh kata masking (WWM) dan teknologi masking n-gram. Saat menutupi n-gram, kami mencari kata-kata yang sama untuk setiap kata dalam n-gram. Ketika tidak ada kata serupa untuk diganti, kami akan menggunakan kata -kata acak untuk penggantian.
Berikut ini adalah contoh sampel pelatihan.
| contoh | |
|---|---|
| Kalimat asli | Kami menggunakan model bahasa untuk memprediksi probabilitas kata berikutnya. |
| MLM | Kami menggunakan bahasa [m] untuk [m] ## di ## ct Pro [m] ## kemampuan kata berikutnya. |
| Seluruh kata menutupi | Kami menggunakan bahasa [m] untuk [m] [m] [m] [m] [m] dari kata berikutnya. |
| N-gram masking | Kami menggunakan [m] [m] hingga [m] [m] [m] [m] [m] [m] [m] kata berikutnya. |
| MLM sebagai koreksi | Kami menggunakan sistem teks untuk CA ## LC ## ULATE PO ## SI ## Kemampuan kata berikutnya. |
Kerangka kerja utama MacBert persis sama dengan Bert, memungkinkan transisi mulus tanpa memodifikasi kode yang ada.
Untuk detail lebih lanjut, silakan merujuk ke makalah kami: Meninjau kembali model pra-terlatih untuk pemrosesan bahasa alami Cina
Terutama menyediakan unduhan model untuk versi TensorFlow 1.x.
MacBERT-large, Chinese : 24-lapis, 1024-tersembunyi, 16-heads, 324m parameterMacBERT-base, Chinese : 12-layer, 768-tersembunyi, 12-heads, parameter 102m| Model | Google Drive | Disk Baidu | ukuran |
|---|---|---|---|
MacBERT-large, Chinese | Tensorflow | TensorFlow (PW: ZEJF) | 1.2g |
MacBERT-base, Chinese | Tensorflow | TensorFlow (PW: 61GA) | 383m |
Jika Anda membutuhkan versi model Pytorch atau TensorFlow2:
Unduh Langkah (Anda juga dapat mengkloning seluruh direktori secara langsung menggunakan GIT):
Model Macbert dapat dimuat dengan cepat melalui transformator.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
Catatan: Silakan gunakan Berttokenizer dan Bertmodel untuk memuat model MacBert!
MODEL_NAME yang sesuai adalah sebagai berikut:
| Model asli | Nama panggilan model |
|---|---|
| MacBert-Large | HFL/China-Macbert-Large |
| MACBERT-BASE | HFL/China-Macbert-Base |
Berikut adalah tampilan efek MacBert pada 6 tugas hilir (lihat kertas untuk hasil lebih lanjut):
Untuk memastikan stabilitas hasil, kami memberikan nilai rata -rata (dalam tanda kurung) dan nilai maksimum dari independen berjalan 10 kali pada saat yang sama.
Kumpulan data CMRC 2018 adalah data pemahaman pembacaan mesin Cina yang dirilis oleh laboratorium bersama Institut Teknologi Harbin. Menurut pertanyaan yang diberikan, sistem perlu mengekstrak fragmen dari bab sebagai jawaban, dalam bentuk yang sama dengan skuad. Indikator evaluasi adalah: EM / F1
| Model | Perkembangan | Tes | Tantangan | #Params |
|---|---|---|---|---|
| Bert-base | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) | 102m |
| Bert-WWM | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) | 102m |
| BERT-WWM-EXT | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) | 102m |
| Roberta-WWM-EXT | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) | 102m |
| Basis elektra | 68.4 (68.0) / 84.8 (84.6) | 73.1 (72.7) / 87.1 (86.9) | 22.6 (21.7) / 45.0 (43.8) | 102m |
| MACBERT-BASE | 68.5 (67.3) / 87.9 (87.1) | 73.2 (72.4) / 89.5 (89.2) | 30.2 (26.4) / 54.0 (52.2) | 102m |
| Electra-Large | 69.1 (68.2) / 85.2 (84.5) | 73.9 (72.8) / 87.1 (86.6) | 23.0 (21.6) / 44.2 (43.2) | 324m |
| Roberta-wwm-Ext-Large | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) | 324m |
| MacBert-Large | 70.7 (68.6) / 88.9 (88.2) | 74.8 (73.2) / 90.7 (90.1) | 31.9 (29.6) / 60.2 (57.6) | 324m |
Dataset DRCD dirilis oleh Delta Research Institute, Taiwan, Cina. Bentuknya sama dengan skuad dan merupakan dataset pemahaman membaca yang diekstraksi berdasarkan bahasa Cina tradisional. Karena karakter Cina tradisional dihapus dari Ernie, tidak disarankan untuk menggunakan Ernie (atau mengubahnya menjadi Cina yang disederhanakan dan kemudian memprosesnya) pada data tradisional Cina. Indikator evaluasi adalah: EM / F1
| Model | Perkembangan | Tes | #Params |
|---|---|---|---|
| Bert-base | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) | 102m |
| Bert-WWM | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) | 102m |
| BERT-WWM-EXT | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) | 102m |
| Roberta-WWM-EXT | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) | 102m |
| Basis elektra | 87.5 (87.0) / 92.5 (92.3) | 86.9 (86.6) / 91.8 (91.7) | 102m |
| MACBERT-BASE | 89.4 (89.2) / 94.3 (94.1) | 89.5 (88.7) / 93.8 (93.5) | 102m |
| Electra-Large | 88.8 (88.7) / 93.3 (93.2) | 88.8 (88.2) / 93.6 (93.2) | 324m |
| Roberta-wwm-Ext-Large | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) | 324m |
| MacBert-Large | 91.2 (90.8) / 95.6 (95.3) | 91.7 (90.9) / 95.6 (95.3) | 324m |
Dalam tugas inferensi bahasa alami, kami mengadopsi data XNLI , yang mengharuskan teks dibagi menjadi tiga kategori: entailment , neutral , dan contradictory . Indikator evaluasi adalah: akurasi
| Model | Perkembangan | Tes | #Params |
|---|---|---|---|
| Bert-base | 77.8 (77.4) | 77.8 (77.5) | 102m |
| Bert-WWM | 79.0 (78.4) | 78.2 (78.0) | 102m |
| BERT-WWM-EXT | 79.4 (78.6) | 78.7 (78.3) | 102m |
| Roberta-WWM-EXT | 80.0 (79.2) | 78.8 (78.3) | 102m |
| Basis elektra | 77.9 (77.0) | 78.4 (77.8) | 102m |
| MACBERT-BASE | 80.3 (79.7) | 79.3 (78.8) | 102m |
| Electra-Large | 81.5 (80.8) | 81.0 (80.9) | 324m |
| Roberta-wwm-Ext-Large | 82.1 (81.3) | 81.2 (80.6) | 324m |
| MacBert-Large | 82.4 (81.8) | 81.3 (80.6) | 324m |
Dalam tugas analisis sentimen, dataset klasifikasi emosi biner chnsenticorp. Indikator evaluasi adalah: akurasi
| Model | Perkembangan | Tes | #Params |
|---|---|---|---|
| Bert-base | 94.7 (94.3) | 95.0 (94.7) | 102m |
| Bert-WWM | 95.1 (94.5) | 95.4 (95.0) | 102m |
| BERT-WWM-EXT | 95.4 (94.6) | 95.3 (94.7) | 102m |
| Roberta-WWM-EXT | 95.0 (94.6) | 95.6 (94.8) | 102m |
| Basis elektra | 93.8 (93.0) | 94.5 (93.5) | 102m |
| MACBERT-BASE | 95.2 (94.8) | 95.6 (94.9) | 102m |
| Electra-Large | 95.2 (94.6) | 95.3 (94.8) | 324m |
| Roberta-wwm-Ext-Large | 95.8 (94.9) | 95.8 (94.9) | 324m |
| MacBert-Large | 95.7 (95.0) | 95.9 (95.1) | 324m |
LCQMC dirilis oleh Pusat Penelitian Komputasi Intelyur dari Harbin Institute of Technology Shenzhen Graduate School. Indikator evaluasi adalah: akurasi
| Model | Perkembangan | Tes | #Params |
|---|---|---|---|
| Bert | 89.4 (88.4) | 86.9 (86.4) | 102m |
| Bert-WWM | 89.4 (89.2) | 87.0 (86.8) | 102m |
| BERT-WWM-EXT | 89.6 (89.2) | 87.1 (86.6) | 102m |
| Roberta-WWM-EXT | 89.0 (88.7) | 86.4 (86.1) | 102m |
| Basis elektra | 90.2 (89.8) | 87.6 (87.3) | 102m |
| MACBERT-BASE | 89.5 (89.3) | 87.0 (86.5) | 102m |
| Electra-Large | 90.7 (90.4) | 87.3 (87.2) | 324m |
| Roberta-wwm-Ext-Large | 90.4 (90.0) | 87.0 (86.8) | 324m |
| MacBert-Large | 90.6 (90.3) | 87.6 (87.1) | 324m |
BQ Corpus dirilis oleh Pusat Penelitian Komputasi Cerdas dari Harbin Institute of Technology Shenzhen Graduate School dan merupakan kumpulan data untuk bidang perbankan. Indikator evaluasi adalah: akurasi
| Model | Perkembangan | Tes | #Params |
|---|---|---|---|
| Bert | 86.0 (85.5) | 84.8 (84.6) | 102m |
| Bert-WWM | 86.1 (85.6) | 85.2 (84.9) | 102m |
| BERT-WWM-EXT | 86.4 (85.5) | 85.3 (84.8) | 102m |
| Roberta-WWM-EXT | 86.0 (85.4) | 85.0 (84.6) | 102m |
| Basis elektra | 84.8 (84.7) | 84.5 (84.0) | 102m |
| MACBERT-BASE | 86.0 (85.5) | 85.2 (84.9) | 102m |
| Electra-Large | 86.7 (86.2) | 85.1 (84.8) | 324m |
| Roberta-wwm-Ext-Large | 86.3 (85.7) | 85.8 (84.9) | 324m |
| MacBert-Large | 86.2 (85.7) | 85.6 (85.0) | 324m |
T1: Apakah ada versi bahasa Inggris dari MacBert?
A1: Tidak ada saat ini.
T2: Bagaimana cara menggunakan MacBert?
A2: Sama seperti menggunakan Bert, Anda hanya perlu hanya mengganti file model dan konfigurasi untuk menggunakannya. Tentu saja, Anda juga dapat melatih lebih lanjut model pretrained lainnya dengan memuat model kami (mis. Inisialisasi bagian Transformers).
T3: Dapatkah Anda memberikan kode pelatihan MacBert?
A3: Belum ada rencana sumber terbuka.
T4: Dapatkah saya open source pra-terlatih corpus?
A4: Kami tidak dapat membuat korpus pelatihan open source karena tidak ada hak untuk melepaskan kembali. Ada beberapa sumber daya corpus Cina open source di GitHub, yang dapat Anda perhatikan dan gunakan lebih banyak.
T5: Apakah ada rencana untuk melatih MacBert pada korpus yang lebih besar dan open source?
A5: Kami tidak punya rencana untuk saat ini.
Jika sumber daya dalam proyek ini bermanfaat untuk penelitian Anda, silakan kutip makalah berikut.
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
atau:
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
Terima kasih kepada Google TPU Research Cloud (TFRC) untuk dukungan sumber daya komputasi.
Jika Anda memiliki pertanyaan, silakan kirimkan dalam masalah GitHub.