Unduh MacBERT - Unduh Kode Sumber MacBERT

MacBERT

Kode sumber lainnya

1.0.0

Unduh

China yang disederhanakan | Bahasa inggris

Direktori ini berisi ** model pra-terlatih MacBert **, yang memperkenalkan tugas pra-pelatihan Model Bahasa Topeng (MAC) yang dikoreksi, mengurangi masalah inkonsistensi "Tugas Pra-Pelatihan-Downstream". Macbert telah mencapai peningkatan kinerja yang signifikan pada berbagai tugas NLP.

Meninjau kembali model pra-terlatih untuk pemrosesan bahasa alami Cina
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu
Diterbitkan dalam Temuan EMNLP 2020

Macbert Cina | China Electra | Xlnet Cina | Alat Distilasi Pengetahuan TextBrewer | Model Cutting Tool TextPruner

Lebih Banyak Sumber Daya Dirilis oleh HFL: https://github.com/ymcui/hfl-anthology

Berita

2023/3/28 Open Source Chinese Llama & Alpaca Big Model, yang dapat dengan cepat digunakan dan dialami di PC, Lihat: https://github.com/ymcui/chinese-llama-alpaca

2022/3/30 merilis model pra-terlatih baru: https://github.com/ymcui/pert

2021/12/17 merilis alat pemangkasan model TextPruner: https://github.com/airaria/textpruner

2021/10/24 merilis model pra-terlatih pertama untuk bahasa etnis minoritas: https://github.com/ymcui/chinese-minority-plm

2021/7/21 Buku "Pemrosesan Bahasa Alami: Metode berdasarkan model pra-terlatih" secara resmi diterbitkan.

2020/11/3 Macbert Cina yang dilatih sebelumnya telah dirilis dan metode penggunaannya sama dengan Bert.

2020/9/15 Makalah "Meninjau kembali model pra-terlatih untuk pemrosesan bahasa alami Cina" dipekerjakan sebagai artikel panjang dengan temuan EMNLP.

Daftar isi

bab	menggambarkan
Perkenalan	Pengantar Singkat untuk Macbert
unduh	Unduh MacBert
Pemuatan cepat	Cara menggunakan transformer dengan cepat memuat model
Efek dasar	Efek pada tugas NLP Cina
FAQ	Pertanyaan yang sering diajukan
Mengutip	Informasi Kutipan Artikel

Perkenalan

MacBert adalah versi yang lebih baik dari Bert, memperkenalkan model bahasa topeng yang dikoreksi kesalahan (MLM sebagai koreksi, Mac) tugas pra-pelatihan, mengurangi masalah "tugas pra-pelatihan-henti".

Dalam model bahasa topeng (MLM), tag [topeng] diperkenalkan untuk menutupi, tetapi tag [mask] tidak muncul dalam tugas hilir. Di Macbert, kami menggunakan kata -kata serupa untuk mengganti tag [topeng] . Kata -kata serupa diperoleh oleh alat Synonyms Toolkit (Wang dan Hu, 2017), dan algoritma dihitung berdasarkan Word2Vec (Mikolov et al., 2013). Pada saat yang sama, kami juga telah memperkenalkan seluruh kata masking (WWM) dan teknologi masking n-gram. Saat menutupi n-gram, kami mencari kata-kata yang sama untuk setiap kata dalam n-gram. Ketika tidak ada kata serupa untuk diganti, kami akan menggunakan kata -kata acak untuk penggantian.

Berikut ini adalah contoh sampel pelatihan.

	contoh
Kalimat asli	Kami menggunakan model bahasa untuk memprediksi probabilitas kata berikutnya.
MLM	Kami menggunakan bahasa [m] untuk [m] ## di ## ct Pro [m] ## kemampuan kata berikutnya.
Seluruh kata menutupi	Kami menggunakan bahasa [m] untuk [m] [m] [m] [m] [m] dari kata berikutnya.
N-gram masking	Kami menggunakan [m] [m] hingga [m] [m] [m] [m] [m] [m] [m] kata berikutnya.
MLM sebagai koreksi	Kami menggunakan sistem teks untuk CA ## LC ## ULATE PO ## SI ## Kemampuan kata berikutnya.

Kerangka kerja utama MacBert persis sama dengan Bert, memungkinkan transisi mulus tanpa memodifikasi kode yang ada.

Untuk detail lebih lanjut, silakan merujuk ke makalah kami: Meninjau kembali model pra-terlatih untuk pemrosesan bahasa alami Cina

unduh

Terutama menyediakan unduhan model untuk versi TensorFlow 1.x.

MacBERT-large, Chinese : 24-lapis, 1024-tersembunyi, 16-heads, 324m parameter
MacBERT-base, Chinese : 12-layer, 768-tersembunyi, 12-heads, parameter 102m

Model	Google Drive	Disk Baidu	ukuran
`MacBERT-large, Chinese`	Tensorflow	TensorFlow (PW: ZEJF)	1.2g
`MacBERT-base, Chinese`	Tensorflow	TensorFlow (PW: 61GA)	383m

Versi Pytorch/TensorFlow2

Jika Anda membutuhkan versi model Pytorch atau TensorFlow2:

Gunakan Transformers untuk mengonversi
Atau unduh dari https://huggingface.co/hfl

Unduh Langkah (Anda juga dapat mengkloning seluruh direktori secara langsung menggunakan GIT):

Setelah memasuki https://huggingface.co/hfl, pilih model MacBert, seperti macbert-base: https://huggingface.co/hfl/chinese-macbert-base
Pilih tab "File and Versi"
Klik pada bin/json dan file lain yang perlu Anda unduh

Pemuatan cepat

Model Macbert dapat dimuat dengan cepat melalui transformator.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Catatan: Silakan gunakan Berttokenizer dan Bertmodel untuk memuat model MacBert!

MODEL_NAME yang sesuai adalah sebagai berikut:

Model asli	Nama panggilan model
MacBert-Large	HFL/China-Macbert-Large
MACBERT-BASE	HFL/China-Macbert-Base

Efek dasar

Berikut adalah tampilan efek MacBert pada 6 tugas hilir (lihat kertas untuk hasil lebih lanjut):

CMRC 2018 (Cui et al., 2019) : Pemahaman membaca yang diekstraksi (Cina yang disederhanakan)
DRCD (Shao et al., 2018) : Pemahaman membaca yang diekstraksi (Cina Tradisional)
XNLI (Conneau et al., 2018) : Inferensi Bahasa Alami
Chnsenticorp : Klasifikasi Emosional
LCQMC (Liu et al., 2018) : Pencocokan pasangan kalimat
BQ Corpus (Chen et al., 2018) : Pencocokan pasangan kalimat

Untuk memastikan stabilitas hasil, kami memberikan nilai rata -rata (dalam tanda kurung) dan nilai maksimum dari independen berjalan 10 kali pada saat yang sama.

CMRC 2018

Kumpulan data CMRC 2018 adalah data pemahaman pembacaan mesin Cina yang dirilis oleh laboratorium bersama Institut Teknologi Harbin. Menurut pertanyaan yang diberikan, sistem perlu mengekstrak fragmen dari bab sebagai jawaban, dalam bentuk yang sama dengan skuad. Indikator evaluasi adalah: EM / F1

Model	Perkembangan	Tes	Tantangan	#Params
Bert-base	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)	102m
Bert-WWM	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)	102m
BERT-WWM-EXT	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)	102m
Roberta-WWM-EXT	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)	102m
Basis elektra	68.4 (68.0) / 84.8 (84.6)	73.1 (72.7) / 87.1 (86.9)	22.6 (21.7) / 45.0 (43.8)	102m
MACBERT-BASE	68.5 (67.3) / 87.9 (87.1)	73.2 (72.4) / 89.5 (89.2)	30.2 (26.4) / 54.0 (52.2)	102m
Electra-Large	69.1 (68.2) / 85.2 (84.5)	73.9 (72.8) / 87.1 (86.6)	23.0 (21.6) / 44.2 (43.2)	324m
Roberta-wwm-Ext-Large	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)	324m
MacBert-Large	70.7 (68.6) / 88.9 (88.2)	74.8 (73.2) / 90.7 (90.1)	31.9 (29.6) / 60.2 (57.6)	324m

Drcd

Dataset DRCD dirilis oleh Delta Research Institute, Taiwan, Cina. Bentuknya sama dengan skuad dan merupakan dataset pemahaman membaca yang diekstraksi berdasarkan bahasa Cina tradisional. Karena karakter Cina tradisional dihapus dari Ernie, tidak disarankan untuk menggunakan Ernie (atau mengubahnya menjadi Cina yang disederhanakan dan kemudian memprosesnya) pada data tradisional Cina. Indikator evaluasi adalah: EM / F1

Model	Perkembangan	Tes	#Params
Bert-base	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)	102m
Bert-WWM	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)	102m
BERT-WWM-EXT	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)	102m
Roberta-WWM-EXT	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)	102m
Basis elektra	87.5 (87.0) / 92.5 (92.3)	86.9 (86.6) / 91.8 (91.7)	102m
MACBERT-BASE	89.4 (89.2) / 94.3 (94.1)	89.5 (88.7) / 93.8 (93.5)	102m
Electra-Large	88.8 (88.7) / 93.3 (93.2)	88.8 (88.2) / 93.6 (93.2)	324m
Roberta-wwm-Ext-Large	89.6 (89.1) / 94.8 (94.4)	89.6 (88.9) / 94.5 (94.1)	324m
MacBert-Large	91.2 (90.8) / 95.6 (95.3)	91.7 (90.9) / 95.6 (95.3)	324m

Xnli

Dalam tugas inferensi bahasa alami, kami mengadopsi data XNLI , yang mengharuskan teks dibagi menjadi tiga kategori: entailment , neutral , dan contradictory . Indikator evaluasi adalah: akurasi

Model	Perkembangan	Tes	#Params
Bert-base	77.8 (77.4)	77.8 (77.5)	102m
Bert-WWM	79.0 (78.4)	78.2 (78.0)	102m
BERT-WWM-EXT	79.4 (78.6)	78.7 (78.3)	102m
Roberta-WWM-EXT	80.0 (79.2)	78.8 (78.3)	102m
Basis elektra	77.9 (77.0)	78.4 (77.8)	102m
MACBERT-BASE	80.3 (79.7)	79.3 (78.8)	102m
Electra-Large	81.5 (80.8)	81.0 (80.9)	324m
Roberta-wwm-Ext-Large	82.1 (81.3)	81.2 (80.6)	324m
MacBert-Large	82.4 (81.8)	81.3 (80.6)	324m

Chnsenticorp

Dalam tugas analisis sentimen, dataset klasifikasi emosi biner chnsenticorp. Indikator evaluasi adalah: akurasi

Model	Perkembangan	Tes	#Params
Bert-base	94.7 (94.3)	95.0 (94.7)	102m
Bert-WWM	95.1 (94.5)	95.4 (95.0)	102m
BERT-WWM-EXT	95.4 (94.6)	95.3 (94.7)	102m
Roberta-WWM-EXT	95.0 (94.6)	95.6 (94.8)	102m
Basis elektra	93.8 (93.0)	94.5 (93.5)	102m
MACBERT-BASE	95.2 (94.8)	95.6 (94.9)	102m
Electra-Large	95.2 (94.6)	95.3 (94.8)	324m
Roberta-wwm-Ext-Large	95.8 (94.9)	95.8 (94.9)	324m
MacBert-Large	95.7 (95.0)	95.9 (95.1)	324m

LCQMC

LCQMC dirilis oleh Pusat Penelitian Komputasi Intelyur dari Harbin Institute of Technology Shenzhen Graduate School. Indikator evaluasi adalah: akurasi

Model	Perkembangan	Tes	#Params
Bert	89.4 (88.4)	86.9 (86.4)	102m
Bert-WWM	89.4 (89.2)	87.0 (86.8)	102m
BERT-WWM-EXT	89.6 (89.2)	87.1 (86.6)	102m
Roberta-WWM-EXT	89.0 (88.7)	86.4 (86.1)	102m
Basis elektra	90.2 (89.8)	87.6 (87.3)	102m
MACBERT-BASE	89.5 (89.3)	87.0 (86.5)	102m
Electra-Large	90.7 (90.4)	87.3 (87.2)	324m
Roberta-wwm-Ext-Large	90.4 (90.0)	87.0 (86.8)	324m
MacBert-Large	90.6 (90.3)	87.6 (87.1)	324m

BQ Corpus

BQ Corpus dirilis oleh Pusat Penelitian Komputasi Cerdas dari Harbin Institute of Technology Shenzhen Graduate School dan merupakan kumpulan data untuk bidang perbankan. Indikator evaluasi adalah: akurasi

Model	Perkembangan	Tes	#Params
Bert	86.0 (85.5)	84.8 (84.6)	102m
Bert-WWM	86.1 (85.6)	85.2 (84.9)	102m
BERT-WWM-EXT	86.4 (85.5)	85.3 (84.8)	102m
Roberta-WWM-EXT	86.0 (85.4)	85.0 (84.6)	102m
Basis elektra	84.8 (84.7)	84.5 (84.0)	102m
MACBERT-BASE	86.0 (85.5)	85.2 (84.9)	102m
Electra-Large	86.7 (86.2)	85.1 (84.8)	324m
Roberta-wwm-Ext-Large	86.3 (85.7)	85.8 (84.9)	324m
MacBert-Large	86.2 (85.7)	85.6 (85.0)	324m

FAQ

T1: Apakah ada versi bahasa Inggris dari MacBert?

A1: Tidak ada saat ini.

T2: Bagaimana cara menggunakan MacBert?

A2: Sama seperti menggunakan Bert, Anda hanya perlu hanya mengganti file model dan konfigurasi untuk menggunakannya. Tentu saja, Anda juga dapat melatih lebih lanjut model pretrained lainnya dengan memuat model kami (mis. Inisialisasi bagian Transformers).

T3: Dapatkah Anda memberikan kode pelatihan MacBert?

A3: Belum ada rencana sumber terbuka.

T4: Dapatkah saya open source pra-terlatih corpus?

A4: Kami tidak dapat membuat korpus pelatihan open source karena tidak ada hak untuk melepaskan kembali. Ada beberapa sumber daya corpus Cina open source di GitHub, yang dapat Anda perhatikan dan gunakan lebih banyak.

T5: Apakah ada rencana untuk melatih MacBert pada korpus yang lebih besar dan open source?

A5: Kami tidak punya rencana untuk saat ini.

Mengutip

Jika sumber daya dalam proyek ini bermanfaat untuk penelitian Anda, silakan kutip makalah berikut.

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

atau:

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Ucapan Terima Kasih

Terima kasih kepada Google TPU Research Cloud (TFRC) untuk dukungan sumber daya komputasi.

Umpan balik pertanyaan

Jika Anda memiliki pertanyaan, silakan kirimkan dalam masalah GitHub.

Sebelum mengirimkan pertanyaan, silakan periksa apakah FAQ dapat menyelesaikan masalah. Juga disarankan untuk memeriksa apakah masalah sebelumnya dapat menyelesaikan masalah Anda.
Reproduksi dan masalah berulang yang tidak terkait dengan proyek ini akan diproses oleh [stabil-bot] (Stale · GitHub Marketplace), harap dipahami.
Kami akan menjawab pertanyaan Anda sebanyak mungkin, tetapi kami tidak dapat menjamin bahwa pertanyaan Anda akan dijawab.
Ajukan pertanyaan dengan sopan dan bangun komunitas diskusi yang harmonis.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-18
ukuran 134.22KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua