Download Chinese BERT wwm - Download Kode Sumber Chinese BERT wwm

Chinese BERT wwm

Kode sumber lainnya

1.0.0

Unduh

Versi Cina-Llama-Alpaca-2 V1.0 telah dirilis secara resmi!

Deskripsi Cina | Bahasa inggris

Di bidang pemrosesan bahasa alami, model bahasa pra-terlatih (model bahasa pra-terlatih) telah menjadi teknologi dasar yang sangat penting. Untuk lebih mempromosikan penelitian dan pengembangan pemrosesan informasi Tiongkok, kami merilis model pra-terlatih China BERT-WWM berdasarkan seluruh teknologi masking kata, serta model yang terkait erat dengan teknologi ini: Bert-wwm-ext, Roberta-wwm-Ext, Roberta-WWM-Ext-Large, RBT3, RBTL3, dll.

Pra-pelatihan dengan seluruh kata menutupi Bert Cina
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang
Diterbitkan dalam Transaksi IEEE/ACM tentang Audio, Pidato, dan Pemrosesan Bahasa (TASLP)

Proyek ini didasarkan pada Bert resmi Google: https://github.com/google-research/bert

Lihat lebih banyak sumber daya yang dirilis oleh IFL of Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology

berita

2023/3/28 Open Source Chinese Llama & Alpaca Big Model, yang dapat dengan cepat digunakan dan dialami di PC, Lihat: https://github.com/ymcui/chinese-llama-alpaca

2023/3/9 kami mengusulkan model pra-terlatih multimodal dalam grafik dan teks, tampilan: https://github.com/iflytek/vle

2022/11/15 Kami mengusulkan MinIRBT model pra-terlatih kecil Cina. Lihat: https://github.com/iflytek/minirbt

2022/10/29 Kami mengusulkan model pra-terlatih yang mengintegrasikan informasi linguistik. Lihat: https://github.com/ymcui/lert

2022/3/30 Kami membuka sumber model pra-terlatih baru. Lihat: https://github.com/ymcui/pert

Berita Sejarah

2021/12/17 Laboratorium Joint IFLYTEK Meluncurkan Model Cutting Toolkit TextPruner. Lihat: https://github.com/airaria/textpruner

2021/10/24 Laboratorium Gabungan IFLYTEK merilis model cino pra-terlatih untuk bahasa etnis minoritas. Lihat: https://github.com/ymcui/chinese-minority-plm

2021/7/21 "Pemrosesan Bahasa Alami: Metode Berdasarkan Model Pra-Pelatihan" yang ditulis oleh banyak sarjana dari Harbin Institute of Technology SCIR telah diterbitkan, dan semua orang dipersilakan untuk membelinya.

2021/1/27 Semua model telah mendukung TensorFlow 2, silakan hubungi atau unduh melalui perpustakaan Transformers. https://huggingface.co/hfl

2020/9/15 Makalah kami "Meninjau kembali model pra-terlatih untuk pemrosesan bahasa alami Cina" dipekerjakan sebagai artikel panjang dengan temuan EMNLP.

2020/8/27 IFL Joint Laboratory menduduki puncak daftar dalam evaluasi pemahaman bahasa alami umum, periksa daftar lem, berita.

2020/3/23 Model yang dirilis dalam direktori ini telah terhubung ke Paddlepaddlehub untuk melihat pemuatan cepat

2020/3/11 Untuk lebih memahami kebutuhan, Anda diundang untuk mengisi kuesioner untuk memberi Anda sumber daya yang lebih baik.

2020/2/26 IFLYTEK Joint Laboratory Melepaskan Alat Distilasi Pengetahuan TextBrewer

2020/1/20 Saya berharap Anda semua keberuntungan di tahun tikus. Kali ini, RBT3 dan RBTL3 (3-lapis Roberta-WWM-Ext-Base/Large) dirilis untuk melihat model kuantitas parameter kecil.

2019/12/19 Model yang diterbitkan dalam direktori ini telah terhubung ke huggingface-transformers untuk melihat pemuatan cepat

Rilis 2019/10/14 Model Roberta-WWM-EXT-LARGE, Lihat Model Chinese Download

Rilis 2019/9/10 Model Roberta-WWM-EXT dan Lihat Download Model Cina

2019/7/30 Menyediakan Model BERT-wwm-ext Tiongkok yang dilatih pada corpus umum yang lebih besar (jumlah kata 5.4b), lihat Download Model Cina

Versi awal 2019/6/20, model ini dapat diunduh melalui Google, dan disk cloud domestik juga telah diunggah. Periksa Download Model Cina

Panduan Konten

bab	menggambarkan
Perkenalan	Pengantar Prinsip-Prinsip Dasar Bert-WWM
Unduh Model Cina	Memberikan alamat unduhan Bert-wwm
Pemuatan cepat	Cara menggunakan transformator dan paddlehub dengan cepat memuat model
Perbandingan model	Memberikan perbandingan parameter model di direktori ini
Efek sistem dasar Cina	Buat daftar beberapa efek sistem dasar Cina
Model Kuantitas Parameter Kecil	Sebutkan efek dari model kuantitas parameter kecil (transformator 3-lapis)
Rekomendasi untuk digunakan	Beberapa saran untuk menggunakan model pra-terlatih Cina disediakan
Unduh model bahasa Inggris	Alamat unduhan Bert-WWM Bahasa Inggris Resmi Google
FAQ	FAQ dan Jawaban
Mengutip	Laporan Teknis di Direktori Ini

Perkenalan

Seluruh kata masking (WWM) , diterjemahkan sementara sebagai全词Mask atau整词Mask , adalah versi yang ditingkatkan dari Bert yang dirilis oleh Google pada 31 Mei 2019, yang terutama mengubah strategi pembuatan sampel pelatihan dalam tahap pra-pelatihan asli. Sederhananya, metode Segmentasi Kata Berbasis Wordpiece asli akan membagi kata lengkap menjadi beberapa subword. Saat menghasilkan sampel pelatihan, subword yang terpisah ini akan ditutup secara acak. Dalam全词Mask , jika subword wordpiece dari kata lengkap bertopeng, bagian lain dari kata yang sama bertopeng, yaitu全词Mask .

Perlu dicatat bahwa topeng di sini mengacu pada topeng umum (diganti dengan [topeng]; pertahankan kosakata asli; diganti secara acak dengan kata lain), dan tidak terbatas pada kasus di mana kata tersebut diganti dengan tag [MASK] . Untuk deskripsi dan contoh lebih rinci, silakan merujuk ke: #4

Demikian pula, karena Google secara resmi merilis BERT-base, Chinese , Cina dibagi dengan karakter sebagai granularitas, dan tidak memperhitungkan China Participle (CWS) di NLP tradisional. Kami menerapkan metode topeng kata lengkap dalam bahasa Cina, menggunakan wikipedia Cina (termasuk Cina yang disederhanakan dan tradisional) untuk pelatihan, dan menggunakan Harbin Institute of Technology LTP sebagai alat segmentasi kata, yaitu, semua karakter Cina yang membentuk kata yang sama dipetakan.

Teks berikut ini menunjukkan generasi sampel dari全词Mask . Catatan: Demi pemahaman yang mudah, hanya kasus mengganti tag [topeng] yang dipertimbangkan dalam contoh -contoh berikut.

menjelaskan	Mencicipi
Teks asli	Gunakan model bahasa untuk memprediksi probabilitas kata berikutnya.
Kata participle teks	Gunakan model bahasa untuk memprediksi probabilitas kata berikutnya.
Input mask asli	Gunakan tipe bahasa [topeng] untuk menguji [topeng] pro dari kata berikutnya [topeng] ## lity.
Input kata topeng lengkap	Gunakan bahasa [topeng] [topeng] untuk [topeng] [topeng] kata berikutnya [mask] [mask].

Unduh Model Cina

Direktori ini terutama berisi model dasar, jadi kami tidak memberi label kata base dalam singkatan dari model. Untuk model ukuran lainnya, tag yang sesuai (misalnya, besar) ditandai.

BERT-large模型: 24-layer, 1024-tersembunyi, 16-heads, parameter 330m
BERT-base模型: 12-layer, 768 tersembunyi, 12-heads, 110m parameter

Catatan: Versi open source tidak mengandung berat tugas MLM; Jika Anda perlu melakukan tugas MLM, silakan gunakan data tambahan untuk pra-pelatihan sekunder (seperti tugas hilir lainnya).

Singkatan model	Bahan	Download Google	Unduh Baidu Netdisk
`RBT6, Chinese`	Data ekst ^[1]	-	TensorFlow (Kata Sandi HNIY)
`RBT4, Chinese`	Data ekst ^[1]	-	TensorFlow (kata sandi sjpt)
`RBTL3, Chinese`	Data ekst ^[1]	Tensorflow Pytorch	TensorFlow (Kata Sandi S6CU)
`RBT3, Chinese`	Data ekst ^[1]	Tensorflow Pytorch	TensorFlow (Kata Sandi 5A57)
`RoBERTa-wwm-ext-large, Chinese`	Data ekst ^[1]	Tensorflow Pytorch	TensorFlow (Kata Sandi DQQE)
`RoBERTa-wwm-ext, Chinese`	Data ekst ^[1]	Tensorflow Pytorch	TensorFlow (kata sandi VYBQ)
`BERT-wwm-ext, Chinese`	Data ekst ^[1]	Tensorflow Pytorch	TensorFlow (kata sandi wgnt)
`BERT-wwm, Chinese`	Wiki Cina	Tensorflow Pytorch	TensorFlow (kata sandi qfh8)
`BERT-base, Chinese` ^Google Cina	Wiki Cina	Google Cloud	-
`BERT-base, Multilingual Cased` ^google cased multibahasa	Wiki multibahasa	Google Cloud	-
`BERT-base, Multilingual Uncased` ^google multibahasa yang tidak dibuka	Wiki multibahasa	Google Cloud	-

[1] Data EXT meliputi: Wikipedia Cina, ensiklopedi lain, berita, tanya jawab dan data lainnya, dengan jumlah total kata yang mencapai 5.4b.

Versi Pytorch

Jika Anda membutuhkan versi Pytorch,

1) Harap konversi sendiri melalui skrip konversi yang disediakan oleh Transformers.

2) atau langsung mengunduh pytorch melalui situs web resmi Huggingface: https://huggingface.co/hfl

Metode Unduh: Klik model apa pun yang ingin Anda unduh → Pilih tab "File dan Versi" → Unduh file model yang sesuai.

Petunjuk Penggunaan

Disarankan untuk menggunakan poin unduhan Baidu Netdisk di daratan Cina, dan pengguna luar negeri disarankan untuk menggunakan poin unduhan Google. Ukuran file model dasar adalah sekitar 400m . Mengambil versi TensorFlow dari BERT-wwm, Chinese sebagai contoh, setelah mengunduh, mendekompres file zip untuk mendapatkan:

 chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

Di antara mereka, bert_config.json dan vocab.txt persis sama dengan BERT-base, Chinese asli Google. Versi Pytorch berisi pytorch_model.bin , bert_config.json , dan file vocab.txt .

Pemuatan cepat

Menggunakan transformer pelukan

Mengandalkan perpustakaan? Transformers, model di atas dapat dengan mudah dipanggil.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Catatan: Semua model dalam direktori ini dimuat menggunakan Berttokenizer dan Bertmodel. Jangan gunakan Robertatokenizer/Robertamodel!

Daftar MODEL_NAME yang sesuai adalah sebagai berikut:

Nama model	Model_name
Roberta-wwm-Ext-Large	HFL/China-Roberta-WWM-Ext-Large
Roberta-WWM-EXT	hfl/cina-roberta-wwm-ext
BERT-WWM-EXT	hfl/cina-erit-wwm-ext
Bert-WWM	HFL/China-BERT-WWM
Rbt3	hfl/rbt3
Rbtl3	hfl/rbtl3

Menggunakan paddlehub

Mengandalkan paddlehub, Anda dapat mengunduh dan menginstal model hanya dengan satu baris kode, dan lebih dari sepuluh baris kode dapat menyelesaikan tugas seperti klasifikasi teks, anotasi urutan, pemahaman membaca, dll.

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

Daftar MODULE_NAME yang sesuai adalah sebagai berikut:

Nama model	Module_name
Roberta-wwm-Ext-Large	China-Roberta-WWM-Ext-Large
Roberta-WWM-EXT	China-Roberta-WWM-EXT
BERT-WWM-EXT	China-Bert-WWM-EXT
Bert-WWM	China-Bert-WWM
Rbt3	rbt3
Rbtl3	rbtl3

Perbandingan model

Berikut ini adalah ringkasan dari beberapa detail model yang lebih diperhatikan semua orang.

-	Bert ^Google	Bert-WWM	BERT-WWM-EXT	Roberta-WWM-EXT	Roberta-wwm-Ext-Large
Menutupi	Wordpiece	Wwm ^[1]	Wwm	Wwm	Wwm
Jenis	basis	basis	basis	basis	Besar
Sumber data	Wiki	Wiki	wiki+ext ^[2]	wiki+ext	wiki+ext
Token Pelatihan #	0.4b	0.4b	5.4b	5.4b	5.4b
Perangkat	Tpu pod v2	TPU V3	TPU V3	TPU V3	TPU POD V3-32 ^[3]
Langkah pelatihan	?	100K ^MAX128 +100K ^max512	1M ^MAX128 +400K ^MAX512	1m ^max512	2m ^max512
Ukuran batch	?	2.560 / 384	2.560 / 384	384	512
Pengoptimal	Adamw	DOMBA	DOMBA	Adamw	Adamw
Kosakata	21.128	~ Bert ^[4]	~ Bert	~ Bert	~ Bert
Init pos pemeriksaan	Init acak	~ Bert	~ Bert	~ Bert	Init acak

[1] wwm = seluruh kata masking
[2] ext = data yang diperluas
[3] TPU POD V3-32 (512G HBM) setara dengan 4 TPU V3 (128G HBM)
[4] ~BERT berarti mewarisi atribut Bert Cina asli Google

Efek sistem dasar Cina

Untuk membandingkan efek dasar, kami mengujinya pada kumpulan data Tiongkok berikut, termasuk tugas句子级dan篇章级. Untuk BERT-wwm-ext , RoBERTa-wwm-ext , dan RoBERTa-wwm-ext-large , kami tidak lebih lanjut menyesuaikan tingkat pembelajaran yang optimal , tetapi secara langsung menggunakan tingkat pembelajaran optimal BERT-wwm .

Tingkat Pembelajaran Terbaik:

Model	Bert	Ernie	Bert-wwm*
CMRC 2018	3e-5	8e-5	3e-5
Drcd	3e-5	8e-5	3e-5
CJRC	4e-5	8e-5	4e-5
Xnli	3e-5	5e-5	3e-5
Chnsenticorp	2e-5	5e-5	2e-5
LCQMC	2e-5	3e-5	2e-5
BQ Corpus	3e-5	5e-5	3e-5
Thucnews	2e-5	5e-5	2e-5

*Mewakili semua model seri WWM (Bert-wwm, Bert-wwm-ext, Roberta-WWM-EXT, Roberta-WWM-Ext-Large)

Hanya beberapa hasil yang tercantum di bawah ini. Silakan lihat laporan teknis kami untuk hasil yang lengkap.

CMRC 2018 : Pemahaman membaca ekstraksi fragmen bab (Cina yang disederhanakan)
DRCD : Bacaan Pemahaman Bab Ekstraksi Fragmen (Cina Tradisional)
CJRC : Pemahaman Bacaan Legal (Cina Sederhana)
Xnli : kesimpulan bahasa alami
CHNSENTICORP : Analisis sentti
LCQMC : Pencocokan pasangan kalimat
BQ Corpus : Pencocokan Pasangan Kalimat
ThucNews : Klasifikasi Teks Tingkat Bab

Catatan: Untuk memastikan keandalan hasil, untuk model yang sama, kami berjalan 10 kali (benih acak yang berbeda) untuk melaporkan nilai maksimum dan rata -rata kinerja model (nilai rata -rata dalam kurung). Jika tidak ada yang tidak terduga terjadi, hasil operasi Anda harus dalam kisaran ini.

Dalam indikator evaluasi, nilai rata -rata diwakili dalam tanda kurung dan nilai maksimum direpresentasikan di luar kurung.

Pemahaman Bacaan Cina Sederhana: CMRC 2018

Kumpulan data CMRC 2018 adalah data pemahaman pembacaan mesin Cina yang dirilis oleh laboratorium bersama Institut Teknologi Harbin. Menurut pertanyaan yang diberikan, sistem perlu mengekstrak fragmen dari bab sebagai jawaban, dalam bentuk yang sama dengan skuad. Indikator evaluasi adalah: EM / F1

Model	Set pengembangan	Set tes	Set Tantangan
Bert	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)
Ernie	65.4 (64.3) / 84.7 (84.2)	69.4 (68.2) / 86.6 (86.1)	19.6 (17.0) / 44.3 (42.8)
Bert-WWM	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)
BERT-WWM-EXT	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)
Roberta-WWM-EXT	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)
Roberta-wwm-Ext-Large	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)

Pemahaman Bacaan Cina Tradisional: DRCD

Dataset DRCD dirilis oleh Delta Research Institute, Taiwan, Cina. Bentuknya sama dengan skuad dan merupakan dataset pemahaman membaca yang diekstraksi berdasarkan bahasa Cina tradisional. Karena karakter Cina tradisional dihapus dari Ernie, tidak disarankan untuk menggunakan Ernie (atau mengubahnya menjadi Cina yang disederhanakan dan kemudian memprosesnya) pada data tradisional Cina. Indikator evaluasi adalah: EM / F1

Model	Set pengembangan	Set tes
Bert	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)
Ernie	73.2 (73.0) / 83.9 (83.8)	71.9 (71.4) / 82.5 (82.3)
Bert-WWM	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)
BERT-WWM-EXT	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)
Roberta-WWM-EXT	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)
Roberta-wwm-Ext-Large	89.6 (89.1) / 94.8 (94.4)	89.6 (88.9) / 94.5 (94.1)

Pemahaman Bacaan Yudisial: CJRC

Dataset CJRC adalah data pemahaman pembacaan mesin Cina untuk bidang peradilan yang dirilis oleh laboratorium gabungan IFLYTEK. Perlu dicatat bahwa data yang digunakan dalam percobaan bukan data akhir yang dikeluarkan oleh pejabat, dan hasilnya hanya untuk referensi. Indikator evaluasi adalah: EM / F1

Model	Set pengembangan	Set tes
Bert	54.6 (54.0) / 75.4 (74.5)	55.1 (54.1) / 75.2 (74.3)
Ernie	54.3 (53.9) / 75.3 (74.6)	55.0 (53.9) / 75.0 (73.9)
Bert-WWM	54.7 (54.0) / 75.2 (74.8)	55.1 (54.1) / 75.4 (74.4)
BERT-WWM-EXT	55.6 (54.8) / 76.0 (75.3)	55.6 (54.9) / 75.8 (75.0)
Roberta-WWM-EXT	58.7 (57.6) / 79.1 (78.3)	59.0 (57.8) / 79.0 (78.0)
Roberta-wwm-Ext-Large	62.1 (61.1) / 82.4 (81.6)	62.4 (61.4) / 82.2 (81.0)

Kesimpulan Bahasa Alami: xnli

Dalam tugas inferensi bahasa alami, kami mengadopsi data XNLI , yang mengharuskan teks dibagi menjadi tiga kategori: entailment , neutral , dan contradictory . Indikator evaluasi adalah: akurasi

Model	Set pengembangan	Set tes
Bert	77.8 (77.4)	77.8 (77.5)
Ernie	79.7 (79.4)	78.6 (78.2)
Bert-WWM	79.0 (78.4)	78.2 (78.0)
BERT-WWM-EXT	79.4 (78.6)	78.7 (78.3)
Roberta-WWM-EXT	80.0 (79.2)	78.8 (78.3)
Roberta-wwm-Ext-Large	82.1 (81.3)	81.2 (80.6)

Senticorp

Dalam tugas analisis sentimen, dataset klasifikasi emosi biner chnsenticorp. Indikator evaluasi adalah: akurasi

Model	Set pengembangan	Set tes
Bert	94.7 (94.3)	95.0 (94.7)
Ernie	95.4 (94.8)	95.4 (95.3)
Bert-WWM	95.1 (94.5)	95.4 (95.0)
BERT-WWM-EXT	95.4 (94.6)	95.3 (94.7)
Roberta-WWM-EXT	95.0 (94.6)	95.6 (94.8)
Roberta-wwm-Ext-Large	95.8 (94.9)	95.8 (94.9)

Kalif Kalif Kalimat: LCQMC, BQ Corpus

Dua set data berikut perlu mengklasifikasikan pasangan kalimat untuk menentukan apakah semantik dari kedua kalimat tersebut sama (tugas klasifikasi biner).

LCQMC

LCQMC dirilis oleh Pusat Penelitian Komputasi Intelyur dari Harbin Institute of Technology Shenzhen Graduate School. Indikator evaluasi adalah: akurasi

Model	Set pengembangan	Set tes
Bert	89.4 (88.4)	86.9 (86.4)
Ernie	89.8 (89.6)	87.2 (87.0)
Bert-WWM	89.4 (89.2)	87.0 (86.8)
BERT-WWM-EXT	89.6 (89.2)	87.1 (86.6)
Roberta-WWM-EXT	89.0 (88.7)	86.4 (86.1)
Roberta-wwm-Ext-Large	90.4 (90.0)	87.0 (86.8)

BQ Corpus

BQ Corpus dirilis oleh Pusat Penelitian Komputasi Cerdas dari Harbin Institute of Technology Shenzhen Graduate School dan merupakan kumpulan data untuk bidang perbankan. Indikator evaluasi adalah: akurasi

Model	Set pengembangan	Set tes
Bert	86.0 (85.5)	84.8 (84.6)
Ernie	86.3 (85.5)	85.0 (84.6)
Bert-WWM	86.1 (85.6)	85.2 (84.9)
BERT-WWM-EXT	86.4 (85.5)	85.3 (84.8)
Roberta-WWM-EXT	86.0 (85.4)	85.0 (84.6)
Roberta-wwm-Ext-Large	86.3 (85.7)	85.8 (84.9)

Klasifikasi Teks Tingkat Bab: ThucNews

Untuk tugas klasifikasi teks tingkat bab, kami memilih ThucNews, dataset berita yang dirilis oleh laboratorium pemrosesan bahasa alami Universitas Tsinghua. Kami mengambil salah satu himpunan bagian dan perlu membagi berita menjadi salah satu dari 10 kategori. Indikator evaluasi adalah: akurasi

Model	Set pengembangan	Set tes
Bert	97.7 (97.4)	97.8 (97.6)
Ernie	97.6 (97.3)	97.5 (97.3)
Bert-WWM	98.0 (97.6)	97.8 (97.6)
BERT-WWM-EXT	97.7 (97.5)	97.7 (97.5)
Roberta-WWM-EXT	98.3 (97.9)	97.7 (97.5)
Roberta-wwm-Ext-Large	98.3 (97.7)	97.8 (97.6)

Model Kuantitas Parameter Kecil

Berikut ini adalah hasil eksperimen pada beberapa tugas NLP, dan hanya perbandingan hasil tes yang disediakan dalam tabel.

Model	CMRC 2018	Drcd	Xnli	CSC	LCQMC	Bq	rata-rata	Kuantitas parameter
Roberta-wwm-Ext-Large	74.2 / 90.6	89.6 / 94.5	81.2	95.8	87.0	85.8	87.335	325m
Roberta-WWM-EXT	72.6 / 89.4	85.6 / 92.0	78.8	95.6	86.4	85.0	85.675	102m
Rbtl3	63.3 / 83.4	77.2 / 85.6	74.0	94.2	85.1	83.6	80.800	61m (59,8%)
Rbt3	62.2 / 81.8	75.0 / 83.9	72.3	92.8	85.1	83.3	79.550	38m (37,3%)

Perbandingan efek relatif:

Model	CMRC 2018	Drcd	Xnli	CSC	LCQMC	Bq	rata-rata	Rata -rata klasifikasi
Roberta-wwm-Ext-Large	102,2% / 101,3%	104,7% / 102,7%	103,0%	100,2%	100,7%	100,9%	101,9%	101,2%
Roberta-WWM-EXT	100% / 100%	100% / 100%	100%	100%	100%	100%	100%	100%
Rbtl3	87,2% / 93,3%	90,2% / 93,0%	93,9%	98,5%	98,5%	98,4%	94,3%	97,35%
Rbt3	85,7% / 91,5%	87,6% / 91,2%	91,8%	97,1%	98,5%	98,0%	92,9%	96,35%

Kuantitas parameter dihitung berdasarkan tugas klasifikasi XNLI
Persentase parameter dalam tanda kurung didasarkan pada model dasar asli (mis. Roberta-WWM-EXT)
RBT3: Diinisialisasi oleh Roberta-WWM-Ext Layer 3, dan terus berlatih untuk 1m langkah.
RBTL3: Diinisialisasi oleh Roberta-WWM-Ext-Large Layer 3, dan terus berlatih untuk langkah 1m.
Nama RBT terdiri dari tiga inisial suku kata Roberta, dan L mewakili model besar
Langsung menggunakan tiga lapisan pertama Roberta-WWM-Ext-Large untuk inisialisasi dan pelatihan tugas hilir akan secara signifikan mengurangi efeknya. Misalnya, pada CMRC 2018, set tes hanya dapat mencapai 42.9/65.3, sedangkan RBTL3 dapat mencapai 63.3/83.4

Selamat datang di MinIRBT Model Pra-Latih Kecil Cina dengan hasil yang lebih baik: https://github.com/iflytek/minirbt

Rekomendasi untuk digunakan

Tingkat pembelajaran awal adalah parameter yang sangat penting (apakah itu BERT atau model lain) dan perlu disesuaikan sesuai dengan tugas target.
Tingkat pembelajaran yang optimal dari ERNIE sangat berbeda dari BERT / BERT-wwm , jadi pastikan untuk menyesuaikan tingkat pembelajaran saat menggunakan ERNIE (berdasarkan hasil eksperimen di atas, tingkat pembelajaran awal yang diperlukan oleh ERNIE relatif tinggi).
Karena BERT / BERT-wwm menggunakan data Wikipedia untuk pelatihan, mereka lebih baik untuk memodelkan teks formal; Sementara ERNIE menggunakan data jaringan tambahan seperti Baidu Tieba dan Zhi, yang memiliki keunggulan dalam pemodelan teks informal (seperti Weibo, dll.).
Dalam tugas pemodelan teks panjang, seperti pemahaman membaca, klasifikasi dokumen, BERT dan BERT-wwm memiliki hasil yang lebih baik.
Jika data dari tugas target berbeda dari bidang model pra-terlatih, silakan lakukan pra-pelatihan lebih lanjut pada dataset Anda sendiri.
Jika Anda ingin memproses data Cina tradisional, gunakan BERT atau BERT-wwm . Karena kami menemukan bahwa hampir tidak ada bahasa Cina tradisional dalam daftar kosakata ERNIE .

Unduh model bahasa Inggris

Untuk memfasilitasi semua orang untuk mengunduh, membawa model BERT-large (wwm) Inggris yang dirilis secara resmi oleh Google :

BERT-Large, Uncased (Whole Word Masking) : 24-layer, 1024-hidden, 16-heads, 340m parameter
BERT-Large, Cased (Whole Word Masking) : 24-layer, 1024-Hidden, 16-heads, parameter 340m

FAQ

T: Bagaimana cara menggunakan model ini?
A: Cara menggunakan Bert Cina yang dirilis oleh Google, cara menggunakan ini. Teks tidak perlu melalui segmentasi kata, dan WWM hanya mempengaruhi proses pra-pelatihan dan tidak mempengaruhi input tugas hilir.

T: Apakah ada kode pra-pelatihan yang disediakan?
A: Sayangnya, saya tidak dapat memberikan kode yang relevan. Anda dapat merujuk ke #10 dan #13 untuk implementasi.

T: Di mana harus mengunduh set data tertentu?
A: Silakan periksa direktori data . README.md Dalam direktori tugas menunjukkan sumber data. Untuk konten yang dilindungi hak cipta, silakan cari sendiri atau hubungi penulis asli untuk mendapatkan data.

T: Apakah akan ada rencana untuk merilis model yang lebih besar? Misalnya, versi Bert-Large-WWM?
A: Jika kami mendapatkan hasil yang lebih baik dari percobaan, kami akan mempertimbangkan melepaskan versi yang lebih besar.

T: Anda berbohong! Tidak dapat mereproduksi hasilnya?
A: Dalam tugas hilir, kami mengadopsi model paling sederhana. Misalnya, untuk tugas klasifikasi, kami langsung menggunakan run_classifier.py (disediakan oleh Google). Jika nilai rata -rata tidak dapat dicapai, itu berarti ada bug dalam percobaan itu sendiri. Silakan periksa dengan cermat. Ada banyak faktor acak untuk nilai tertinggi, dan kami tidak dapat menjamin bahwa kami dapat mencapai nilai tertinggi. Faktor lain yang diakui: Mengurangi ukuran batch akan secara signifikan mengurangi efek eksperimental. Untuk detailnya, silakan merujuk ke masalah yang relevan dari direktori Bert dan Xlnet.

T: Saya akan mendapatkan hasil yang lebih baik dari Anda!
A: Selamat.

T: Berapa lama waktu yang dibutuhkan untuk berlatih dan peralatan apa yang dilatihnya?
A: Pelatihan selesai dalam versi Google TPU V3 (128G HBM). Pelatihan Bert-WWM membutuhkan waktu sekitar 1,5 hari, sementara Bert-wwm-Ext memakan waktu beberapa minggu (lebih banyak data digunakan untuk berulang lebih banyak). Perlu dicatat bahwa selama tahap pra-pelatihan, kami menggunakan LAMB Optimizer (implementasi versi TensorFlow). Pengoptimal ini memiliki dukungan yang baik untuk batch besar. Saat melakukan tugas-tugas hilir yang menyempurnakan, kami menggunakan AdamWeightDecayOptimizer Default Bert.

T: Siapa Ernie?
A: Model Ernie dalam proyek ini secara khusus mengacu pada Ernie yang diusulkan oleh Baidu, daripada Ernie yang diterbitkan oleh Universitas Tsinghua di ACL 2019.

T: Efek Bert-WWM tidak terlalu bagus dalam semua tugas
A: Tujuan dari proyek ini adalah untuk memberi para peneliti model pra-terlatih yang beragam, dengan bebas memilih Bert, Ernie, atau Bert-WWM. Kami hanya memberikan data eksperimental, dan kami masih harus terus mencoba yang terbaik dalam tugas kami sendiri untuk menarik kesimpulan. Satu model lagi, satu pilihan lagi.

T: Mengapa beberapa set data tidak dicoba?
A: Sejujurnya, saya tidak ingin menemukan lebih banyak data; 2) Saya tidak perlu; 3) Saya tidak punya uang;

T: Mari kita evaluasi secara singkat model -model ini
A: Masing -masing memiliki fokus sendiri dan kekuatannya sendiri. Penelitian dan pengembangan pemrosesan bahasa alami Cina membutuhkan upaya bersama dari semua pihak.

T: Apa nama model pretrained berikutnya yang Anda prediksi?
A: Mungkin itu disebut Zoe. Zoe: Embeddings Zero-Shot dari Model Bahasa

T: Rincian lebih lanjut tentang model RoBERTa-wwm-ext ?
A: Kami mengintegrasikan keunggulan Roberta dan Bert-WWM untuk membuat kombinasi alami dari keduanya. Perbedaan antara model dalam direktori ini adalah sebagai berikut:
1) Gunakan strategi WWM untuk menutupi pada tahap pra-pelatihan (tetapi tidak ada masking dinamis)
2) Cukup Batalkan Kehilangan Prediksi Kalimat Berikutnya (NSP)
3) Tidak lagi menggunakan mode pelatihan max_len = 128 dan kemudian max_len = 512, langsung latih max_len = 512
4) Perluas langkah -langkah pelatihan dengan tepat

Perlu dicatat bahwa model ini bukan model Roberta asli, tetapi hanya model Bert yang dilatih dalam metode pelatihan Roberta yang serupa, yaitu Bert seperti Roberta. Oleh karena itu, saat menggunakan tugas hilir dan mengonversi model, silakan memprosesnya di Bert, bukan Roberta.

Mengutip

Jika sumber daya atau teknologi dalam proyek ini bermanfaat untuk pekerjaan penelitian Anda, silakan merujuk ke makalah berikut di koran.

Preferred (Journal Explore): https://ieexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Atau (versi konferensi): https://www.aclweb.org/anthology/2020.findings-nnemlp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

Ucapan Terima Kasih

Penulis pertama sebagian didanai oleh program Cloud TPU Research Google .

Penafian

Proyek ini bukan model Bert-WWM Cina secara resmi dirilis oleh Google. Pada saat yang sama, proyek ini bukan produk resmi dari Harbin Institute of Technology atau IFLYTEK. Hasil eksperimen yang disajikan dalam laporan teknis hanya menunjukkan bahwa kinerja di bawah kumpulan data tertentu dan kombinasi hiperparameter tidak mewakili sifat masing -masing model. Hasil eksperimen dapat berubah karena biji bilangan acak dan perangkat komputasi. Konten dalam proyek ini hanya untuk referensi penelitian teknis dan tidak digunakan sebagai dasar penutup. Pengguna dapat menggunakan model kapan saja dalam ruang lingkup lisensi, tetapi kami tidak bertanggung jawab atas kerugian langsung atau tidak langsung yang disebabkan oleh penggunaan konten proyek.