Deskripsi Cina | Bahasa inggris

Di bidang pemrosesan bahasa alami, model bahasa pra-terlatih (model bahasa pra-terlatih) telah menjadi teknologi dasar yang sangat penting. Untuk lebih mempromosikan penelitian dan pengembangan pemrosesan informasi Tiongkok, kami merilis model pra-terlatih China BERT-WWM berdasarkan seluruh teknologi masking kata, serta model yang terkait erat dengan teknologi ini: Bert-wwm-ext, Roberta-wwm-Ext, Roberta-WWM-Ext-Large, RBT3, RBTL3, dll.
Proyek ini didasarkan pada Bert resmi Google: https://github.com/google-research/bert
Lert Cina | Bahasa Inggris Tiongkok PERT | Macbert Cina | China Electra | Xlnet Cina | Bert Cina | Alat Distilasi Pengetahuan TextBrewer | Model Cutting Tool TextPruner
Lihat lebih banyak sumber daya yang dirilis oleh IFL of Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology
2023/3/28 Open Source Chinese Llama & Alpaca Big Model, yang dapat dengan cepat digunakan dan dialami di PC, Lihat: https://github.com/ymcui/chinese-llama-alpaca
2023/3/9 kami mengusulkan model pra-terlatih multimodal dalam grafik dan teks, tampilan: https://github.com/iflytek/vle
2022/11/15 Kami mengusulkan MinIRBT model pra-terlatih kecil Cina. Lihat: https://github.com/iflytek/minirbt
2022/10/29 Kami mengusulkan model pra-terlatih yang mengintegrasikan informasi linguistik. Lihat: https://github.com/ymcui/lert
2022/3/30 Kami membuka sumber model pra-terlatih baru. Lihat: https://github.com/ymcui/pert
2021/10/24 Laboratorium Gabungan IFLYTEK merilis model cino pra-terlatih untuk bahasa etnis minoritas. Lihat: https://github.com/ymcui/chinese-minority-plm
2021/7/21 "Pemrosesan Bahasa Alami: Metode Berdasarkan Model Pra-Pelatihan" yang ditulis oleh banyak sarjana dari Harbin Institute of Technology SCIR telah diterbitkan, dan semua orang dipersilakan untuk membelinya.
2021/1/27 Semua model telah mendukung TensorFlow 2, silakan hubungi atau unduh melalui perpustakaan Transformers. https://huggingface.co/hfl
2020/9/15 Makalah kami "Meninjau kembali model pra-terlatih untuk pemrosesan bahasa alami Cina" dipekerjakan sebagai artikel panjang dengan temuan EMNLP.
2020/8/27 IFL Joint Laboratory menduduki puncak daftar dalam evaluasi pemahaman bahasa alami umum, periksa daftar lem, berita.
2020/3/23 Model yang dirilis dalam direktori ini telah terhubung ke Paddlepaddlehub untuk melihat pemuatan cepat
2020/3/11 Untuk lebih memahami kebutuhan, Anda diundang untuk mengisi kuesioner untuk memberi Anda sumber daya yang lebih baik.
2020/2/26 IFLYTEK Joint Laboratory Melepaskan Alat Distilasi Pengetahuan TextBrewer
2020/1/20 Saya berharap Anda semua keberuntungan di tahun tikus. Kali ini, RBT3 dan RBTL3 (3-lapis Roberta-WWM-Ext-Base/Large) dirilis untuk melihat model kuantitas parameter kecil.
2019/12/19 Model yang diterbitkan dalam direktori ini telah terhubung ke huggingface-transformers untuk melihat pemuatan cepat
Rilis 2019/10/14 Model Roberta-WWM-EXT-LARGE, Lihat Model Chinese Download
Rilis 2019/9/10 Model Roberta-WWM-EXT dan Lihat Download Model Cina
2019/7/30 Menyediakan Model BERT-wwm-ext Tiongkok yang dilatih pada corpus umum yang lebih besar (jumlah kata 5.4b), lihat Download Model Cina
Versi awal 2019/6/20, model ini dapat diunduh melalui Google, dan disk cloud domestik juga telah diunggah. Periksa Download Model Cina
| bab | menggambarkan |
|---|---|
| Perkenalan | Pengantar Prinsip-Prinsip Dasar Bert-WWM |
| Unduh Model Cina | Memberikan alamat unduhan Bert-wwm |
| Pemuatan cepat | Cara menggunakan transformator dan paddlehub dengan cepat memuat model |
| Perbandingan model | Memberikan perbandingan parameter model di direktori ini |
| Efek sistem dasar Cina | Buat daftar beberapa efek sistem dasar Cina |
| Model Kuantitas Parameter Kecil | Sebutkan efek dari model kuantitas parameter kecil (transformator 3-lapis) |
| Rekomendasi untuk digunakan | Beberapa saran untuk menggunakan model pra-terlatih Cina disediakan |
| Unduh model bahasa Inggris | Alamat unduhan Bert-WWM Bahasa Inggris Resmi Google |
| FAQ | FAQ dan Jawaban |
| Mengutip | Laporan Teknis di Direktori Ini |
Seluruh kata masking (WWM) , diterjemahkan sementara sebagai全词Mask atau整词Mask , adalah versi yang ditingkatkan dari Bert yang dirilis oleh Google pada 31 Mei 2019, yang terutama mengubah strategi pembuatan sampel pelatihan dalam tahap pra-pelatihan asli. Sederhananya, metode Segmentasi Kata Berbasis Wordpiece asli akan membagi kata lengkap menjadi beberapa subword. Saat menghasilkan sampel pelatihan, subword yang terpisah ini akan ditutup secara acak. Dalam全词Mask , jika subword wordpiece dari kata lengkap bertopeng, bagian lain dari kata yang sama bertopeng, yaitu全词Mask .
Perlu dicatat bahwa topeng di sini mengacu pada topeng umum (diganti dengan [topeng]; pertahankan kosakata asli; diganti secara acak dengan kata lain), dan tidak terbatas pada kasus di mana kata tersebut diganti dengan tag [MASK] . Untuk deskripsi dan contoh lebih rinci, silakan merujuk ke: #4
Demikian pula, karena Google secara resmi merilis BERT-base, Chinese , Cina dibagi dengan karakter sebagai granularitas, dan tidak memperhitungkan China Participle (CWS) di NLP tradisional. Kami menerapkan metode topeng kata lengkap dalam bahasa Cina, menggunakan wikipedia Cina (termasuk Cina yang disederhanakan dan tradisional) untuk pelatihan, dan menggunakan Harbin Institute of Technology LTP sebagai alat segmentasi kata, yaitu, semua karakter Cina yang membentuk kata yang sama dipetakan.
Teks berikut ini menunjukkan generasi sampel dari全词Mask . Catatan: Demi pemahaman yang mudah, hanya kasus mengganti tag [topeng] yang dipertimbangkan dalam contoh -contoh berikut.
| menjelaskan | Mencicipi |
|---|---|
| Teks asli | Gunakan model bahasa untuk memprediksi probabilitas kata berikutnya. |
| Kata participle teks | Gunakan model bahasa untuk memprediksi probabilitas kata berikutnya. |
| Input mask asli | Gunakan tipe bahasa [topeng] untuk menguji [topeng] pro dari kata berikutnya [topeng] ## lity. |
| Input kata topeng lengkap | Gunakan bahasa [topeng] [topeng] untuk [topeng] [topeng] kata berikutnya [mask] [mask]. |
Direktori ini terutama berisi model dasar, jadi kami tidak memberi label kata base dalam singkatan dari model. Untuk model ukuran lainnya, tag yang sesuai (misalnya, besar) ditandai.
BERT-large模型: 24-layer, 1024-tersembunyi, 16-heads, parameter 330mBERT-base模型: 12-layer, 768 tersembunyi, 12-heads, 110m parameterCatatan: Versi open source tidak mengandung berat tugas MLM; Jika Anda perlu melakukan tugas MLM, silakan gunakan data tambahan untuk pra-pelatihan sekunder (seperti tugas hilir lainnya).
| Singkatan model | Bahan | Download Google | Unduh Baidu Netdisk |
|---|---|---|---|
RBT6, Chinese | Data ekst [1] | - | TensorFlow (Kata Sandi HNIY) |
RBT4, Chinese | Data ekst [1] | - | TensorFlow (kata sandi sjpt) |
RBTL3, Chinese | Data ekst [1] | Tensorflow Pytorch | TensorFlow (Kata Sandi S6CU) |
RBT3, Chinese | Data ekst [1] | Tensorflow Pytorch | TensorFlow (Kata Sandi 5A57) |
RoBERTa-wwm-ext-large, Chinese | Data ekst [1] | Tensorflow Pytorch | TensorFlow (Kata Sandi DQQE) |
RoBERTa-wwm-ext, Chinese | Data ekst [1] | Tensorflow Pytorch | TensorFlow (kata sandi VYBQ) |
BERT-wwm-ext, Chinese | Data ekst [1] | Tensorflow Pytorch | TensorFlow (kata sandi wgnt) |
BERT-wwm, Chinese | Wiki Cina | Tensorflow Pytorch | TensorFlow (kata sandi qfh8) |
BERT-base, Chinese Google Cina | Wiki Cina | Google Cloud | - |
BERT-base, Multilingual Cased google cased multibahasa | Wiki multibahasa | Google Cloud | - |
BERT-base, Multilingual Uncased google multibahasa yang tidak dibuka | Wiki multibahasa | Google Cloud | - |
[1] Data EXT meliputi: Wikipedia Cina, ensiklopedi lain, berita, tanya jawab dan data lainnya, dengan jumlah total kata yang mencapai 5.4b.
Jika Anda membutuhkan versi Pytorch,
1) Harap konversi sendiri melalui skrip konversi yang disediakan oleh Transformers.
2) atau langsung mengunduh pytorch melalui situs web resmi Huggingface: https://huggingface.co/hfl
Metode Unduh: Klik model apa pun yang ingin Anda unduh → Pilih tab "File dan Versi" → Unduh file model yang sesuai.
Disarankan untuk menggunakan poin unduhan Baidu Netdisk di daratan Cina, dan pengguna luar negeri disarankan untuk menggunakan poin unduhan Google. Ukuran file model dasar adalah sekitar 400m . Mengambil versi TensorFlow dari BERT-wwm, Chinese sebagai contoh, setelah mengunduh, mendekompres file zip untuk mendapatkan:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
Di antara mereka, bert_config.json dan vocab.txt persis sama dengan BERT-base, Chinese asli Google. Versi Pytorch berisi pytorch_model.bin , bert_config.json , dan file vocab.txt .
Mengandalkan perpustakaan? Transformers, model di atas dapat dengan mudah dipanggil.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
Catatan: Semua model dalam direktori ini dimuat menggunakan Berttokenizer dan Bertmodel. Jangan gunakan Robertatokenizer/Robertamodel!
Daftar MODEL_NAME yang sesuai adalah sebagai berikut:
| Nama model | Model_name |
|---|---|
| Roberta-wwm-Ext-Large | HFL/China-Roberta-WWM-Ext-Large |
| Roberta-WWM-EXT | hfl/cina-roberta-wwm-ext |
| BERT-WWM-EXT | hfl/cina-erit-wwm-ext |
| Bert-WWM | HFL/China-BERT-WWM |
| Rbt3 | hfl/rbt3 |
| Rbtl3 | hfl/rbtl3 |
Mengandalkan paddlehub, Anda dapat mengunduh dan menginstal model hanya dengan satu baris kode, dan lebih dari sepuluh baris kode dapat menyelesaikan tugas seperti klasifikasi teks, anotasi urutan, pemahaman membaca, dll.
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
Daftar MODULE_NAME yang sesuai adalah sebagai berikut:
| Nama model | Module_name |
|---|---|
| Roberta-wwm-Ext-Large | China-Roberta-WWM-Ext-Large |
| Roberta-WWM-EXT | China-Roberta-WWM-EXT |
| BERT-WWM-EXT | China-Bert-WWM-EXT |
| Bert-WWM | China-Bert-WWM |
| Rbt3 | rbt3 |
| Rbtl3 | rbtl3 |
Berikut ini adalah ringkasan dari beberapa detail model yang lebih diperhatikan semua orang.
| - | Bert Google | Bert-WWM | BERT-WWM-EXT | Roberta-WWM-EXT | Roberta-wwm-Ext-Large |
|---|---|---|---|---|---|
| Menutupi | Wordpiece | Wwm [1] | Wwm | Wwm | Wwm |
| Jenis | basis | basis | basis | basis | Besar |
| Sumber data | Wiki | Wiki | wiki+ext [2] | wiki+ext | wiki+ext |
| Token Pelatihan # | 0.4b | 0.4b | 5.4b | 5.4b | 5.4b |
| Perangkat | Tpu pod v2 | TPU V3 | TPU V3 | TPU V3 | TPU POD V3-32 [3] |
| Langkah pelatihan | ? | 100K MAX128 +100K max512 | 1M MAX128 +400K MAX512 | 1m max512 | 2m max512 |
| Ukuran batch | ? | 2.560 / 384 | 2.560 / 384 | 384 | 512 |
| Pengoptimal | Adamw | DOMBA | DOMBA | Adamw | Adamw |
| Kosakata | 21.128 | ~ Bert [4] | ~ Bert | ~ Bert | ~ Bert |
| Init pos pemeriksaan | Init acak | ~ Bert | ~ Bert | ~ Bert | Init acak |
[1] wwm = seluruh kata masking
[2] ext = data yang diperluas
[3] TPU POD V3-32 (512G HBM) setara dengan 4 TPU V3 (128G HBM)
[4]~BERTberarti mewarisi atribut Bert Cina asli Google
Untuk membandingkan efek dasar, kami mengujinya pada kumpulan data Tiongkok berikut, termasuk tugas句子级dan篇章级. Untuk BERT-wwm-ext , RoBERTa-wwm-ext , dan RoBERTa-wwm-ext-large , kami tidak lebih lanjut menyesuaikan tingkat pembelajaran yang optimal , tetapi secara langsung menggunakan tingkat pembelajaran optimal BERT-wwm .
Tingkat Pembelajaran Terbaik:
| Model | Bert | Ernie | Bert-wwm* |
|---|---|---|---|
| CMRC 2018 | 3e-5 | 8e-5 | 3e-5 |
| Drcd | 3e-5 | 8e-5 | 3e-5 |
| CJRC | 4e-5 | 8e-5 | 4e-5 |
| Xnli | 3e-5 | 5e-5 | 3e-5 |
| Chnsenticorp | 2e-5 | 5e-5 | 2e-5 |
| LCQMC | 2e-5 | 3e-5 | 2e-5 |
| BQ Corpus | 3e-5 | 5e-5 | 3e-5 |
| Thucnews | 2e-5 | 5e-5 | 2e-5 |
*Mewakili semua model seri WWM (Bert-wwm, Bert-wwm-ext, Roberta-WWM-EXT, Roberta-WWM-Ext-Large)
Hanya beberapa hasil yang tercantum di bawah ini. Silakan lihat laporan teknis kami untuk hasil yang lengkap.
Catatan: Untuk memastikan keandalan hasil, untuk model yang sama, kami berjalan 10 kali (benih acak yang berbeda) untuk melaporkan nilai maksimum dan rata -rata kinerja model (nilai rata -rata dalam kurung). Jika tidak ada yang tidak terduga terjadi, hasil operasi Anda harus dalam kisaran ini.
Dalam indikator evaluasi, nilai rata -rata diwakili dalam tanda kurung dan nilai maksimum direpresentasikan di luar kurung.
Kumpulan data CMRC 2018 adalah data pemahaman pembacaan mesin Cina yang dirilis oleh laboratorium bersama Institut Teknologi Harbin. Menurut pertanyaan yang diberikan, sistem perlu mengekstrak fragmen dari bab sebagai jawaban, dalam bentuk yang sama dengan skuad. Indikator evaluasi adalah: EM / F1
| Model | Set pengembangan | Set tes | Set Tantangan |
|---|---|---|---|
| Bert | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) |
| Ernie | 65.4 (64.3) / 84.7 (84.2) | 69.4 (68.2) / 86.6 (86.1) | 19.6 (17.0) / 44.3 (42.8) |
| Bert-WWM | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) |
| BERT-WWM-EXT | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) |
| Roberta-WWM-EXT | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) |
| Roberta-wwm-Ext-Large | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) |
Dataset DRCD dirilis oleh Delta Research Institute, Taiwan, Cina. Bentuknya sama dengan skuad dan merupakan dataset pemahaman membaca yang diekstraksi berdasarkan bahasa Cina tradisional. Karena karakter Cina tradisional dihapus dari Ernie, tidak disarankan untuk menggunakan Ernie (atau mengubahnya menjadi Cina yang disederhanakan dan kemudian memprosesnya) pada data tradisional Cina. Indikator evaluasi adalah: EM / F1
| Model | Set pengembangan | Set tes |
|---|---|---|
| Bert | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) |
| Ernie | 73.2 (73.0) / 83.9 (83.8) | 71.9 (71.4) / 82.5 (82.3) |
| Bert-WWM | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) |
| BERT-WWM-EXT | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) |
| Roberta-WWM-EXT | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) |
| Roberta-wwm-Ext-Large | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) |
Dataset CJRC adalah data pemahaman pembacaan mesin Cina untuk bidang peradilan yang dirilis oleh laboratorium gabungan IFLYTEK. Perlu dicatat bahwa data yang digunakan dalam percobaan bukan data akhir yang dikeluarkan oleh pejabat, dan hasilnya hanya untuk referensi. Indikator evaluasi adalah: EM / F1
| Model | Set pengembangan | Set tes |
|---|---|---|
| Bert | 54.6 (54.0) / 75.4 (74.5) | 55.1 (54.1) / 75.2 (74.3) |
| Ernie | 54.3 (53.9) / 75.3 (74.6) | 55.0 (53.9) / 75.0 (73.9) |
| Bert-WWM | 54.7 (54.0) / 75.2 (74.8) | 55.1 (54.1) / 75.4 (74.4) |
| BERT-WWM-EXT | 55.6 (54.8) / 76.0 (75.3) | 55.6 (54.9) / 75.8 (75.0) |
| Roberta-WWM-EXT | 58.7 (57.6) / 79.1 (78.3) | 59.0 (57.8) / 79.0 (78.0) |
| Roberta-wwm-Ext-Large | 62.1 (61.1) / 82.4 (81.6) | 62.4 (61.4) / 82.2 (81.0) |
Dalam tugas inferensi bahasa alami, kami mengadopsi data XNLI , yang mengharuskan teks dibagi menjadi tiga kategori: entailment , neutral , dan contradictory . Indikator evaluasi adalah: akurasi
| Model | Set pengembangan | Set tes |
|---|---|---|
| Bert | 77.8 (77.4) | 77.8 (77.5) |
| Ernie | 79.7 (79.4) | 78.6 (78.2) |
| Bert-WWM | 79.0 (78.4) | 78.2 (78.0) |
| BERT-WWM-EXT | 79.4 (78.6) | 78.7 (78.3) |
| Roberta-WWM-EXT | 80.0 (79.2) | 78.8 (78.3) |
| Roberta-wwm-Ext-Large | 82.1 (81.3) | 81.2 (80.6) |
Dalam tugas analisis sentimen, dataset klasifikasi emosi biner chnsenticorp. Indikator evaluasi adalah: akurasi
| Model | Set pengembangan | Set tes |
|---|---|---|
| Bert | 94.7 (94.3) | 95.0 (94.7) |
| Ernie | 95.4 (94.8) | 95.4 (95.3) |
| Bert-WWM | 95.1 (94.5) | 95.4 (95.0) |
| BERT-WWM-EXT | 95.4 (94.6) | 95.3 (94.7) |
| Roberta-WWM-EXT | 95.0 (94.6) | 95.6 (94.8) |
| Roberta-wwm-Ext-Large | 95.8 (94.9) | 95.8 (94.9) |
Dua set data berikut perlu mengklasifikasikan pasangan kalimat untuk menentukan apakah semantik dari kedua kalimat tersebut sama (tugas klasifikasi biner).
LCQMC dirilis oleh Pusat Penelitian Komputasi Intelyur dari Harbin Institute of Technology Shenzhen Graduate School. Indikator evaluasi adalah: akurasi
| Model | Set pengembangan | Set tes |
|---|---|---|
| Bert | 89.4 (88.4) | 86.9 (86.4) |
| Ernie | 89.8 (89.6) | 87.2 (87.0) |
| Bert-WWM | 89.4 (89.2) | 87.0 (86.8) |
| BERT-WWM-EXT | 89.6 (89.2) | 87.1 (86.6) |
| Roberta-WWM-EXT | 89.0 (88.7) | 86.4 (86.1) |
| Roberta-wwm-Ext-Large | 90.4 (90.0) | 87.0 (86.8) |
BQ Corpus dirilis oleh Pusat Penelitian Komputasi Cerdas dari Harbin Institute of Technology Shenzhen Graduate School dan merupakan kumpulan data untuk bidang perbankan. Indikator evaluasi adalah: akurasi
| Model | Set pengembangan | Set tes |
|---|---|---|
| Bert | 86.0 (85.5) | 84.8 (84.6) |
| Ernie | 86.3 (85.5) | 85.0 (84.6) |
| Bert-WWM | 86.1 (85.6) | 85.2 (84.9) |
| BERT-WWM-EXT | 86.4 (85.5) | 85.3 (84.8) |
| Roberta-WWM-EXT | 86.0 (85.4) | 85.0 (84.6) |
| Roberta-wwm-Ext-Large | 86.3 (85.7) | 85.8 (84.9) |
Untuk tugas klasifikasi teks tingkat bab, kami memilih ThucNews, dataset berita yang dirilis oleh laboratorium pemrosesan bahasa alami Universitas Tsinghua. Kami mengambil salah satu himpunan bagian dan perlu membagi berita menjadi salah satu dari 10 kategori. Indikator evaluasi adalah: akurasi
| Model | Set pengembangan | Set tes |
|---|---|---|
| Bert | 97.7 (97.4) | 97.8 (97.6) |
| Ernie | 97.6 (97.3) | 97.5 (97.3) |
| Bert-WWM | 98.0 (97.6) | 97.8 (97.6) |
| BERT-WWM-EXT | 97.7 (97.5) | 97.7 (97.5) |
| Roberta-WWM-EXT | 98.3 (97.9) | 97.7 (97.5) |
| Roberta-wwm-Ext-Large | 98.3 (97.7) | 97.8 (97.6) |
Berikut ini adalah hasil eksperimen pada beberapa tugas NLP, dan hanya perbandingan hasil tes yang disediakan dalam tabel.
| Model | CMRC 2018 | Drcd | Xnli | CSC | LCQMC | Bq | rata-rata | Kuantitas parameter |
|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-Ext-Large | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325m |
| Roberta-WWM-EXT | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102m |
| Rbtl3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61m (59,8%) |
| Rbt3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38m (37,3%) |
Perbandingan efek relatif:
| Model | CMRC 2018 | Drcd | Xnli | CSC | LCQMC | Bq | rata-rata | Rata -rata klasifikasi |
|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-Ext-Large | 102,2% / 101,3% | 104,7% / 102,7% | 103,0% | 100,2% | 100,7% | 100,9% | 101,9% | 101,2% |
| Roberta-WWM-EXT | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| Rbtl3 | 87,2% / 93,3% | 90,2% / 93,0% | 93,9% | 98,5% | 98,5% | 98,4% | 94,3% | 97,35% |
| Rbt3 | 85,7% / 91,5% | 87,6% / 91,2% | 91,8% | 97,1% | 98,5% | 98,0% | 92,9% | 96,35% |
Selamat datang di MinIRBT Model Pra-Latih Kecil Cina dengan hasil yang lebih baik: https://github.com/iflytek/minirbt
BERT atau model lain) dan perlu disesuaikan sesuai dengan tugas target.ERNIE sangat berbeda dari BERT / BERT-wwm , jadi pastikan untuk menyesuaikan tingkat pembelajaran saat menggunakan ERNIE (berdasarkan hasil eksperimen di atas, tingkat pembelajaran awal yang diperlukan oleh ERNIE relatif tinggi).BERT / BERT-wwm menggunakan data Wikipedia untuk pelatihan, mereka lebih baik untuk memodelkan teks formal; Sementara ERNIE menggunakan data jaringan tambahan seperti Baidu Tieba dan Zhi, yang memiliki keunggulan dalam pemodelan teks informal (seperti Weibo, dll.).BERT dan BERT-wwm memiliki hasil yang lebih baik.BERT atau BERT-wwm . Karena kami menemukan bahwa hampir tidak ada bahasa Cina tradisional dalam daftar kosakata ERNIE . Untuk memfasilitasi semua orang untuk mengunduh, membawa model BERT-large (wwm) Inggris yang dirilis secara resmi oleh Google :
BERT-Large, Uncased (Whole Word Masking) : 24-layer, 1024-hidden, 16-heads, 340m parameter
BERT-Large, Cased (Whole Word Masking) : 24-layer, 1024-Hidden, 16-heads, parameter 340m
T: Bagaimana cara menggunakan model ini?
A: Cara menggunakan Bert Cina yang dirilis oleh Google, cara menggunakan ini. Teks tidak perlu melalui segmentasi kata, dan WWM hanya mempengaruhi proses pra-pelatihan dan tidak mempengaruhi input tugas hilir.
T: Apakah ada kode pra-pelatihan yang disediakan?
A: Sayangnya, saya tidak dapat memberikan kode yang relevan. Anda dapat merujuk ke #10 dan #13 untuk implementasi.
T: Di mana harus mengunduh set data tertentu?
A: Silakan periksa direktori data . README.md Dalam direktori tugas menunjukkan sumber data. Untuk konten yang dilindungi hak cipta, silakan cari sendiri atau hubungi penulis asli untuk mendapatkan data.
T: Apakah akan ada rencana untuk merilis model yang lebih besar? Misalnya, versi Bert-Large-WWM?
A: Jika kami mendapatkan hasil yang lebih baik dari percobaan, kami akan mempertimbangkan melepaskan versi yang lebih besar.
T: Anda berbohong! Tidak dapat mereproduksi hasilnya?
A: Dalam tugas hilir, kami mengadopsi model paling sederhana. Misalnya, untuk tugas klasifikasi, kami langsung menggunakan run_classifier.py (disediakan oleh Google). Jika nilai rata -rata tidak dapat dicapai, itu berarti ada bug dalam percobaan itu sendiri. Silakan periksa dengan cermat. Ada banyak faktor acak untuk nilai tertinggi, dan kami tidak dapat menjamin bahwa kami dapat mencapai nilai tertinggi. Faktor lain yang diakui: Mengurangi ukuran batch akan secara signifikan mengurangi efek eksperimental. Untuk detailnya, silakan merujuk ke masalah yang relevan dari direktori Bert dan Xlnet.
T: Saya akan mendapatkan hasil yang lebih baik dari Anda!
A: Selamat.
T: Berapa lama waktu yang dibutuhkan untuk berlatih dan peralatan apa yang dilatihnya?
A: Pelatihan selesai dalam versi Google TPU V3 (128G HBM). Pelatihan Bert-WWM membutuhkan waktu sekitar 1,5 hari, sementara Bert-wwm-Ext memakan waktu beberapa minggu (lebih banyak data digunakan untuk berulang lebih banyak). Perlu dicatat bahwa selama tahap pra-pelatihan, kami menggunakan LAMB Optimizer (implementasi versi TensorFlow). Pengoptimal ini memiliki dukungan yang baik untuk batch besar. Saat melakukan tugas-tugas hilir yang menyempurnakan, kami menggunakan AdamWeightDecayOptimizer Default Bert.
T: Siapa Ernie?
A: Model Ernie dalam proyek ini secara khusus mengacu pada Ernie yang diusulkan oleh Baidu, daripada Ernie yang diterbitkan oleh Universitas Tsinghua di ACL 2019.
T: Efek Bert-WWM tidak terlalu bagus dalam semua tugas
A: Tujuan dari proyek ini adalah untuk memberi para peneliti model pra-terlatih yang beragam, dengan bebas memilih Bert, Ernie, atau Bert-WWM. Kami hanya memberikan data eksperimental, dan kami masih harus terus mencoba yang terbaik dalam tugas kami sendiri untuk menarik kesimpulan. Satu model lagi, satu pilihan lagi.
T: Mengapa beberapa set data tidak dicoba?
A: Sejujurnya, saya tidak ingin menemukan lebih banyak data; 2) Saya tidak perlu; 3) Saya tidak punya uang;
T: Mari kita evaluasi secara singkat model -model ini
A: Masing -masing memiliki fokus sendiri dan kekuatannya sendiri. Penelitian dan pengembangan pemrosesan bahasa alami Cina membutuhkan upaya bersama dari semua pihak.
T: Apa nama model pretrained berikutnya yang Anda prediksi?
A: Mungkin itu disebut Zoe. Zoe: Embeddings Zero-Shot dari Model Bahasa
T: Rincian lebih lanjut tentang model RoBERTa-wwm-ext ?
A: Kami mengintegrasikan keunggulan Roberta dan Bert-WWM untuk membuat kombinasi alami dari keduanya. Perbedaan antara model dalam direktori ini adalah sebagai berikut:
1) Gunakan strategi WWM untuk menutupi pada tahap pra-pelatihan (tetapi tidak ada masking dinamis)
2) Cukup Batalkan Kehilangan Prediksi Kalimat Berikutnya (NSP)
3) Tidak lagi menggunakan mode pelatihan max_len = 128 dan kemudian max_len = 512, langsung latih max_len = 512
4) Perluas langkah -langkah pelatihan dengan tepat
Perlu dicatat bahwa model ini bukan model Roberta asli, tetapi hanya model Bert yang dilatih dalam metode pelatihan Roberta yang serupa, yaitu Bert seperti Roberta. Oleh karena itu, saat menggunakan tugas hilir dan mengonversi model, silakan memprosesnya di Bert, bukan Roberta.
Jika sumber daya atau teknologi dalam proyek ini bermanfaat untuk pekerjaan penelitian Anda, silakan merujuk ke makalah berikut di koran.
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
Penulis pertama sebagian didanai oleh program Cloud TPU Research Google .
Proyek ini bukan model Bert-WWM Cina secara resmi dirilis oleh Google. Pada saat yang sama, proyek ini bukan produk resmi dari Harbin Institute of Technology atau IFLYTEK. Hasil eksperimen yang disajikan dalam laporan teknis hanya menunjukkan bahwa kinerja di bawah kumpulan data tertentu dan kombinasi hiperparameter tidak mewakili sifat masing -masing model. Hasil eksperimen dapat berubah karena biji bilangan acak dan perangkat komputasi. Konten dalam proyek ini hanya untuk referensi penelitian teknis dan tidak digunakan sebagai dasar penutup. Pengguna dapat menggunakan model kapan saja dalam ruang lingkup lisensi, tetapi kami tidak bertanggung jawab atas kerugian langsung atau tidak langsung yang disebabkan oleh penggunaan konten proyek.
Selamat datang untuk mengikuti akun resmi WeChat resmi Laboratorium Gabungan IFLYTEK untuk mempelajari tentang tren teknis terbaru.

Jika Anda memiliki pertanyaan, silakan kirimkan dalam masalah GitHub.