Rilis Buletin: Model Tata Bahasa Cina dan Konstruksi Tesaurus Berdasarkan Corpus Skala Ultra 32GB
— - Model Tata Bahasa Visi, Kamus Atom Visi
Pendahuluan Proyek
- Berdasarkan korpus Cina yang besar dan beragam, kami telah membangun model tata bahasa Cina dengan kinerja yang sangat baik dan cakupan luas dan kosakata yang efisien. Model tata bahasa dan tesaurus yang dirilis kali ini mengintegrasikan konten dari Q&A komunitas, interaksi blog, akun resmi, entri ensiklopedia, laporan berita, lirik, literatur puisi, idiom, twister lidah, ulasan takeaway hotel, dokumen hukum, deskripsi regional, karya sastra, dan puisi. Korpus keseluruhan adalah skala 32G, yang lebih seimbang dan lebih teliti dalam pembersihan. Visi proyek berkomitmen untuk memberikan basis dasar terkuat dari rime, membuat anotasi pengucapan yang paling akurat, membuat statistik frekuensi kata yang paling akurat, database segmentasi kata yang paling tepat, dan membuat tingkat hit tinggi dan model input yang akurat berdasarkan kondisi yang ada ;
- Pada saat yang sama, kamus Pinyin kata tunggal yang dipertahankan dalam proyek ini mencakup area dasar CJK ke area G yang diperluas dan area radikal Kangxi. Ini secara manual mempertahankan lebih banyak pengucapan berdasarkan kamus Han, yang mungkin lebih komprehensif dalam leksikon teks tunggal;
- Semua leksikon rime dalam proyek menggunakan skrining AI-Assisted dan proofreading manual untuk memilih frasa berkualitas tinggi. Perpustakaan kosakata penuh dengan ejaan dengan nada, dan semua frekuensi kata didasarkan pada frasa dan pinyin kunci ganda. Perbedaannya adalah: "Di mana ada" untuk frekuensi kata tunggal dalam skenario yang sama, daripada semuanya dimasukkan ke dalam pinyin Na. Frekuensi kata tunggal adalah kombinasi dari kata tunggal dan pinyin yang sesuai dalam kalimat frasa. Oleh karena itu, frekuensi kata tunggal juga dibedakan dari karakter polifonik. Karena skala besar korpus, banyak kata tunggal telah mencapai tingkat 1 miliar. Kata frekuensi telah dinormalisasi logaritmik, yang memperpendek frekuensi kata dan mudah dipelihara dan file menyimpan lebih sedikit byte. Bagaimana cara bermigrasi ke rencana Anda? Klik untuk memigrasi kosakata
Download model | Instruksi Konfigurasi Model | Detail Tutorial Penggunaan dan Konstruksi
- Versi File Model Deskripsi: V adalah nomor versi, n adalah level model, m adalah ukuran 100 megabyte
| Ukuran file | Model Level 2 | Model level 3 |
|---|
| 100m | V1N2M1 | V1N3M1 |
| 200m | V1N2M2 | V1N3M2 |
| 300m | V1N2M3 | V1N3M3 |
- Instruksi yang sesuai untuk file database:
Proyek contoh:
Versi Peningkatan Pinyin Vientiane - Kombinasi kode bantu langsung multi -dimensi dan skema pinyin apa pun | Versi Dasar Pinyin Vientiane - Versi Kode Auxiliary Pinyin Pinyin Double Full Pinyin
| Jenis Tesaurus | Nama file | menggambarkan |
|---|
| Meja font besar | large.dict | Berisi semua pengucapan di area dasar Perpustakaan Font CJK, terlepas dari 43324 kata multi-suara |
| Tesaurus dasar | base.dict | Berisi 2-3 frasa kata |
| Extended Thesaurus | ext.dict | Berisi frasa yang umum digunakan |
| Tabel kata lengkap | full.dict | Termasuk semua karakter dengan CJK, karakter Cina lengkap |
Taruh saja bagian konten ini dalam file skema, unduh model ke direktori pengguna Rime, dan ubah bahasa: AMZ-V2N3M1-ZH-HANS ke nama file yang Anda unduh (tidak termasuk akhiran), dan menggunakannya kembali untuk digunakan!
__include: octagram #启用语法模型
#语法模型
octagram:
__patch:
grammar:
language: amz-v2n3m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2
translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7