نشرة الإصدار: نموذج قواعد النحو الصينية ومسجور البناء على أساس 32 جيجا بايت فائقة النطاق
—— نموذج قواعد النحو ، القاموس الذري الرؤية
مقدمة المشروع
- استنادًا إلى المجموعة الصينية الضخمة والمتنوعة ، قمنا ببناء نموذج قواعد صينية بأداء ممتاز وتغطية واسعة ومفردات فعالة. يدمج نموذج القواعد والمسجور هذه المرة المحتوى من سؤال وجواب المجتمع ، والتفاعل المدونة ، والحسابات الرسمية ، وإدخالات الموسوعات ، والتقارير الإخبارية ، والأغاني ، والأدب الشعري ، والتعابير ، و twisters اللسان ، ومراجعات الوجبات الجاهزة في الفندق ، والوثائق القانونية ، والأوصاف الإقليمية ، والأعمال الأدبية ، والشعر. المجموعة الكلية هي مقياس 32 جم ، وهو أكثر توازناً وأكثر دقة في التنظيف. تلتزم رؤية المشروع بتوفير أقوى قاعدة أساسية لـ Rime ، مما يجعل التعليق التوضيحي الأكثر دقة ، مما يجعل إحصائيات تردد الكلمات الأكثر دقة ، وقاعدة بيانات تجزئة الكلمات الأنسب ، وإنشاء معدل ضرب مرتفع ونموذج إدخال دقيق استنادًا إلى الظروف الحالية ؛
- في الوقت نفسه ، يغطي قاموس Pinyin أحادي الكلمات المحفوظة في المشروع منطقة CJK الأساسية إلى منطقة G الممتدة ومنطقة Kangxi Radical. يحافظ يدويًا على المزيد من النطق على أساس قاموس HAN ، والذي قد يكون أكثر شمولاً في معجم النص الواحد ؛
- تستخدم جميع معجمات Rime في المشروع الفحص المدعوم من AI وتوقيرات التدقيق اليدوي لاختيار عبارات عالية الجودة. مكتبة المفردات مليئة بالتهجئة مع النغمة ، ويستند كل تردد الكلمات على عبارات و pinyin المزدوجة. الفرق هو مثل: "أين يوجد" لتردد كلمة واحدة في سيناريوهات مماثلة ، بدلاً من أن يتم دمجها في pinyin من NA. تردد الكلمة المفردة هو مزيج من كلمة واحدة و pinyin المقابلة في جملة العبارة. لذلك ، يتم تمييز تردد الكلمة الواحدة أيضًا عن الأحرف المتعددة الفضل. بسبب النطاق الضخم للجسم ، وصلت العديد من الكلمات المفردة إلى مستوى مليار. تم تطبيع تردد الكلمة اللوغاريتمية ، مما يقلل من تردد الكلمة ويسهل صيانته ويخزن الملف بايت أقل. كيف تهاجر إلى خطتك؟ انقر لترحيل المفردات
نموذج تنزيل | تعليمات تكوين النموذج | تفاصيل دروس الاستخدام والبناء
- إصدار ملف النموذج الوصف: V هو رقم الإصدار ، N هو مستوى النموذج ، M هو حجم 100 ميغابايت
| حجم الملف | نموذج المستوى 2 | المستوى 3 نموذج |
|---|
| 100 م | V1N2M1 | V1N3M1 |
| 200m | V1N2M2 | V1N3M2 |
| 300 متر | V1N2M3 | V1N3M3 |
- التعليمات المقابلة لملف قاعدة البيانات:
مشروع العينة:
VIENTIANE Pinyin النسخة المحسنة - مزيج من الكود المساعد المباشر متعدد الأبعاد وأي مخطط Pinyin | إصدار Vientiane Pinyin الأساسي - إصدار رمز مساعد Pinyin المزدوج Pinyin الكامل
| نوع thesaurus | اسم الملف | يصف |
|---|
| طاولة كبيرة | large.dict | يحتوي على جميع النطق في المنطقة الأساسية لمكتبة Font CJK ، بغض النظر عن 43324 كلمة |
| thesaurus الأساسية | base.dict | يحتوي على 2-3 عبارات الكلمات |
| الممتد الممتد | ext.dict | يحتوي على عبارات شائعة الاستخدام |
| جدول الكلمة الكاملة | full.dict | يتضمن جميع الشخصيات مع CJK ، والأحرف الصينية الكاملة |
ما عليك سوى وضع هذا القسم من المحتوى في ملف المخطط ، وقم بتنزيل النموذج إلى دليل المستخدم الخاص بـ Rime ، وتغيير اللغة: AMZ-V2N3M1-ZH-Hans إلى اسم الملف الذي قمت بتنزيله (لا يشمل اللاحقة) ، وإعادة استخدامه للاستخدام!
__include: octagram #启用语法模型
#语法模型
octagram:
__patch:
grammar:
language: amz-v2n3m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2
translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7