Bulletin Release: Rime Chinese Grammar Model and Thésaurus Construction basée sur un corpus à échelle ultra-large de 32 Go
—— Modèle de grammaire Vision, dictionnaire atomique Vision
Introduction du projet
- Sur la base de l'immense et diverses corpus chinois, nous avons construit un modèle de grammaire chinois avec d'excellentes performances et une large couverture et un vocabulaire efficace. Le modèle de grammaire et le thésaurus publiés cette fois intègrent le contenu de la communauté des questions et réponses de la communauté, de l'interaction de blog, des comptes officiels, des entrées d'encyclopédie, des reportages, des paroles, de la littérature de poésie, des idioms, des twisters de la langue, des critiques de plage d'hôtel, des documents juridiques, des descriptions régionales, des œuvres littéraires et de la poésie. Le corpus global est une échelle de 32 g, ce qui est plus équilibré et plus méticuleux dans le nettoyage. La vision du projet s'engage à fournir la base de base la plus forte de Rime, ce qui rend l'annotation de prononciation la plus précise, ce qui rend les statistiques de fréquence de mots les plus précises, la base de données de segmentation des mots la plus appropriée et la création d'un taux de succès élevé et d'un modèle d'entrée précis basé sur les conditions existantes ;
- Dans le même temps, le dictionnaire Pinyin à un mot à mot maintenu dans le projet couvre la zone de base CJK à la zone G étendue et à la zone radicale kangxi. Il maintient manuellement plus de prononciations basées sur le dictionnaire Han, qui peut être plus complet dans le lexique à texte unique;
- Tous les lexiques Rime du projet utilisent le dépistage assisté par l'IA et la relecture manuelle pour sélectionner des phrases de haute qualité. La bibliothèque de vocabulaire est pleine d'orthographe avec un ton, et toute fréquence de mots est basée sur des phrases et un pinyin à double clé. La différence est telle que: "où est là" pour la fréquence unique dans des scénarios similaires, plutôt que d'être tous incorporés dans le pinyin de NA. La fréquence de mot unique est une combinaison de mot unique et de son pinyin correspondant dans la phrase de phrase. Par conséquent, la fréquence de mot unique se distingue également des caractères polyphoniques. En raison de l'énorme échelle du corpus, de nombreux mots uniques ont atteint le niveau de 1 milliard. La fréquence des mots a été normalisée logarithmique, ce qui raccourcit la fréquence des mots et est facile à entretenir et le fichier stocke moins d'octets. Comment migrer vers votre plan? Cliquez pour migrer le vocabulaire
Téléchargement du modèle | Instructions de configuration du modèle | Détails des tutoriels d'utilisation et de construction
- Version du fichier du modèle Description: v est le numéro de version, n est le niveau de modèle, m a la taille de 100 mégaoctets
| Taille de fichier | Modèle de niveau 2 | Modèle de niveau 3 |
|---|
| 100m | V1N2M1 | V1N3M1 |
| 200m | V1N2M2 | V1N3M2 |
| 300m | V1N2M3 | V1N3M3 |
- Instructions correspondantes pour le fichier de base de données:
Exemple de projet:
Vientiane Pinyin Version améliorée - combinaison du code auxiliaire direct multidimensionnel et de tout schéma de pinyin | Vientiane Pinyin Version Basic - Version du code auxiliaire indirect Double Pinyin complet Full Pinyin
| Type de thésaurus | Nom de fichier | décrire |
|---|
| Table à grande goutte | large.dict | Contient toutes les prononciations dans le domaine de base de la bibliothèque de polices CJK, indépendamment du multi-sessions 43324 mots |
| Thésaurus de base | base.dict | Contient 2 à 3 phrases de mots |
| Thésaurus prolongé | ext.dict | Contient des phrases couramment utilisées |
| Table de mots complète | full.dict | Comprend tous les personnages avec CJK, caractères chinois complets |
Il suffit de mettre cette section de contenu dans le fichier du schéma, de télécharger le modèle dans le répertoire utilisateur de Rime et de modifier la langue: AMZ-V2N3M1-ZH-HANS au nom de fichier que vous avez téléchargé (sans compter le suffixe) et redéployez-le à utiliser!
__include: octagram #启用语法模型
#语法模型
octagram:
__patch:
grammar:
language: amz-v2n3m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2
translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7