Bulletin-Veröffentlichung: Rime Chinese Grammatarmodell und Thesaurus-Konstruktion basierend auf einem 32-GB-Corpus mit Ultra-Large-Scale
—— Vision -Grammatikmodell, Vision Atomic Dictionary
Projekteinführung
- Basierend auf dem riesigen und vielfältigen chinesischen Korpus haben wir ein chinesisches Grammatikmodell mit ausgezeichneter Leistung und breiter Abdeckung und einem effizienten Wortschatz gebaut. Das Grammatikmodell und Thesaurus integrieren diesmal Inhalte aus Q & A, Blog -Interaktion, offizielle Konten, Enzyklopädieeinträge, Nachrichtenberichte, Texte, Gedichtliteratur, Redewendungen, Zungen -Twisters, Hotel zum Mitnehmen von Hoteln, gesetzliche Dokumente, regionale Beschreibungen, literarische Arbeiten und Gedichte. Der Gesamtkorpus liegt bei einer 32 -g -Skala, die ausgewogener und sorgfältiger bei der Reinigung ist. Die Projekt Vision ist bestrebt, die stärkste Grundbasis von Rime zu liefern, wodurch die genaueste Aussprache -Annotation gestellt wird, die genaueste Wortfrequenzstatistik, die am besten geeignete Word -Segmentierungsdatenbank, und eine hohe Trefferquote und eine genaue Eingabemodell erstellt, die auf vorhandenen Bedingungen basiert .
- Gleichzeitig deckt das im Projekt gehaltene Einzelwörter Pinyin Dictionary den CJK-Basisbereich bis zum erweiterten G-Bereich und den Kangxi-Radikalbereich ab. Es hält manuell mehr Ausführungen auf der Grundlage des Han-Wörterbuchs bei, was im Einzeltextexikon möglicherweise umfassender sein kann.
- Alle Rime-Lexikone im Projekt verwenden AI-unterstütztes Screening und manuelles Korrekturlesen, um qualitativ hochwertige Phrasen auszuwählen. Die Wortschatzbibliothek ist voller Rechtschreibung mit Ton, und die gesamte Wortfrequenz basiert auf Phrasen und Doppelschlüsselpinyin. Der Unterschied ist wie: "Wo ist da? Die einzelnen Wortfrequenz ist eine Kombination aus einzelnen Wort und seinem entsprechenden Pinyin im Phrase -Satz. Daher unterscheidet sich auch einzelne Wortfrequenz von polyphonischen Zeichen. Aufgrund der großen Skala des Korpus haben viele einzelne Wörter das Niveau von 1 Milliarde erreicht. Die Wortfrequenz wurde logarithmisch normalisiert, was die Wortfrequenz verkürzt und leicht zu warten ist und die Datei weniger Bytes speichert. Wie migst ich zu deinem Plan? Klicken Sie hier, um den Wortschatz zu migrieren
Modell -Download | Modellkonfigurationsanweisungen | Details zu Nutzungs- und Bau -Tutorials
- Modelldateiversion Beschreibung: V ist die Versionsnummer, n ist die Modellstufe, M ist die Größe von 100 Megabyte
| Dateigröße | Modell der Stufe 2 | Modell der Stufe 3 |
|---|
| 100 m | v1n2m1 | V1N3M1 |
| 200 m | v1n2m2 | V1N3M2 |
| 300 m | V1N2M3 | V1N3M3 |
- Entsprechende Anweisungen für die Datenbankdatei:
Beispielprojekt:
Vientiane Pinyin Enhanced Version - Kombination aus mehrdimensionaler direkter Hilfscode und einem Pinyin -Schema | Vientiane Pinyin Basic -Version - Full Pinyin Double Pinyin Indirect Auxiliary Code Version
| Thesaurus -Typ | Dateiname | beschreiben |
|---|
| Großtafel | large.dict | Enthält alle Aussprachen im Grundbereich der CJK-Schriftbibliothek, unabhängig von mehreren 43324 Wörtern |
| Basic Thesaurus | base.dict | Enthält 2-3 Wortphrasen |
| Erweiterter Thesaurus | ext.dict | Enthält häufig verwendete Phrasen |
| Vollständige Worttabelle | full.dict | Enthält alle Charaktere mit CJK, vollständige chinesische Charaktere |
Legen Sie diesen Abschnitt des Inhalts in die Schemedatei ein, laden Sie das Modell in das Benutzerverzeichnis von Rime herunter und ändern Sie die Sprache: AMZ-V2N3M1-ZH-Hans in den von Ihnen heruntergeladenen Dateinamen (ohne das Suffix) und leiten Sie ihn erneut ab!
__include: octagram #启用语法模型
#语法模型
octagram:
__patch:
grammar:
language: amz-v2n3m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2
translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7