RIME LMDG Download - RIME LMDG Quellcode Download

RIME LMDG

AI-Quellcode

v3更新发布

Herunterladen

Bulletin-Veröffentlichung: Rime Chinese Grammatarmodell und Thesaurus-Konstruktion basierend auf einem 32-GB-Corpus mit Ultra-Large-Scale

—— Vision -Grammatikmodell, Vision Atomic Dictionary

Projekteinführung

Basierend auf dem riesigen und vielfältigen chinesischen Korpus haben wir ein chinesisches Grammatikmodell mit ausgezeichneter Leistung und breiter Abdeckung und einem effizienten Wortschatz gebaut. Das Grammatikmodell und Thesaurus integrieren diesmal Inhalte aus Q & A, Blog -Interaktion, offizielle Konten, Enzyklopädieeinträge, Nachrichtenberichte, Texte, Gedichtliteratur, Redewendungen, Zungen -Twisters, Hotel zum Mitnehmen von Hoteln, gesetzliche Dokumente, regionale Beschreibungen, literarische Arbeiten und Gedichte. Der Gesamtkorpus liegt bei einer 32 -g -Skala, die ausgewogener und sorgfältiger bei der Reinigung ist. Die Projekt Vision ist bestrebt, die stärkste Grundbasis von Rime zu liefern, wodurch die genaueste Aussprache -Annotation gestellt wird, die genaueste Wortfrequenzstatistik, die am besten geeignete Word -Segmentierungsdatenbank, und eine hohe Trefferquote und eine genaue Eingabemodell erstellt, die auf vorhandenen Bedingungen basiert .
Gleichzeitig deckt das im Projekt gehaltene Einzelwörter Pinyin Dictionary den CJK-Basisbereich bis zum erweiterten G-Bereich und den Kangxi-Radikalbereich ab. Es hält manuell mehr Ausführungen auf der Grundlage des Han-Wörterbuchs bei, was im Einzeltextexikon möglicherweise umfassender sein kann.
Alle Rime-Lexikone im Projekt verwenden AI-unterstütztes Screening und manuelles Korrekturlesen, um qualitativ hochwertige Phrasen auszuwählen. Die Wortschatzbibliothek ist voller Rechtschreibung mit Ton, und die gesamte Wortfrequenz basiert auf Phrasen und Doppelschlüsselpinyin. Der Unterschied ist wie: "Wo ist da? Die einzelnen Wortfrequenz ist eine Kombination aus einzelnen Wort und seinem entsprechenden Pinyin im Phrase -Satz. Daher unterscheidet sich auch einzelne Wortfrequenz von polyphonischen Zeichen. Aufgrund der großen Skala des Korpus haben viele einzelne Wörter das Niveau von 1 Milliarde erreicht. Die Wortfrequenz wurde logarithmisch normalisiert, was die Wortfrequenz verkürzt und leicht zu warten ist und die Datei weniger Bytes speichert. Wie migst ich zu deinem Plan? Klicken Sie hier, um den Wortschatz zu migrieren

Modell -Download | Modellkonfigurationsanweisungen | Details zu Nutzungs- und Bau -Tutorials

Modelldateiversion Beschreibung: V ist die Versionsnummer, n ist die Modellstufe, M ist die Größe von 100 Megabyte

Dateigröße	Modell der Stufe 2	Modell der Stufe 3
100 m	v1n2m1	V1N3M1
200 m	v1n2m2	V1N3M2
300 m	V1N2M3	V1N3M3

Entsprechende Anweisungen für die Datenbankdatei:

Beispielprojekt:

Vientiane Pinyin Enhanced Version - Kombination aus mehrdimensionaler direkter Hilfscode und einem Pinyin -Schema | Vientiane Pinyin Basic -Version - Full Pinyin Double Pinyin Indirect Auxiliary Code Version

Thesaurus -Typ	Dateiname	beschreiben
Großtafel	`large.dict`	Enthält alle Aussprachen im Grundbereich der CJK-Schriftbibliothek, unabhängig von mehreren 43324 Wörtern
Basic Thesaurus	`base.dict`	Enthält 2-3 Wortphrasen
Erweiterter Thesaurus	`ext.dict`	Enthält häufig verwendete Phrasen
Vollständige Worttabelle	`full.dict`	Enthält alle Charaktere mit CJK, vollständige chinesische Charaktere

Legen Sie diesen Abschnitt des Inhalts in die Schemedatei ein, laden Sie das Modell in das Benutzerverzeichnis von Rime herunter und ändern Sie die Sprache: AMZ-V2N3M1-ZH-Hans in den von Ihnen heruntergeladenen Dateinamen (ohne das Suffix) und leiten Sie ihn erneut ab!

 __include: octagram   #启用语法模型
#语法模型
octagram:
  __patch:
    grammar:
      language: amz-v2n3m1-zh-hans  
      collocation_max_length: 5
      collocation_min_length: 2
    translator/contextual_suggestions: true
    translator/max_homophones: 7
    translator/max_homographs: 7

Expandieren

Zusätzliche Informationen