Выпуск бюллетеня: китайская модель китайской грамматики и строительство тезауруса на основе 32 ГБ сверхуровного масштаба
—— Видиция модели грамматики, Атомный словарь зрения
Введение проекта
- Основываясь на огромном и разнообразном китайском корпусе, мы построили китайскую грамматическую модель с превосходной производительностью и широким освещением и эффективным словарем. Модель грамматики и тезаурус выпустили на этот раз интегрируют контент из сообществ и ответов сообщества, взаимодействия в блоге, официальных аккаунтов, записей энциклопедии, новостных отчетов, текстов, литературы по поэзии, идиомов, языковых волн, обзоров по выводу отелей, юридических документов, региональных описаний, литературных произведений и поэзии. Общий корпус составляет 32 г шкалы, которая более сбалансирована и более тщательно в чистке. Проектное видение стремится обеспечить самую сильную базовую базу RIME, создавая наиболее точную аннотацию произношения, создавая наиболее точную статистику частоты слов, наиболее подходящую базу данных сегментации слов и создание высокой скорости попадания и точной входной модели на основе существующих условий;
- В то же время, словарь пиньина с одним словом, который поддерживается в проекте, охватывает базовую область CJK до расширенной области G и радикальной области Kangxi. Он вручную поддерживает больше произношений на основе словаря Хань, которое может быть более полным в одно текстовой лексике;
- Все лексики Rime в проекте используют A-A-A-A-Advisted Screening и ручную корректуру для выбора высококачественных фраз. Библиотека словарного запаса полна орфографии с тоном, и вся частота слов основана на фразах и двойном ключке пининина. Разница такова, как: «где там» для частоты одного слов в аналогичных сценариях, а не включать в пийнсин NA. Частота единственного слова представляет собой комбинацию отдельного слова и соответствующего ее пиньина в фразовом предложении. Следовательно, частота единого слова также отличается от полифонических символов. Из -за огромного масштаба корпуса многие отдельные слова достигли уровня 1 миллиарда. Частота слов была логарифмической нормализованной, которая сокращает частоту слов и легко поддерживать, а файл хранит меньше байтов. Как перейти на свой план? Нажмите, чтобы мигрировать словарный запас
Модель скачать | Инструкции по конфигурации модели | Подробная информация об использовании и строительстве
- Описание версии файла модели: v - номер версии, n - уровень модели, m - это размер 100 мегабайтов
| Размер файла | Уровень 2 модель | Модель 3 уровня |
|---|
| 100 м | V1N2M1 | V1N3M1 |
| 200 м | V1N2M2 | V1N3M2 |
| 300м | V1N2M3 | v1n3m3 |
- Соответствующие инструкции для файла базы данных:
Образец проекта:
Версия Vientiane Pinyin Enhanced - Комбинация многомерного прямого вспомогательного кода и любой схемы пиньина | Vientiane Pinyin Basic Версия - полная версия Pinyin Double Pinyin непрямой вспомогательный код версии
| Тип тезауруса | Имя файла | описывать |
|---|
| Большой стол | large.dict | Содержит все произношения в базовой области библиотеки Font, независимо от много звучания 43324 слов |
| Основной тезаурус | base.dict | Содержит 2-3 фразы слова |
| Расширенный тезаурус | ext.dict | Содержит обще используемые фразы |
| Полная таблица слов | full.dict | Включает всех персонажей с CJK, полные китайские иероглифы |
Просто поместите этот раздел контента в файл схемы, загрузите модель в каталог пользователя RIME и измените язык: AMZ-V2N3M1-ZH-HANS на загруженное вами имя файла (не включая суффикс), и повторно разверните его в использование!
__include: octagram #启用语法模型
#语法模型
octagram:
__patch:
grammar:
language: amz-v2n3m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2
translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7