Lançamento do Boletim: Rime Chinese Grammar Model e Thesaurus Construct
—— Modelo gramatical de visão, Dicionário Atômico de Visão
Introdução ao projeto
- Com base no enorme e diversificado corpus chinês, construímos um modelo gramatical chinês com excelente desempenho e ampla cobertura e um vocabulário eficiente. O modelo gramatical e o dicionário de sinônimos lançados desta vez integram conteúdo das perguntas e respostas da comunidade, interação do blog, contas oficiais, entradas de enciclopédia, relatórios de notícias, letras, literatura de poesia, expressões idiomáticas, twisters de língua, críticas de toca de hotéis, documentos legais, descrições regionais, obras literárias e poesia. O corpus geral é de 32g, o que é mais equilibrado e mais meticuloso na limpeza. A visão do projeto está comprometida em fornecer a base básica mais forte de Rime, fazendo a anotação de pronúncia mais precisa, fazendo as estatísticas de frequência de palavras mais precisas, o banco de dados de segmentação de palavras mais apropriado e criando uma alta taxa de acerto e modelo de entrada preciso com base nas condições existentes ;
- Ao mesmo tempo, o dicionário pinyin único mantido no projeto cobre a área básica do CJK para a área G estendida e a área radical kangxi. Ele mantém manualmente mais pronúncias com base no dicionário de Han, que pode ser mais abrangente no léxico de texto único;
- Todos os léxicos do RIME no projeto usam triagem e revisão manual da AI-assistida para selecionar frases de alta qualidade. A biblioteca de vocabulário está cheia de ortografia com tom, e toda a frequência de palavras é baseada em frases e pinyin duplo. A diferença é como: "Onde está" para a frequência de uma palavra em cenários semelhantes, em vez de ser todos incorporados ao pinyin de Na. A frequência de palavra única é uma combinação de palavra única e seu pinyin correspondente na frase da frase. Portanto, a frequência de palavra única também é distinguida dos caracteres polifônicos. Devido à enorme escala do corpus, muitas palavras únicas atingiram o nível de 1 bilhão. A frequência da palavra tem sido normalizada logarítmica, o que reduz a frequência da palavra e é fácil de manter e os arquivos armazenam menos bytes. Como migrar para o seu plano? Clique para migrar o vocabulário
Download do modelo | Instruções de configuração do modelo | Detalhes dos tutoriais de uso e construção
- Modelo Arquivo Versão Descrição: V é o número da versão, n é o nível do modelo, M é do tamanho de 100 megabytes
| Tamanho do arquivo | Modelo de Nível 2 | Modelo de Nível 3 |
|---|
| 100m | V1N2M1 | V1N3M1 |
| 200m | v1n2m2 | V1N3M2 |
| 300m | v1n2m3 | v1n3m3 |
- Instruções correspondentes para o arquivo de banco de dados:
Projeto de amostra:
Versão aprimorada da Vientiane Pinyin - Combinação de código auxiliar direto multidimensional e qualquer esquema de pinyin | Versão básica de Vientiane Pinyin - Pinyin Pinyin Pinyin Pinyin Indirect Auxiliar Code Version
| Tipo de sinônimo | Nome do arquivo | descrever |
|---|
| Tabela de fontes grandes | large.dict | Contém todas as pronúncias na área básica da biblioteca de fontes CJK, independentemente de 43324 palavras com vários somes |
| Thesaurus básico | base.dict | Contém 2-3 frases de palavras |
| Thesaurus estendido | ext.dict | Contém frases comumente usadas |
| Tabela de palavras completa | full.dict | Inclui todos os personagens com CJK, caracteres chineses completos |
Basta colocar esta seção de conteúdo no arquivo de esquema, baixar o modelo no diretório do usuário do RIME e alterar o idioma: AMZ-V2N3M1-ZH-HANS para o nome do arquivo que você baixou (sem incluir o sufixo) e re-empregá-lo para usá-lo!
__include: octagram #启用语法模型
#语法模型
octagram:
__patch:
grammar:
language: amz-v2n3m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2
translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7