Liberación de anuncios: modelo de gramática china de Rime y construcción de tesauro basada en un corpus de escala ultra-larga de 32 GB
—— Modelo de gramática de visión, Vision Atomic Dictionary
Introducción del proyecto
- Basado en el enorme y diverso corpus chino, hemos construido un modelo de gramática china con excelente rendimiento y amplia cobertura y un vocabulario eficiente. El modelo gramatical y el tesauro lanzados esta vez integran contenido de preguntas y respuestas comunitarias, interacción de blog, cuentas oficiales, entradas de enciclopedia, informes de noticias, letras, literatura de poesía, modismos, peteanciones de lenguas, revisiones de comida para llevar hotel, documentos legales, descripciones regionales, obras literarias y poesía. El corpus general es una escala de 32 g, que es más equilibrada y más meticulosa en la limpieza. La visión del proyecto se compromete a proporcionar la base básica más fuerte de RIME, que hace la anotación de pronunciación más precisa, que hace que las estadísticas de frecuencia de palabras más precisas, la base de datos de segmentación de palabras más apropiada y creen una alta tasa de éxito y un modelo de entrada preciso basado en las condiciones existentes ;
- Al mismo tiempo, el diccionario Pinyin de una sola palabra mantenido en el proyecto cubre el área básica de CJK al área G extendida y el área radical Kangxi. Mantiene manualmente más pronunciaciones basadas en el diccionario HAN, que puede ser más integral en el léxico de texto único;
- Todos los léxicos de rime en el proyecto utilizan la detección asistida por AI y la revisión manual para seleccionar frases de alta calidad. La biblioteca de vocabulario está llena de ortografía con tono, y toda la frecuencia de las palabras se basa en frases y pinyin de doble clave. La diferencia es tal: "Dónde hay" para la frecuencia de una sola palabra en escenarios similares, en lugar de estar incorporados en el pinyin de NA. La frecuencia de la palabra única es una combinación de una sola palabra y su pinyin correspondiente en la oración de frase. Por lo tanto, la frecuencia de una sola palabra también se distingue de los caracteres polifónicos. Debido a la gran escala del corpus, muchas palabras individuales han alcanzado el nivel de mil millones. La frecuencia de la palabra ha sido logarítmica normalizada, lo que acorta la frecuencia de la palabra y es fácil de mantener y el archivo almacena menos bytes. ¿Cómo migrar a su plan? Haga clic para migrar el vocabulario
Descarga del modelo | Instrucciones de configuración del modelo | Detalles de los tutoriales de uso y construcción
- Modelo Archivo Descripción de la versión: V es el número de versión, n es el nivel de modelo, m es el tamaño de 100 megabytes
| Tamaño de archivo | Modelo de nivel 2 | Modelo de nivel 3 |
|---|
| 100m | v1n2m1 | v1n3m1 |
| 200 m | v1n2m2 | v1n3m2 |
| 300m | v1n2m3 | v1n3m3 |
- Instrucciones correspondientes para el archivo de la base de datos:
Proyecto de muestra:
Vientiane Pinyin Versión mejorada: combinación de código auxiliar directo multidimensional y cualquier esquema Pinyin | Vientiane Pinyin Versión básica - Versión completa de código auxiliar indirecto Pinyin Pinyin Pinyin
| Tipo de tesauro | Nombre del archivo | describir |
|---|
| Mesa grande | large.dict | Contiene todas las pronunciaciones en el área básica de la biblioteca de fuentes CJK, independientemente de las palabras 43324 múltiples. |
| Tesauro básico | base.dict | Contiene frases de 2-3 palabras |
| Tesauro extendido | ext.dict | Contiene frases de uso común |
| Mesa de palabras completa | full.dict | Incluye todos los personajes con CJK, caracteres chinos completos |
Simplemente coloque esta sección de contenido en el archivo del esquema, descargue el modelo al directorio de usuarios de RIME y cambie el idioma: AMZ-V2N3M1-ZH-HANS al nombre del archivo que descargó (sin incluir el sufijo), ¡y vuelva a implementarlo para usarlo!
__include: octagram #启用语法模型
#语法模型
octagram:
__patch:
grammar:
language: amz-v2n3m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2
translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7