Thuocl
Tabla de contenido
- Introducción al diccionario
- Formato de tesauro y estadísticas de frecuencia de palabras Corpus
- Lista del diccionario
- Protocolo de código abierto
- autor
Introducción al diccionario
Thuocl (Thu Open Chinese Lexicon) es un vocabulario chino de alta calidad compilado y lanzado por el Laboratorio de Procesamiento del Lenguaje Natural y el Laboratorio de Computación de Humanidades Sociales de la Universidad de Tsinghua. La lista de vocabulario proviene de etiquetas sociales, búsqueda de palabras calientes, vocabulario de método de entrada, etc. de sitios web convencionales. Thuocl tiene las siguientes características:
Incluye valor DF (frecuencia de documentos) para opciones personalizadas del usuario.
El vocabulario ha sufrido múltiples rondas de proyección manual para garantizar la precisión de la inclusión del vocabulario.
Las actualizaciones abiertas continuarán actualizando las listas de vocabulario existentes y lanzarán más listas de vocabulario de categorías. Los profesionales pueden unirse y colaborar en la construcción de un tesauro abierto. Las personas interesadas pueden escribir a [email protected].
Este tesauro se puede usar para la segmentación automática de palabras en chino para mejorar el efecto de la segmentación de palabras en chino. Se recomienda usarlo con el conjunto de herramientas Thulac desarrollado por este grupo para mejorar la efectividad de la segmentación de palabras chinas en campos específicos.
Formato de tesauro y estadísticas de frecuencia de palabras Corpus
Cada línea del léxico consta de dos partes, a saber, la palabra y el valor de DF (el número de documentos donde existe esta palabra), y está separado por una pestaña.
Corpus de estadísticas de frecuencia de palabras:
- Tiempo de blog de CSDN: 2014.07-2016.07 Número de documentos: 3785976
- Tiempo de noticias Sina: 2008.01-2016.11 Número de documentos: 8421097
- Número de documento de Sogou Corpus: 729008561
Lista del diccionario
ÉL
- Introducción al vocabulario: este vocabulario contiene una gran cantidad de vocabulario de TI.
- Ejemplos de entrada: copia de seguridad de archivos, dirección virtual, programación de C ++, programación de transacciones, puntos de deflación de conexión fuertes.
- Número de entradas: 16,000
- Corpus de estadísticas de frecuencia de palabras: blog CSDN
- Actualizado: 2016-12-24
- Colaboradores: Ma Yunshan, Han Shiyi, Zhang Yuhui
- Descargar enlace: haga clic aquí para descargar
Finanzas
- Introducción al vocabulario: este vocabulario contiene una gran cantidad de vocabulario financiero.
- Ejemplos de entrada: año, plan de ajuste, adquisición integral, diferencia de precios, contracción.
- Número de entradas: 3830
- Corpus de estadísticas de frecuencia de palabras: Sina News
- Actualizado: 2016-12-24
- Colaboradores: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Descargar enlace: haga clic aquí para descargar
moderno
- Introducción al vocabulario: este vocabulario contiene una gran cantidad de modismos y vocabulario.
- Ejemplos de entrada: fingir ser profundo, razonable y bien fundado, inagotable, las sutiles palabras sutiles, adaptarse a las condiciones locales y buscar talentos tan ansiosos.
- Número de entradas: 8519
- Corpus de estadísticas de frecuencia de palabras: Sina News
- Actualizado: 2016-12-24
- Colaboradores: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Descargar enlace: haga clic aquí para descargar
Topónimo
- Introducción al vocabulario: este vocabulario contiene una gran cantidad de sustantivos de lugar.
- Ejemplos de entrada: Zhejiang, Shanghai, Australia, Mount Everest, condado de Xiangtan, ciudad de Dajia.
- Número de entradas: 44,805
- Corpus de estadísticas de frecuencia de palabras: ingrediente de Sogou
- Actualizado: 2017-06-01
- Colaboradores: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Descargar enlace: haga clic aquí para descargar
Celebridades históricas
- Introducción al vocabulario: este vocabulario contiene una gran cantidad de vocabulario humano histórico.
- Ejemplos de entrada: Lu You, Xun Yu, Zhuge Liang, Sun Quan, Chamberlain.
- Número de entradas: 13658
- Corpus de estadísticas de frecuencia de palabras: Sina News
- Actualizado: 2016-12-24
- Colaboradores: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Descargar enlace: haga clic aquí para descargar
Poesía
- Introducción a la lista de vocabulario: esta lista de vocabulario contiene una gran cantidad de poemas y oraciones famosas.
- Ejemplo de entrada: yendo al siguiente nivel, todavía tiene una pipa que cubre su cara, el camino es largo y arduo, no importa cómo los vientos este, oeste, sur y norte.
- Número de entradas: 13703
- Corpus de estadísticas de frecuencia de palabras: Sina News
- Actualizado: 2017-01-20
- Colaboradores: Zhang Yuhui, Han Shiyi, Ma Yunshan
- Descargar enlace: haga clic aquí para descargar
medicamento
- Introducción al vocabulario: este vocabulario contiene una gran cantidad de vocabulario médico.
- Ejemplos de entrada: paciente, congestión, erupción, cordyceps sinensis.
- Número de entradas: 18749
- Corpus de estadísticas de frecuencia de palabras: Sina News
- Actualizado: 2017-01-20
- Colaboradores: Zhang Yuhui, Han Shiyi, Ma Yunshan
- Descargar enlace: haga clic aquí para descargar
dieta
- Introducción al diccionario: este diccionario contiene la mayoría de los vocabulario dietético.
- Ejemplos de entrada: papas, olla caliente, pasta, fruta, hongo de cabeza de mono.
- Número de entradas: 8974
- Corpus de estadísticas de frecuencia de palabras: ingrediente de Sogou
- Actualizado: 2017-04-20
- Colaboradores: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Descargar enlace: haga clic aquí para descargar
ley
- Introducción al diccionario: este diccionario contiene la mayoría del vocabulario legal.
- Ejemplos de entrada: derechos de autor, departamentos relevantes, compañías de responsabilidad limitada, jueces del Tribunal de Tierras, Sistema Manor japonés.
- Número de entradas: 9896
- Corpus de estadísticas de frecuencia de palabras: ingrediente de Sogou
- Actualizado: 2017-04-28
- Colaboradores: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Descargar enlace: haga clic aquí para descargar
auto
- Introducción al diccionario: este diccionario contiene la mayoría de los vocabulario automotriz.
- Ejemplos de entrada: Sedan, Auto Show, Dongfeng Honda, parabrisas frontal, Sichuan Toyota.
- Número de entradas: 1752
- Corpus de estadísticas de frecuencia de palabras: ingrediente de Sogou
- Actualizado: 2017-05-15
- Colaboradores: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Descargar enlace: haga clic aquí para descargar
animal
- Introducción al diccionario: este diccionario contiene la mayoría de los vocabulario animal.
- Ejemplos de entrada: palomas de transporte, ciervos sika, palomas callejeras, vides cuadradas, palomas bosque manchadas.
- Número de entradas: 17287
- Corpus de estadísticas de frecuencia de palabras: ingrediente de Sogou
- Actualizado: 2017-06-01
- Colaboradores: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Descargar enlace: haga clic aquí para descargar
Protocolo de código abierto
- Thuocl es libre para universidades, institutos de investigación, empresas, instituciones e individuos en el hogar y en el extranjero, y puede usarse para la investigación y los negocios.
- Cualquier comentario y sugerencia valiosos puede proporcionar este conjunto de herramientas. Envíe un correo electrónico a [email protected].
- Si publica un documento u obtiene resultados de investigación científica basados en Thuocl, declare que "el diccionario abierto chino de la Universidad de Tsinghua" se usa al publicar el documento y solicitar los resultados, y cita en el siguiente formato:
中文: 韩世依, 张钰晖, 马云山, 涂存超, 郭志芃, 刘知远, 孙茂松. THUOCL:清华大学开放中文词库. 2016.
英文: Shiyi Han, Yuhui Zhang, Yunshan Ma, Cunchao Tu, Zhipeng Guo, Zhiyuan Liu, Maosong Sun. THUOCL: Tsinghua Open Chinese Lexicon. 2016.
autor
Colaboradores: Shiyi Han (Han Shiyi, estudiante de pregrado en la Universidad de Aeronáutica y Astronautia de Beijing), Yuhui Zhang (Zhang Yuhui, estudiante de pregrado en la Universidad de Tsinghua), Yunshan Ma (Ma Yunshan), Cunchao TU (TU Cunchao, Doctoral Student At Tusinghuinghuinghuinghuinghuinghuen, Zuguetería). (Guo Zhipeng, estudiante de pregrado en la Universidad de Tsinghua).
Instructores: Zhiyuan Liu (Liu Zhiyuan, profesor asistente en la Universidad de Tsinghua), Maosong Sun (Sun, profesor en la Universidad de Tsinghua).