Thuocl
Índice
- Introdução ao dicionário
- Formato de Thesaurus e Corpus de Estatística de Frequência de Palavras
- Lista do dicionário
- Protocolo de código aberto
- autor
Introdução ao dicionário
O Thuocl (THU Open Chinese Lexicon) é um vocabulário chinês de alta qualidade compilado e lançado pelo Laboratório de Computação de Processamento e Humanidades Sociais da Linguagem Natural da Universidade de Tsinghua. A lista de vocabulário vem de tags sociais, pesquisas de palavras quentes, vocabulário do método de entrada, etc. dos sites convencionais. Thuocl tem as seguintes características:
Inclui valor DF (frequência do documento) para opções personalizadas do usuário.
O vocabulário passou por várias rodadas de triagem manual para garantir a precisão da inclusão do vocabulário.
As atualizações abertas continuarão a atualizar as listas de vocabulário existentes e lançar mais listas de vocabulário de categoria. Os profissionais podem se juntar e colaborar na construção de um dicionário aberto. As pessoas interessadas podem escrever para [email protected].
Este dicionário de sinônimos pode ser usado para segmentação automática de palavras em chinês para melhorar o efeito da segmentação de palavras em chinês. Recomenda -se usá -lo com o Thulac Toolkit desenvolvido por esse grupo para melhorar a eficácia da segmentação de palavras chinesa em campos específicos.
Formato de Thesaurus e Corpus de Estatística de Frequência de Palavras
Cada linha do léxico consiste em duas partes, a saber, a palavra e o valor DF (o número de documentos onde essa palavra existe) e é separado por uma guia.
Corpus de estatísticas de frequência de palavras:
- CSDN Blog Horário: 2014.07-2016.07 Número de documentos: 3785976
- Time de notícias do Sina: 2008.01-2016.11 Número de documentos: 8421097
- Sogou Corpus Número do documento: 729008561
Lista do dicionário
ISTO
- Introdução ao vocabulário: esse vocabulário contém um grande número de vocabulário.
- Exemplos de entrada: backup de arquivo, endereço virtual, programação C ++, agendamento de transações, fortes pontos de deflação de conexão.
- Número de entradas: 16.000
- Corpus de estatísticas de frequência de palavras: blog CSDN
- Atualizado: 2016-12-24
- Colaboradores: Ma Yunshan, Han Shiyi, Zhang Yuhui
- Download Link: Clique aqui para baixar
Financiar
- Introdução ao vocabulário: Este vocabulário contém um grande número de vocabulário financeiro.
- Exemplos de entrada: ano, plano de ajuste, aquisição abrangente, diferença de preço, encolhimento.
- Número de entradas: 3830
- Estatísticas de frequência de palavras corpus: sina notícias
- Atualizado: 2016-12-24
- Colaboradores: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Download Link: Clique aqui para baixar
idioma
- Introdução ao vocabulário: este vocabulário contém um grande número de expressões idiomáticas e vocabulário.
- Exemplos de entrada: fingindo ser profunda, razoável e bem fundamentada, inesgotável, as palavras sutis das pessoas, se adaptar às condições locais e buscar talentos tão ansiosos.
- Número de entradas: 8519
- Estatísticas de frequência de palavras corpus: sina notícias
- Atualizado: 2016-12-24
- Colaboradores: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Download Link: Clique aqui para baixar
Nome do local
- Introdução ao vocabulário: este vocabulário contém um grande número de substantivos de lugar.
- Exemplos de entrada: Zhejiang, Xangai, Austrália, Mount Everest, Condado de Xiangtan, cidade de Dajia.
- Número de entradas: 44.805
- Corpus de estatística de frequência de palavras: ingrediente do SOGOU
- Atualizado: 2017-06-01
- Colaboradores: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Download Link: Clique aqui para baixar
Celebridades históricas
- Introdução ao vocabulário: Este vocabulário contém um grande número de vocabulário humano histórico.
- Exemplos de entrada: Lu você, Xun Yu, Zhuge Liang, Sun Quan, Chamberlain.
- Número de entradas: 13658
- Estatísticas de frequência de palavras corpus: sina notícias
- Atualizado: 2016-12-24
- Colaboradores: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Download Link: Clique aqui para baixar
Poesia
- Introdução à lista de vocabulário: Esta lista de vocabulário contém um grande número de poemas e frases famosas.
- Exemplo de entrada: indo para o próximo nível, você ainda tem um PIPA cobrindo seu rosto, a estrada é longa e árdua, não importa quão ventos para o leste, oeste, sul e norte.
- Número de entradas: 13703
- Estatísticas de frequência de palavras corpus: sina notícias
- Atualizado: 2017-01-20
- Colaboradores: Zhang Yuhui, Han Shiyi, Ma Yunshan
- Download Link: Clique aqui para baixar
medicamento
- Introdução ao vocabulário: este vocabulário contém um grande número de vocabulário médico.
- Exemplos de entrada: paciente, congestionamento, erupção cutânea, cordyceps sinensis.
- Número de entradas: 18749
- Estatísticas de frequência de palavras corpus: sina notícias
- Atualizado: 2017-01-20
- Colaboradores: Zhang Yuhui, Han Shiyi, Ma Yunshan
- Download Link: Clique aqui para baixar
dieta
- Introdução ao Dicionário: Este dicionário contém a maioria dos vocabulários alimentares.
- Exemplos de entrada: batatas, panela quente, macarrão, frutas, cogumelos de cabeça de macaco.
- Número de entradas: 8974
- Corpus de estatística de frequência de palavras: ingrediente do SOGOU
- Atualizado: 2017-04-20
- Colaboradores: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Download Link: Clique aqui para baixar
lei
- Introdução ao Dicionário: Este dicionário contém o vocabulário mais legal.
- Exemplos de inscrição: direitos autorais, departamentos relevantes, empresas de responsabilidade limitada, juízes do Tribunal Land, sistema de mansão japonesa.
- Número de entradas: 9896
- Corpus de estatística de frequência de palavras: ingrediente do SOGOU
- Atualizado: 2017-04-28
- Colaboradores: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Download Link: Clique aqui para baixar
carro
- Introdução ao Dicionário: Este dicionário contém a maioria dos vocabulários automotivos.
- Exemplos de entrada: Sedan, Auto Show, Dongfeng Honda, pára -brisa frontal, Sichuan Toyota.
- Número de entradas: 1752
- Corpus de estatística de frequência de palavras: ingrediente do SOGOU
- Atualizado: 2017-05-15
- Colaboradores: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Download Link: Clique aqui para baixar
animal
- Introdução ao Dicionário: Este dicionário contém a maioria dos vocabulários animais.
- Exemplos de entrada: pombos transportadores, cervos sika, pombos da rua, videiras quadradas, pombos da floresta manchada.
- Número de entradas: 17287
- Corpus de estatística de frequência de palavras: ingrediente do SOGOU
- Atualizado: 2017-06-01
- Colaboradores: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Download Link: Clique aqui para baixar
Protocolo de código aberto
- O Thuocl é gratuito para universidades nacionais e estrangeiras, institutos de pesquisa, empresas, instituições e indivíduos e pode ser usado para pesquisa e negócios.
- Quaisquer comentários e sugestões valiosos são bem -vindos para fornecer este kit de ferramentas. Envie um e -mail para [email protected].
- Se você publicar um artigo ou obter resultados de pesquisas científicas com base em Thuocl, declare que "o dicionário aberto da Universidade de Tsinghua" é usado ao publicar o artigo e se candidatar aos resultados e citar no formato a seguir:
中文: 韩世依, 张钰晖, 马云山, 涂存超, 郭志芃, 刘知远, 孙茂松. THUOCL:清华大学开放中文词库. 2016.
英文: Shiyi Han, Yuhui Zhang, Yunshan Ma, Cunchao Tu, Zhipeng Guo, Zhiyuan Liu, Maosong Sun. THUOCL: Tsinghua Open Chinese Lexicon. 2016.
autor
Contributors: Shiyi Han (Han Shiyi, undergraduate student at Beijing University of Aeronautics and Astronautics), Yuhui Zhang (Zhang Yuhui, undergraduate student at Tsinghua University), Yunshan Ma (Ma Yunshan), Cunchao Tu (Tu Cunchao, doctoral student at Tsinghua University), Zhipeng Guo (Guo Zhipeng, estudante de graduação da Universidade de Tsinghua).
Instrutores: Zhiyuan Liu (Liu Zhiyuan, professor assistente da Universidade de Tsinghua), Maosong Sun (Sun, professor da Universidade de Tsinghua).