Conjunto de dados de NLP chinês e inglês. Você pode clicar para pesquisar.
Você pode contribuir com seu poder enviando informações do conjunto de dados. Depois de fazer upload de cinco ou mais conjuntos de dados e revisá -los, o aluno pode ser usado como colaborador do projeto e exibi -los.
Kit de ferramentas da Clueai: três minutos e três linhas de código para concluir o desenvolvimento da PNL (aprendizado zero de amostra)

Se houver algum problema com o conjunto de dados, envie um problema.
Todos os conjuntos de dados são da Internet e são organizados apenas para facilitar a extração. Se houver alguma violação ou outros problemas, entre em contato conosco a tempo de excluí -los.
| EU IA | título | Data de atualização | Provedor de dados | licença | ilustrar | Palavras -chave | categoria | Endereço em papel | Observação |
|---|---|---|---|---|---|---|---|---|---|
| 1 | CCKS2017 Caso eletrônico chinês Identificação da entidade | Maio de 2017 | Pequim Jimuyun Health Technology Co., Ltd. | Os dados são provenientes dos dados reais do registro médico eletrônico da plataforma hospitalar em nuvem, com um total de 800 itens (registro de visita única de paciente único) e foi tratado com dessensibilização. | Registro médico eletrônico | Reconhecimento de entidade nomeado | chinês | ||
| 2 | CCKS2018 Caso eletrônico chinês Identificação da entidade | 2018 | Yidu Cloud (Pequim) Technology Co., Ltd. | A tarefa de avaliação do reconhecimento de entidade de nomeação eletrônica de registros médicos do CCKS2018 fornece 600 textos marcados para registros médicos eletrônicos, o que requer um total de cinco entidades, incluindo peças anatômicas, sintomas independentes, descrições de sintomas, cirurgia e medicamentos. | Registro médico eletrônico | Reconhecimento de entidade nomeado | chinês | ||
| 3 | MSRA nomeada Dados de identificação de entidade Conjunto no Microsoft Asia Research Institute | MSRA | Os dados vêm do MSRA, o formulário de rotulagem é biografia e existem 46.365 entradas no total | MSRA | Reconhecimento de entidade nomeado | chinês | |||
| 4 | 1998 Conjunto de anotação de identificação de entidade do conjunto de corpus do povo | Janeiro de 1998 | Pessoas diariamente | A fonte de dados é diária das pessoas em 1998, e o formulário de rotulagem é biografia, com um total de 23.061 entradas. | 98 pessoas diariamente | Reconhecimento de entidade nomeado | chinês | ||
| 5 | Boson | Dados Bosen | A fonte de dados é bóson, o formulário de rotulagem é BMEO e existem 2.000 entradas no total | Boson | Reconhecimento de entidade nomeado | chinês | |||
| 6 | Pista nerd de grão fino | 2020 | DICA | O conjunto de dados Cluener2020 é baseado no conjunto de dados de classificação de texto Thuctc da Universidade Tsinghua, que seleciona alguns dados para anotação de entidade de nomeação de granulação fina. Os dados originais vêm do Sina News RSS. Os dados contêm 10 categorias de etiquetas, o conjunto de treinamento tem um total de 10.748 corpus e o conjunto de verificação possui um total de 1.343 corpus. | Grão fino; Cule | Reconhecimento de entidade nomeado | chinês | ||
| 7 | CONLL-2003 | 2003 | CNTs - Grupo de Tecnologia de Idiomas | Os dados vêm da tarefa Conll-2003, que anota quatro categorias, incluindo Per, Loc, Org e Misc | CONLL-2003 | Reconhecimento de entidade nomeado | papel | Inglês | |
| 8 | Reconhecimento de entidades Weibo | 2015 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | Reconhecimento de entidade nomeado | ||||
| 9 | Sighan Bakeoff 2005 | 2005 | MSR/PKU | Bakeoff-2005 | Reconhecimento de entidade nomeado |
| EU IA | título | Data de atualização | Provedor de dados | licença | ilustrar | Palavras -chave | categoria | Endereço em papel | Observação |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Newsqa | 2019/9/13 | Instituto de Pesquisa da Microsoft | O objetivo do conjunto de dados de Maluuba NewsQA é ajudar as comunidades de pesquisa a criar algoritmos que podem responder a perguntas que exigem habilidades de entendimento e raciocínio no nível humano. Ele contém mais de 12.000 artigos de notícias e 120.000 respostas, com uma média de 616 palavras por artigo e 2 a 3 respostas por pergunta. | Inglês | QA | papel | ||
| 2 | Esquadrão | Stanford | O conjunto de dados de perguntas e respostas de Stanford é um conjunto de dados de compreensão de leitura composto por perguntas levantadas em um conjunto de artigos sobre a Wikipedia, onde a resposta para cada pergunta é um parágrafo de texto, que pode vir do parágrafo de leitura correspondente, ou a pergunta pode ser desgasta. | Inglês | QA | papel | |||
| 3 | Questões simples | Um sistema de perguntas e respostas simples em larga escala baseado em redes de armazenamento, o conjunto de dados fornece uma pergunta e resposta a conjunto de dados de várias tarefas com respostas de 100k para perguntas simples. | Inglês | QA | papel | ||||
| 4 | Wikiqa | 2016/7/14 | Instituto de Pesquisa da Microsoft | Para refletir as necessidades reais de informação dos usuários comuns, o Wikiqa usa os logs do Bing Consulta como a fonte do problema. Cada pergunta se vincula a uma página da Wikipedia que pode ter respostas. Como a seção de resumo da página da Wikipedia fornece informações básicas e muitas vezes mais importantes sobre esse tópico, as frases nesta seção são usadas como respostas do candidato. Com a ajuda do crowdsourcing, o conjunto de dados inclui 3047 perguntas e 29258 frases, das quais 1473 sentenças são marcadas como frases de resposta para a pergunta correspondente. | Inglês | QA | papel | ||
| 5 | cmedqa | 2019/2/25 | Zhang Sheng | Os dados do Fórum Médico Online contêm 54.000 perguntas e as aproximadamente 100.000 respostas correspondentes. | chinês | QA | papel | ||
| 6 | CMEDQA2 | 2019/1/9 | Zhang Sheng | A versão estendida do CMEDQA contém cerca de 100.000 perguntas relacionadas à medicina e correspondentes cerca de 200.000 respostas. | chinês | QA | papel | ||
| 7 | WebMedqa | 2019/3/10 | Ele junqing | Uma pergunta médica on -line e resposta a conjunto de dados contendo 60.000 perguntas e 310.000 respostas e contém as categorias de perguntas. | chinês | QA | papel | ||
| 8 | Xqa | 2019/7/29 | Universidade de Tsinghua | Este artigo constrói principalmente um conjunto de dados de perguntas e respostas de perguntas e respostas abertas para perguntas e respostas abertas. O conjunto de dados (conjunto de treinamento, conjunto de testes) inclui principalmente nove idiomas e mais de 90.000 perguntas e respostas. | Multilíngue | QA | papel | ||
| 9 | Amazonqa | 2019/9/29 | Amazon | A Carnegie Mellon University propôs uma tarefa de modelo de controle de qualidade baseada em comentários em resposta aos pontos problemáticos das respostas repetidas a perguntas da plataforma da Amazon, ou seja, usando perguntas e respostas anteriores para responder a um determinado produto, o sistema de controle de qualidade resumirá automaticamente uma resposta aos clientes. | Inglês | QA | papel | ||
| 9 | Amazonqa | 2019/9/29 | Amazon | A Carnegie Mellon University propôs uma tarefa de modelo de controle de qualidade baseada em comentários em resposta aos pontos problemáticos das respostas repetidas a perguntas da plataforma da Amazon, ou seja, usando perguntas e respostas anteriores para responder a um determinado produto, o sistema de controle de qualidade resumirá automaticamente uma resposta aos clientes. | Inglês | QA | papel |
| EU IA | título | Data de atualização | Provedor de dados | licença | ilustrar | Palavras -chave | categoria | Endereço em papel | Observação |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | Ccf | Weibo corpus, marcado com 7 emoções: como, nojo, felicidade, tristeza, raiva, surpresa, medo. Tamanho: 14 000 posts Weibo, 45 431 frases | NLPCC2013, Emoção | Análise de sentimentos | papel | ||
| 2 | NLPCC2014 Task1 | 2014 | Ccf | Weibo corpus, marcado com 7 emoções: como, nojo, felicidade, tristeza, raiva, surpresa, medo. Tamanho: 20.000 postagens do Weibo | NLPCC2014, Emoção | Análise de sentimentos | |||
| 3 | NLPCC2014 Task2 | 2014 | Ccf | Weibo corpus marcado com positivo e negativo | NLPCC2014, Sentimento | Análise de sentimentos | |||
| 4 | Weibo Emotion Corpus | 2016 | A Universidade Politécnica de Hong Kong | Weibo corpus, marcado com 7 emoções: como, nojo, felicidade, tristeza, raiva, surpresa, medo. Tamanho: mais de 40.000 postagens do Weibo | Weibo Emotion Corpus | Análise de sentimentos | Emoção Corpus Construction com base na seleção de rótulos naturais barulhentos | ||
| 5 | [RENCECPS] (Fuji Ren pode ser contatado ([email protected]) para um contrato de licença.) | 2009 | Fuji Ren | O corpus do blog anotado marcado com emoção e sentimento no nível do documento, nível de parágrafo e nível de sentença. Ele contém 1500 blogs, 11000 parágrafos e 35000 frases. | Rencecps, emoção, sentimento | Análise de sentimentos | Construção de um corpus de emoção de blog para análise de expressão emocional chinesa | ||
| 6 | weibo_senti_100k | Desconhecido | Desconhecido | Marque o Sina Weibo com emoção, e existem cerca de 50.000 comentários positivos e negativos cada | Weibo Senti, sentimento | Análise de sentimentos | |||
| 7 | BDCI2018-AUTOMOBILE INDUSTRITY OPINIONS E RECOBONCECIMENTO EMOCIONAL | 2018 | Ccf | Comentários sobre carros no fórum automotivo marcam os temas da poesia do carro: potência, preço, interior, configuração, segurança, aparência, manuseio, consumo de combustível, espaço e conforto. Cada tópico é marcado com rótulos emocionais e as emoções são divididas em 3 categorias, com os números 0, 1 e -1 representando respectivamente neutro, positivo e negativo. | ANÁLISE DE ANÁLISE DE ANÁLISE DE SENTIMENTO DE ANÁLISE | Análise de sentimentos | |||
| 8 | Análise de sentimentos de comentários de granulação fina de granulação fino da AI Challenger | 2o18 | Meituan | Revisões de catering, 6 atributos de primeiro nível, 20 atributos de segundo nível, cada atributo é marcado como positivo, negativo, neutro e não mencionado. | Atributo Análise de sentimentos | Análise de sentimentos | |||
| 9 | BDCI2019 Informações financeiras negativas e determinação do assunto | 2019 | Banco Central | Notícias de campo financeiro, cada amostra identifica a lista de entidades, bem como a lista de entidades negativas. A tarefa é determinar se uma amostra é negativa e a entidade negativa correspondente. | Análise de sentimentos de entidade | Análise de sentimentos | |||
| 10 | Revisão do comércio eletrônico da Copa Zhijiang | 2019 | Laboratório Zhijiang | A tarefa de explorar as opiniões das revisões de marcas é extrair características de atributos do produto e opiniões do consumidor das análises de produtos e confirmar sua polaridade emocional e tipos de atributos. Para um determinado recurso de atributo de um produto, há uma série de palavras de opinião que o descrevem, que representam as visualizações dos consumidores sobre o recurso de atributo. Cada conjunto de {características do atributo do produto, opinião do consumidor} possui polaridade emocional correspondente (negativa, neutra, positiva), representando a satisfação do consumidor com esse atributo. Além disso, vários recursos de atributo podem ser classificados em um determinado tipo de atributo, como aparência, caixa e outros recursos de atributo, podem ser classificados no tipo de atributo de embalagem. As equipes participantes eventualmente enviarão as informações de previsão extraídas dos dados do teste, incluindo quatro campos: Palavra característica de atributo, palavra de opinião, polaridade de opinião e tipo de atributo. | Atributo Análise de sentimentos | Análise de sentimentos | |||
| 11 | 2019 Sohu Campus Algorithm Competition | 2019 | Sohu | Dados vários artigos, o objetivo é julgar a entidade central do artigo e sua atitude emocional em relação à entidade central. Cada artigo identifica até três entidades principais e determina as tendências emocionais do artigo para as entidades principais acima (positivas, neutras e negativas). Entidade: Pessoas, objetos, regiões, instituições, grupos, empresas, indústrias, certos eventos específicos etc. são fixos e podem ser usados como palavra de entidade para o assunto do artigo. Entidade central: a palavra da entidade que descreve ou atua principalmente como o principal papel do artigo. | Análise de sentimentos de entidade | Análise de sentimentos |
| EU IA | título | Data de atualização | Provedor de dados | licença | ilustrar | Palavras -chave | categoria | Endereço em papel | Observação |
|---|---|---|---|---|---|---|---|---|---|
| 1 | [2018 "Daguan Cup" Text Intelligent Processing Challenge] (https://www.pkbigdata.com/common/cmpt/ "Daguan Cup" Challenge de processamento inteligente de texto e data.html) | Julho de 2018 | Dados otimistas | O conjunto de dados vem de dados otimistas e é uma tarefa de classificação de texto longa. Inclui principalmente quatro campos: ID, artigo, Word_seg e Class. Os dados contêm 19 categorias, totalizando 102.275 amostras. | Texto longo; dessensibilização | Classificação de texto | chinês | ||
| 2 | Categoria de notícias chinesas (texto) da manchete de hoje | Maio de 2018 | As manchetes de hoje | O conjunto de dados vem de Toutiao hoje e é uma tarefa de classificação de texto curta. Os dados contêm 15 categorias, totalizando 382.688 amostras. | texto curto; notícias | Classificação de texto | chinês | ||
| 3 | THUCNews Classificação de texto chinês | 2016 | Universidade de Tsinghua | O THUCNEWS é gerado com base na filtragem histórica de dados e filtragem do canal de assinatura RSS do SINA News entre 2005 e 2011, e está tudo no formato de texto simples do UTF-8. Com base no sistema original de classificação de notícias do Sina, reintegramos e dividimos 14 categorias de classificação de candidatos: finanças, loteria, imóveis, ações, casa, educação, tecnologia, sociedade, moda, assuntos atuais, esportes, sinais de zodíaco, jogos e entretenimento, com um total de 740.000 documentos de notícias (2,19 GB) | Documentação; Notícias | Classificação de texto | chinês | ||
| 4 | Classificação de texto chinesa da Universidade Fudan | Grupo de Processamento de Linguagem Natural, Departamento de Informação e Tecnologia de Computador, Universidade Fudan, International Database Center | O conjunto de dados é da Universidade Fudan e é uma tarefa de classificação de texto curta. Os dados contêm 20 categorias, com um total de 9.804 documentos. | Documentação; Notícias | Classificação de texto | chinês | |||
| 5 | Título de notícias Classificação de texto curto | Dezembro de 2019 | Chenfengshf | Compartilhamento de domínio público CC0 | O conjunto de dados é derivado da plataforma KESCI e é uma tarefa de classificação de texto curta para o campo do título de notícias. A maior parte do conteúdo é título de texto curto (comprimento <50), os dados contêm 15 categorias, um total de 38w amostras | Texto curto; título de notícias | Classificação de texto | chinês | |
| 6 | 2017 Zhihu Kanshan Cup Machine Learning Challenge | Junho de 2017 | Sociedade de Inteligência Artificial Chinesa; Zhihu | O conjunto de dados vem de Zhihu, que é anotado dados para a relação de ligação entre a pergunta e as tags de tópico. Cada pergunta tem 1 ou mais tags, com um total de 1.999 tags, contendo um total de 3 milhões de perguntas. | Pergunta; texto curto | Classificação de texto | chinês | ||
| 7 | 2019 Zhijiang Cup - Competição de mineração de opinião de revisão de comércio eletrônico | Agosto de 2019 | Laboratório Zhijiang | A tarefa de explorar as opiniões das revisões de marcas é extrair características de atributos do produto e opiniões do consumidor das análises de produtos e confirmar sua polaridade emocional e tipos de atributos. Para um determinado recurso de atributo de um produto, há uma série de palavras de opinião que o descrevem, que representam as visualizações dos consumidores sobre o recurso de atributo. Cada grupo de {características do atributo do produto, opinião do consumidor} possui polaridade emocional correspondente (negativa, neutra, positiva), que representa o grau de satisfação dos consumidores com esse atributo. | Comentários; texto curto | Classificação de texto | chinês | ||
| 8 | Classificação de texto longo iflytek ' | iflytek | Esse conjunto de dados possui mais de 17.000 dados rotulados por texto longo sobre as descrições de aplicativos de aplicativos, incluindo vários tópicos de aplicativos relacionados à vida cotidiana, com um total de 119 categorias | Texto longo | Classificação de texto | chinês | |||
| 9 | Dados de classificação de notícias em toda a rede (SOGOUCA) | 16 de agosto de 2012 | SOGOU | Esses dados são provenientes de dados de notícias de 18 canais, incluindo doméstico, internacional, esportes, social, entretenimento etc. de junho a julho de 2012 de 2012. | notícias | Classificação de texto | chinês | ||
| 10 | Sohu News Data (SOGOUCS) | Agosto de 2012 | SOGOU | A fonte de dados é o Sohu News de 18 canais, incluindo doméstico, internacional, esportes, social, entretenimento etc. de junho a julho de 2012. | notícias | Classificação de texto | chinês | ||
| 11 | Corpo de classificação de notícias da Universidade de Ciência e Tecnologia | Novembro de 2017 | Instituto de Automação Liu Yu, Academia Chinesa de Ciências Centro de Informações Abrangentes | Não posso baixar por enquanto, entrei em contato com o autor, esperando o feedback | notícias | ||||
| 12 | CHNSENTICORP_HTL_ALL | Março de 2018 | https://github.com/sophonplus/chinesenlpcorpus | Mais de 7000 dados de revisão de hotéis, mais de 5000 críticas positivas, mais de 2000 críticas negativas | |||||
| 13 | waimai_10k | Março de 2018 | https://github.com/sophonplus/chinesenlpcorpus | As análises de usuários coletadas por uma determinada plataforma de take -away são 4.000 positivas e cerca de 8.000 negativos. | |||||
| 14 | online_shopping_10_cats | Março de 2018 | https://github.com/sophonplus/chinesenlpcorpus | Existem 10 categorias, com um total de mais de 60.000 comentários e cerca de 30.000 comentários positivos e negativos, incluindo livros, tablets, telefones celulares, frutas, shampoo, aquecedor de água, mengniu, roupas, computadores, hotéis | |||||
| 15 | weibo_senti_100k | Março de 2018 | https://github.com/sophonplus/chinesenlpcorpus | Mais de 100.000 peças, marcadas com emoção em Sina Weibo, e cerca de 50.000 comentários positivos e negativos são cada um | |||||
| 16 | simplifyweibo_4_moods | Março de 2018 | https://github.com/sophonplus/chinesenlpcorpus | Mais de 360.000 peças, marcadas com emoções em Sina Weibo, contém 4 tipos de emoções, incluindo cerca de 200.000 peças de alegria, cerca de 50.000 peças de raiva, nojo e depressão. | |||||
| 17 | dmsc_v2 | Março de 2018 | https://github.com/sophonplus/chinesenlpcorpus | 28 filmes, mais de 700.000 usuários, mais de 2 milhões de classificações/comentários | |||||
| 18 | yf_dianping | Março de 2018 | https://github.com/sophonplus/chinesenlpcorpus | 240.000 restaurantes, 540.000 usuários, 4,4 milhões de comentários/dados de classificação | |||||
| 19 | yf_amazon | Março de 2018 | https://github.com/sophonplus/chinesenlpcorpus | 520.000 itens, mais de 1.100 categorias, 1,42 milhão de usuários, 7,2 milhões de comentários/dados de classificação |
| EU IA | título | Data de atualização | Provedor de dados | licença | ilustrar | Palavras -chave | categoria | Endereço em papel | Observação |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | Harbin Institute of Technology (Shenzhen) Centro de Pesquisa de Computação Inteligente | Creative Commons Attribution 4.0 Licença Internacional | Este conjunto de dados contém 260.068 pares de perguntas chinesas de vários campos. A frase em pares com a mesma intenção de investigação é marcada como 1, caso contrário, são 0; E eles são segmentados no conjunto de treinamento: 238.766 pares, conjunto de validação: 8802 pares, conjunto de testes: 12.500 pares. | Correspondência de perguntas em larga escala; Combinação de intenção | Correspondência de texto curto; correspondência de perguntas | papel | |
| 2 | O corpus BQ | 2018/9/4 | Instituto de Tecnologia Harbin (Shenzhen) Centro de Pesquisa de Computação Inteligente; Webank | Existem 120.000 pares de frases neste conjunto de dados, do registro de serviços de consultoria do banco por um ano; Os pares de frases contêm intenções diferentes, marcadas com uma proporção de amostras positivas e negativas 1: 1. | Perguntas do serviço bancário; Combinação de intenção | Correspondência de texto curto; Detecção de consistência da pergunta | papel | ||
| 3 | Similaridade semântica financeira AFQMC | 2018/4/25 | Ant Financial | Forneça 100.000 pares de dados rotulados (atualizados em lotes, atualizados) como dados de treinamento, incluindo pares sinônimos e pares diferentes | Questões financeiras | Correspondência de texto curto; correspondência de perguntas | |||
| 4 | A terceira competição de "Magic Mirror Cup" da Paipaidai | 2018/6/10 | Instituto de Pesquisa Financeira Smart Paipaidai | O arquivo Train.CSV contém 3 colunas, a saber, o rótulo (rótulo, o que significa se a pergunta 1 e a pergunta 2 significam o mesmo, 1 significa o mesmo e 0 significa a diferença), o número da pergunta 1 (Q1) e o número da pergunta 2 (Q2). Todos os números de problemas que aparecem neste arquivo apareceram em questão.csv | Produtos financeiros | Correspondência de texto curto; correspondência de perguntas | |||
| 5 | CAIL2019 Concurso de correspondência de casos semelhante | 2019/6 | Universidade de Tsinghua; Rede de documentos de julgamento da China | Para cada dados, trigêmeos (a, b, c) são usados para representar os dados, onde A, B, C todos correspondem a um determinado documento. A semelhança entre os dados do documento A e B é sempre maior que a semelhança entre A e B, ou seja, sim (a, b)> sim (a, c) | Documentos legais; casos semelhantes | Correspondência de texto longo | |||
| 6 | CCKS 2018 Webank Intelligent Atendimento ao cliente Concurso de correspondência | 2018/4/5 | Instituto de Tecnologia Harbin (Shenzhen) Centro de Pesquisa de Computação Inteligente; Webank | Perguntas do serviço bancário; Combinação de intenção | Correspondência de texto curto; correspondência de perguntas | ||||
| 7 | ChineseTextualInference | 2018/12/15 | Liu Huanyong, Instituto de Pesquisa de Software, Academia Chinesa de Ciências | Projeto de inferência de texto chinês, incluindo a tradução e construção de 880.000 conjuntos de dados contendo texto em texto que contêm texto e a construção do modelo de julgamento contendo texto com base em aprendizado profundo | NLI chinês | Inferência de texto chinês; inclusão de texto | |||
| 8 | NLPCC-DBQA | 2016/2017/2018 | NLPCC | Dada a pergunta - a marca da resposta e se essa resposta é uma das respostas para a pergunta, 1 significa que sim, 0 significa não | Dbqa | Perguntas e respostas | |||
| 9 | Modelo de cálculo para a correlação entre "requisitos técnicos" e "conquistas técnicas" projetos | 201/8/32 | Ccf | Os requisitos técnicos e as realizações técnicas em um determinado formulário de texto, bem como o rótulo de correlação entre requisitos e resultados; A correlação entre requisitos técnicos e realizações técnicas é dividida em quatro níveis: forte correlação, forte correlação, correlação fraca e sem correlação | Texto longo; Os requisitos correspondem aos resultados | Correspondência de texto longo | |||
| 10 | CNSD/CLUE-CMNLI | 2019/12 | Zengjunjun | Conjunto de dados de inferência de linguagem natural chinesa, esses dados e o conjunto de dados ingleses originais são gerados por tradução e parte da correção manual, que pode aliviar o problema da inferência de linguagem natural e insuficiente da linguagem natural e dos conjuntos de dados de cálculo de similaridade semânticos. | NLI chinês | Inferência de linguagem natural chinesa | papel | ||
| 11 | cmedqa v1.0 | 2017/4/5 | Xunyao Xunyi.com e a Escola de Sistemas de Informação e Gerenciamento da Tecnologia Nacional da Universidade de Defesa | O conjunto de dados é a pergunta e as respostas feitas no site Xunyi Xunpharma. O conjunto de dados foi processado anonimamente e fornece 50.000 perguntas e 94.134 respostas no conjunto de treinamento, com um número médio de caracteres por pergunta e respostas sendo 120 e 212, respectivamente; O conjunto de verificação tem 2.000 perguntas e 3.774 respostas, com um número médio de caracteres por pergunta e respostas sendo 117 e 212, respectivamente; O conjunto de testes tem 2.000 perguntas e 3.835 respostas, com um número médio de caracteres por pergunta e resposta sendo 119 e 211, respectivamente; O conjunto de dados possui 54.000 perguntas e 101.743 respostas, com um número médio de caracteres por pergunta e resposta sendo 119 e 212, respectivamente; | Perguntas e respostas médicas | Perguntas e respostas | papel | ||
| 12 | CMEDQA2 | 2018/11/8 | Xunyao Xunyi.com e a Escola de Sistemas de Informação e Gerenciamento da Tecnologia Nacional da Universidade de Defesa | A fonte desse conjunto de dados são as perguntas e respostas feitas no site Xunyi Xunpharma. O conjunto de dados foi processado anonimamente e fornece uma coleção de 100.000 perguntas e 188.490 respostas no conjunto de treinamento, com um número médio de caracteres por pergunta e respostas sendo 48 e 101, respectivamente; O conjunto de verificação tem 4.000 perguntas e 7.527 respostas, com um número médio de caracteres por pergunta e resposta sendo 49 e 101, respectivamente; O conjunto de testes tem 4.000 perguntas e 7.552 respostas, com um número médio de caracteres por pergunta e resposta sendo 49 e 100, respectivamente; O número total de caracteres por pergunta e resposta sendo 108.000 perguntas e 203.569 respostas, com um número médio de caracteres por pergunta e resposta sendo 49 e 101, respectivamente; | Perguntas e respostas médicas | Perguntas e respostas | papel | ||
| 13 | Chinesests | 2017/9/21 | Tang Shancheng, Bai Yunyue, Ma Fuyu. Universidade de Ciência e Tecnologia XI'an | Este conjunto de dados fornece 12747 pares de conjuntos de dados semelhantes chineses. Após o conjunto de dados, os autores fornecem suas pontuações de similaridade e o corpus é composto por frases curtas. | Combinação de similaridade de frase curta | Correspondência de similaridade | |||
| 14 | Conjunto de dados da concorrência de medição de similaridade de questões médicas realizada pela China Health Information Processing Conference | 2018 | Chip 2018-A 4ª Conferência de Processamento de Informações sobre Saúde da China (CHIP) | O principal objetivo desta tarefa de avaliação é corresponder à intenção de frases de perguntas com base no corpus de consulta de saúde dos pacientes chineses reais. Dadas duas declarações, é necessário determinar se as intenções dos dois são iguais ou semelhantes. Todo o corpus vem de questões reais de pacientes na internet e foi rastreado e rótulos de correspondência de intenções artificiais. O conjunto de dados foi dessensibilizado e o problema é marcado pelo conjunto de treinamento de indicação digital contém cerca de 20.000 dados marcados (dessensibilizados, incluindo marcas de pontuação), e o conjunto de testes contém cerca de 10.000 dados sem rótulo (dessensibilizados, incluindo marcas de pontuação> Símbolos). | Combinação de similaridade para problemas médicos | Correspondência de similaridade | |||
| 15 | COS960: Um conjunto de dados de similaridade de palavras chinês de 960 pares de palavras | 2019/6/6 | Universidade de Tsinghua | O conjunto de dados contém 960 pares de palavras e cada par é medido por 15 falantes nativos por escores de similaridade. Os 960 pares de palavras são divididos em três grupos de acordo com o rótulo, incluindo 480 pares de substantivos, 240 pares de verbos e 240 pares de adjetivos. | Similaridade entre palavras | Sinônimos | papel | ||
| 16 | Oppo Mobile Search Classificar o conjunto de dados de correspondência semântica do título de consulta. (https://pan.baidu.com/s/1hg2hubsn3geuu4gubbhczw senha 7p3n) | 2018/11/6 | OPPO | Esse conjunto de dados vem do cenário de pesquisa em tempo real da Oppo Mobile Poiting Search Otimization. Esse cenário retorna a consulta resulta em tempo real à medida que o usuário entra continuamente. Esse conjunto de dados foi simplificado de acordo com essa base, fornecendo uma correspondência semântica de título de consulta, ou seja, o problema da previsão da CTR. | Pergunta Matching Title, Previsão CTR | Correspondência de similaridade | |||
| 17 | Avaliação dos resultados da pesquisa na web (SOGOUE) | 2012 | SOGOU | Contrato de licença de dados do laboratório SOGOU | Esse conjunto de dados contém termos de consulta, URLs relacionados e dados de pesquisa para categorias de consulta. O formato é o seguinte: Termos de consulta] Trelated URLS TQUERY Categoria em que os URLs são garantidos no corpus da Internet correspondente; "1" na categoria de consulta representa uma consulta de navegação; "2" representa uma consulta de informação. | Avaliação automática de desempenho do mecanismo de pesquisa com análise de dados de cliques | Previsão de correspondência do tipo de consulta |
| EU IA | título | Data de atualização | Provedor de dados | licença | ilustrar | Palavras -chave | categoria | Endereço em papel | Observação |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCSTS | 2015/8/6 | Qingcai Chen | O conjunto de dados é de Sina Weibo e contém cerca de dois milhões de textos curtos chineses reais. Cada dados inclui dois campos, resumo e texto anotado pelo autor. Existem 10.666 dados marcados manualmente a correlação entre o texto curto e o resumo, e as correlações são aumentadas de 1 para 5. | Resumo do texto único; texto curto; relevância do texto | Resumo do texto | papel | ||
| 2 | Conjunto de resumo de texto curto chinês | 2018/6/20 | Ele Zhengfang | Os dados vêm do Weibo publicado pela Sina Weibo Mainstream Media, com um total de 679.898 dados. | Resumo do texto único; texto curto | Resumo do texto | |||
| 3 | Educação e treinamento do setor abstrato abstrato abstrato corpus chinês | 2018/6/5 | anônimo | O corpus coleta artigos históricos da grande mídia vertical na indústria de educação e treinamento, com cerca de 24.500 dados, cada peça de dados, incluindo dois campos anotados pelo autor e pelo corpo. | Resumo do texto único; educação e treinamento | Resumo do texto | |||
| 4 | NLPCC2017 Task3 | 2017/11/8 | NLPCC2017 Organizador | O conjunto de dados é derivado do campo de notícias e é um dados de tarefas fornecido pelo NLPCC 2017 e pode ser usado para resumo de texto único. | Resumo do texto único; notícias | Resumo do texto | |||
| 5 | Shence Cup 2018 | 2018/10/11 | Organizador do concurso de DC | Os dados são provenientes de texto de notícias e são fornecidos pelo organizador da concorrência da DC. Ele simula cenários de negócios e tem como objetivo extrair palavras principais dos textos de notícias. O resultado final é melhorar o efeito das recomendações e retratos do usuário. | Palavras -chave de texto; notícias | Resumo do texto | |||
| 6 | Byte Cup 2018 Competição Internacional de Aprendizado de Máquinas | 2018/12/4 | Bytedance | Os dados vêm dos artigos de Bytedance e abertos de direitos autorais. O conjunto de treinamento inclui cerca de 1,3 milhão de informações de texto, 1.000 artigos no conjunto de verificação e 800 artigos no conjunto de testes. Os dados para cada conjunto de testes e conjunto de validação são rotulados manualmente com vários títulos possíveis como alternativa de resposta por meio de edição manual. | Resumo do texto único; vídeo; notícias | Resumo do texto | Inglês | ||
| 7 | Notícia | 2018/6/1 | Grusky | Os dados foram obtidos a partir de metadados sociais e de pesquisa de 1998 a 2017 e usaram uma combinação de estratégias abstratas que combinam extração e abstração, incluindo 1,3 milhão de artigos e resumos escritos pelo autor e editor em 38 principais departamentos editoriais de publicação. | Resumo do texto único; metadados sociais; procurar | Resumo do texto | papel | Inglês | |
| 8 | [DUC/TAC] (https://duc.nist.gov/ https://tac.nist.gov//) | 2014/9/9 | Nist | O nome completo é o documento que entende conferências/análise de análise de texto. O conjunto de dados é derivado de linhas de notícias e textos da Web no corpus usado na competição anual TAC KBP (População da Base de Conhecimento TAC). | Resumo de texto único/multi-texto; notícias | Resumo do texto | Inglês | ||
| 9 | CNN/Daily Mail | 2017/7/31 | Standford | GNU v3 | O conjunto de dados é da CNN e DailyMail em telefones celulares cerca de um milhão de dados de notícias como um corpus de compreensão de leitura de máquinas. | Resumo de vários textos; texto longo; notícias | Resumo do texto | papel | Inglês |
| 10 | Amazon Snap Review | 2013/3/1 | Standford | Os dados são provenientes de análises de compras no site da Amazon e você pode obter dados em cada categoria principal (como alimentos, filmes etc.) ou você pode obter todos os dados de uma só vez. | Resumo de vários textos; Revisões de compras | Resumo do texto | Inglês | ||
| 11 | Gigaword | 2003/28 | David Graff, Christopher Cieri | O conjunto de dados inclui cerca de 950.000 artigos de notícias, que são abstraídos pelo título do artigo e pertencem ao conjunto de dados de resumo de sentenças únicas. | Resumo do texto único; notícias | Resumo do texto | Inglês | ||
| 12 | Ra-mds | 2017/9/11 | Piji Li | O nome completo é o resumo de multi-documentos com reconhecimento de leitor. O conjunto de dados é derivado de artigos de notícias e é coletado, marcado e revisado por especialistas. 45 tópicos são abordados, cada um com 10 documentos de notícias e 4 resumo do modelo, cada documento de notícias contém uma média de 27 frases e uma média de 25 palavras por frase. | Resumo de vários textos; notícias; rotulagem manual | Resumo do texto | papel | Inglês | |
| 13 | Tipster Summac | 2003/5/21 | A MITRE Corporation e a Universidade de Edimburgo | Os dados consistem em 183 documentos marcados pela coleção de computação e idioma (CMP-LG), e os documentos são retirados de artigos publicados pela conferência da ACL. | Resumo de vários textos; texto longo | Resumo do texto | Inglês | ||
| 14 | WikiHow | 2018/10/18 | Mahnaz Koupaee | Cada dados é um artigo, cada artigo consiste em vários parágrafos, cada parágrafo começa com uma frase que a resume. Ao mesclar parágrafos para formar artigos e parágrafos para formar resumos, a versão final do conjunto de dados contém mais de 200.000 pares de sequência longa. | Resumo de vários textos; texto longo | Resumo do texto | papel | Inglês | |
| 15 | Multi-News | 2019/12/4 | Alex Fabbri | Os dados são de artigos de entrada de mais de 1500 sites diferentes e resumo profissional de 56.216 desses artigos obtidos no site Newsser.com. | Resumo de vários textos | Resumo do texto | papel | Inglês | |
| 16 | Resumos Med | 2018/8/17 | D.Potapov | O conjunto de dados é usado para avaliação dinâmica de resumo de vídeo e contém anotações para 160 vídeos, incluindo 60 conjuntos de validação, 100 conjuntos de testes e 10 categorias de eventos no conjunto de testes. | Resumo do texto único; Comentários em vídeo | Resumo do texto | papel | Inglês | |
| 17 | Bigpatent | 2019/7/27 | Sharma | O conjunto de dados inclui 1,3 milhão de registros de documentos de patentes dos EUA e resumos abstratos por escrito humano que contêm estruturas de discurso mais ricas e entidades mais usadas. | Resumo do texto único; patente; escrito | Resumo do texto | papel | Inglês | |
| 18 | [Nyt] (https://catalog.ldc.upenn.edu/ldc2008t19) | 2008/10/17 | Evan Sandhaus | O nome completo é o New York Times, o conjunto de dados contém 150 artigos comerciais do New York Times e captura todos os artigos no site do New York Times de novembro de 2009 a janeiro de 2010. | Resumo do texto único; Artigo de negócios | Resumo do texto | Inglês | ||
| 19 | O Corpus Aquaint de Texto de Notícias em Inglês | 2002/9/26 | David Graff | O conjunto de dados consiste em dados de texto em inglês da Xinhua News Agency (República Popular da China), Serviço de Notícias do New York Times e Serviço de Notícias Mundiais da Associated World, e contém aproximadamente 375 milhões de palavras. Cobranças de conjunto de dados. | Resumo do texto único; notícias | Resumo do texto | Chinês e inglês | ||
| 20 | Conjunto de dados de relatórios de casos legais | 2012/10/19 | Filippo Galgani | O conjunto de dados vem dos casos legais australianos do Tribunal Federal da Austrália (FCA) de 2006 a 2009 e contém aproximadamente 4.000 casos legais e seu resumo. | Resumo do texto único; caso legal | Resumo do texto | Inglês | ||
| vinte e um | 17 linhas do tempo | 2015/5/29 | GB Tran | Os dados são de conteúdo extraído das páginas da web de artigos de notícias, incluindo notícias de quatro países: Egito, Líbia, Iêmen e Síria. | Resumo do texto único; notícias | Resumo do texto | papel | Multilíngue | |
| vinte e dois | PTS corpus | 2018/10/9 | FEI Sun. | O nome completo é o corpus de resumo do título do produto, os dados exibem o resumo dos nomes de produtos em aplicativos de comércio eletrônico para dispositivos móveis | Resumo do texto único; texto curto | Resumo do texto | papel | ||
| vinte e três | Conjuntos de dados de resumo científico | 2019/10/26 | Santosh Gupta | O conjunto de dados foi retirado do semântico Scholar Corpus e Arxiv. Par de título/abstrato do semântico Scholar Corpus, filtrando todos os trabalhos no campo da biomédica e contém 5,8 milhões de dados. Dados do ARXIV, contendo pares de título/abstração de cada artigo de 1991 a 5 de julho de 2019. O conjunto de dados contém 10 mil dados financeiros, 26k de biologia, 417k de matemática, 1,57 milhão de física e 221k de CS. | Resumo do texto único; papel | Resumo do texto | Inglês | ||
| vinte e quatro | Corpus de resumo de documentos científicos e anotações do Wing NUS Group | 2019/3/19 | Jaidka | O conjunto de dados inclui trabalhos de pesquisa sobre lingüística computacional do LCA e processamento de linguagem natural, bem como seus respectivos trabalhos citados e três resumos de saída: um resumo de artigo de um autor tradicional (resumo), um resumo da comunidade (uma coleção de citações "citações") e um resumo humano escrito por um anotador treinado, e o conjunto de treinamento contém 40 artigos e artigos citados. | Resumo do texto único; papel | Resumo do texto | papel | Inglês |
| EU IA | título | Data de atualização | Provedor de dados | licença | ilustrar | Palavras -chave | categoria | Endereço em papel | Observação |
|---|---|---|---|---|---|---|---|---|---|
| 1 | WMT2017 | 2017/2/1 | Workshop do EMNLP 2017 sobre tradução da máquina | Os dados provêm principalmente das duas instituições Europarl Corpus e ONU Corpus, e vem com artigos reextraídos da tarefa de comentários do News em 2017. Este é um corpus de tradução fornecido pela conferência EMNLP, como uma referência para muitos efeitos em papel para detectar | Benchmark, WMT2017 | Materiais de tradução chinesa-inglês | papel | ||
| 2 | WMT2018 | 2018/11/1 | Workshop do EMNLP 2018 sobre tradução da máquina | Os dados provêm principalmente das duas instituições Europarl Corpus e ONU Corpus, e vem com artigos re-extraídos da tarefa de comentários de notícias em 2018. Este é um corpus de tradução fornecido pela conferência EMNLP, como uma referência para muitos efeitos em papel para detectar | Benchmark, WMT2018 | Materiais de tradução chinesa-inglês | papel | ||
| 3 | WMT2019 | 2019/1/31 | Workshop do EMNLP 2019 sobre tradução da máquina | Os dados provêm principalmente das duas instituições de Europarl Corpus e ONU Corpus, bem como os dados obtidos do corpus conceitual e do corpus Paracrawl anexado | Benchmark, WMT2019 | 中英翻译语料 | papel | ||
| 4 | UM-Corpus:A Large English-Chinese Parallel Corpus | 2014/5/26 | Department of Computer and Information Science, University of Macau, Macau | 由澳门大学发布的中英文对照的高质量翻译语料 | UM-Corpus;English; Chinese;large | 中英翻译语料 | papel | ||
| 5 | [Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf) | 2017/8/14 | 创新工场、搜狗和今日头条联合发起的AI科技竞赛 | 规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句验证集(同声传译):934 句验证集(文本翻译):8000 句 | AI challenger 2017 | 中英翻译语料 | |||
| 6 | MultiUN | 2010 | Department of Linguistics and Philology Uppsala University, Uppsala/Sweden | 该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别的语言之间的翻译对照语料供下载 | MultiUN | 中英翻译语料 | MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010 | ||
| 7 | NIST 2002 Open Machine Translation (OpenMT) Evaluation | 2010/5/14 | NIST Multimodal Information Group | LDC User Agreement for Non-Members | 数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符 | NIST | 中英翻译语料 | papel | 该系列有多年的数据, 该数据使用需要付费 |
| 8 | The Multitarget TED Talks Task (MTTT) | 2018 | Kevin Duh, JUH | 该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言 | TED | 中英翻译语料 | The Multitarget TED Talks Task | ||
| 9 | ASPEC Chinese-Japanese | 2019 | Workshop on Asian Translation | 该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等) | Asian scientific patent Japanese | 中日翻译语料 | http://lotus.kuee.kyoto-u.ac.jp/WAT/ | ||
| 10 | casia2015 | 2015 | research group in Institute of Automation , Chinese Academy of Sciences | 语料库包含从网络自动收集的大约一百万个句子对 | casia CWMT 2015 | 中英翻译语料 | |||
| 11 | casict2011 | 2011 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含2个部分,每个部分包含从网络自动收集的大约1百万(总计2百万)个句子对。 句子级别的对齐精度约为90%。 | casict CWMT 2011 | 中英翻译语料 | |||
| 12 | casict2015 | 2015 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含大约200万个句子对,包括从网络(60%), 电影字幕(20%)和英语/汉语词库(20%)收集的句子。 句子水平对齐精度高于99%。 | casict CWMT 2015 | 中英翻译语料 | |||
| 13 | datum2015 | 2015 | Datum Data Co., Ltd. | 语料库包含一百万对句子,涵盖不同类型, 例如用于语言教育的教科书,双语书籍, 技术文档,双语新闻,政府白皮书, 政府文档,网络上的双语资源等。 请注意,数据中文部分的某些部分是按词段划分的。 | datum CWMT 2015 | 中英翻译语料 | |||
| 14 | datum2017 | 2017 | Datum Data Co., Ltd. | 语料库包含20个文件,涵盖不同类型,例如新闻,对话,法律文件,小说等。 每个文件有50,000个句子。 整个语料库包含一百万个句子。 前10个文件(Book1-Book10)的中文词均已分段。 | datum CWMT 2017 | 中英翻译语料 | |||
| 15 | neu2017 | 2017 | NLP lab of Northeastern University, China | 语料库包含从网络自动收集的200万个句子对,包括新闻,技术文档等。 句子级别的对齐精度约为90%。 | neu CWMT 2017 | 中英翻译语料 | |||
| 16 | 翻译语料(translation2019zh) | 2019 | 徐亮 | 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作; |
| EU IA | título | 更新日期 | 数据集提供者 | licença | ilustrar | Palavras -chave | categoria | Endereço em papel | Observação |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博关注关系语料库100万条 | 2017/12/2 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id |
| EU IA | título | 更新日期 | 数据集提供者 | licença | ilustrar | Palavras -chave | categoria | Endereço em papel | Observação |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博内容语料库-23万条 | Dezembro de 2017 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博内容语料库说明1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的23万条数据(目前已有数据接近1000万,已经剔除了大量的冗余数据)。 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 文章编号article 正文discuss 评论数目insertTime 正文插入时间origin 来源person_id 所属人物的id time 正文发布时间transmit 转发 | |||||
| 2 | 500万微博语料 | Janeiro de 2018 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | 【500万微博语料】北理工搜索挖掘实验室主任@ICTCLAS张华平博士提供500万微博语料供大家使用,文件为sql文件,只能导入mysql数据库,内含建表语句,共500万数据。语料只适用于科研教学用途,不得作为商用;引用本语料库,请在软件或者论文等成果特定位置表明出处。 【看起来这份数据比上面那一份要杂糅一些,没有做过处理】 | |||||
| 3 | NLPIR新闻语料库-2400万字 | Julho de 2017 | www.NLPIR.org | NLPIR新闻语料库说明1.解压缩后数据量为48MB,大约2400万字的新闻; 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息); 4.新闻本身内容的版权属于原作者或者新闻机构; 5.整理后的语料库版权属于www.NLPIR.org; 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景; 如需更大规模的语料库,可以联系NLPIR.org管理员。 | |||||
| 4 | NLPIR微博关注关系语料库100万条 | Dezembro de 2017 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id | |||||
| 5 | NLPIR微博博主语料库100万条 | Setembro de 2017 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博博主语料库说明1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的100万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝) 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 内部id sex 性别address 家庭住址fansNum 粉丝数目summary 个人摘要wbNum 微博数量gzNum 关注数量blog 博客地址edu 教育情况work 工作情况renZh 是否认证brithday 生日; | |||||
| 6 | NLPIR短文本语料库-40万字 | Agosto de 2017 | 北京理工大学网络搜索挖掘与安全实验室(SMS@BIT) | NLPIR短文本语料库说明1.解压缩后数据量为48万字,大约8704篇短文本内容; 2.整理后的语料库版权属于www.NLPIR.org; 3.可供短文本自然语言处理、搜索、舆情分析等应用提供测试数据场景; | |||||
| 7 | 维基百科语料库 | Wikipedia | 维基百科会定期打包发布语料库 | ||||||
| 8 | 古诗词数据库 | 2020 | github主爬虫,http://shici.store | ||||||
| 9 | 保险行业语料库 | 2017年 | 该语料库包含从网站Insurance Library 收集的问题和答案。 据我们所知,这是保险领域首个开放的QA语料库: 该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料,而不是玩具。 在上述论文中,语料库用于答复选择任务。 另一方面,这种语料库的其他用法也是可能的。 例如,通过阅读理解答案,观察学习等自主学习,使系统能够最终拿出自己的看不见的问题的答案。 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来,未经其他处理的。问答对语料是基于问答语料,又做了分词和去标去停,添加label。所以,"问答对语料"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对"问答语料"使用其他方法进行处理,获得可以用于训练模型的数据。 | ||||||
| 10 | 汉语拆字字典 | 1905年7月 | 本倉庫含開放詞典網用以提供字旁和部件查詢的拆字字典數據庫,有便利使用者查難打漢字等用途。目前數據庫收錄17,803不同漢字的拆法,分為繁體字(chaizi-ft.txt)和簡體字(chaizi-jt.txt)兩個版本。 拆字法有別於固有的筆順字庫。拆字著重於儘量把每個字拆成兩個以上的組成部件,而不是拆成手寫字時所使用的筆畫。 | ||||||
| 11 | 新闻预料 | 2016 | 徐亮 | 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。 | |||||
| 12 | 百科类问答json版(baike2018qa) | 2018 | 徐亮 | 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 | |||||
| 13 | 社区问答json版(webtext2019zh) :大规模高质量数据集 | 2019年 | 徐亮 | 1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。 3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、 问题与答案的相关性,找到最好的答案。 4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。 | |||||
| 14 | .维基百科json版(wiki2019zh) | 2019年 | 徐亮 | 可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。【不同于wiki原始释放的数据集,这个处理过了】 |
| EU IA | título | 更新日期 | 数据集提供者 | licença | ilustrar | Palavras -chave | categoria | Endereço em papel | Observação |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 百度WebQA | 2016 | Baidu | 来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索 | 阅读理解、百度知道真实问题 | 中文阅读理解 | papel | ||
| 2 | DuReader 1.0 | 2018/3/1 | Baidu | Apache2.0 | 本次竞赛数据集来自搜索引擎真实应用场景,其中的问题为百度搜索用户的真实问题,每个问题对应5个候选文档文本及人工整理的优质答案。 | 阅读理解、百度搜索真实问题 | 中文阅读理解 | papel | |
| 3 | SogouQA | 2018 | 搜狗 | CIPS-SOGOU问答比赛数据;来自于搜狗搜索引擎真实用户提交的查询请求;含有事实类与非事实类数据 | 阅读理解、搜狗搜索引擎真实问题 | 中文阅读理解 | |||
| 4 | 中文法律阅读理解数据集CJRC | 2019/8/17 | 哈工大讯飞联合实验室(HFL) | 数据集包含约10,000篇文档,主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容,针对事实描述内容标注问题,最终形成约50,000个问答对 | 阅读理解、中文法律领域 | 中文阅读理解 | papel | ||
| 5 | 2019“讯飞杯”中文机器阅读理解数据集(CMRC ) | Outubro de 2019 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 本次阅读理解的任务是句子级填空型阅读理解。 根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。 | 句子级填空型阅读理解 | 中文阅读理解 | 赛事官网:https://hfl-rc.github.io/cmrc2019/ | |
| 6 | 2018“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2018/10/19 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | CMRC 2018数据集包含了约20,000个在维基百科文本上人工标注的问题。同时,我们还标注了一个挑战集,其中包含了需要多句推理才能够正确解答的问题,更富有挑战性 | 阅读理解、基于篇章片段抽取 | 中文阅读理解 | papel | 赛事官网:https://hfl-rc.github.io/cmrc2018/ |
| 7 | 2017“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2017/10/14 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 首个中文填空型阅读理解数据集PD&CFT | 填空型阅读理解 | 中文阅读理解 | papel | 赛事官网 |
| 8 | 莱斯杯:全国第二届“军事智能机器阅读”挑战赛 | 2019/9/3 | 中电莱斯信息系统有限公司 | 面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。 | 多文档机器阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 9 | ReCO | 2020 | 搜狗 | 来源于搜狗的浏览器用户输入;有多选和直接答案 | 阅读理解、搜狗搜索 | 中文阅读理解 | papel | ||
| 10 | DuReader-checklist | 2021/3 | Baidu | Apache-2.0 | 建立了细粒度的、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化“时代 | 细粒度阅读理解 | 中文阅读理解 | 赛事官网 | |
| 11 | DuReader-Robust | 2020/8 | Baidu | Apache-2.0 | 从过敏感性,过稳定性以及泛化性多个维度构建了测试阅读理解鲁棒性的数据 | 百度搜索、鲁棒性阅读理解 | 中文阅读理解 | papel | 赛事官网 |
| 12 | DuReader-YesNo | 2020/8 | Baidu | Apache-2.0 | DuReader yesno是一个以观点极性判断为目标任务的数据集,可以弥补抽取类数据集评测指标的缺陷,从而更好地评价模型对观点极性的理解能力。 | 观点型阅读理解 | 中文阅读理解 | 赛事官网 | |
| 13 | DuReader2.0 | 2021 | Baidu | Apache-2.0 | DuReader2.0是全新的大规模中文阅读理解数据,来源于用户真实输入,真实场景 | Compreensão de leitura | 中文阅读理解 | papel | 赛事官网 |
| 14 | CAIL2020 | 2020 | 哈工大讯飞联合实验室(HFL) | 中文司法阅读理解任务,今年我们将提出升级版,不仅文书种类由民事、刑事扩展为民事、刑事、行政,问题类型也由单步预测扩展为多步推理,难度有所升级。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 15 | CAIL2021 | 2021 | 哈工大讯飞联合实验室(HFL) | 中文法律阅读理解比赛引入多片段回答的问题类型,即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入,能够扩大中文机器阅读理解的场景适用性。本次比赛依旧保留单片段、是否类和拒答类的问题类型。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 16 | CoQA | 2018/9 | 斯坦福大学 | CC BY-SA 4.0、Apache等 | CoQA是面向建立对话式问答系统的大型数据集,挑战的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低 | 对话问答 | 英文阅读理解 | papel | 官方网站 |
| 17 | SQuAD2.0 | 2018/1/11 | 斯坦福大学 | 行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本—— 以及,现在在SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答 | 问答、包含未知答案 | 英文阅读理解 | papel | ||
| 18 | SQuAD1.0 | 2016 | 斯坦福大学 | 斯坦福大学于2016年推出的阅读理解数据集,给定一篇文章和相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,一共有107,785问题,以及配套的536 篇文章 | 问答、基于篇章片段抽取 | 英文阅读理解 | papel | ||
| 19 | MCTest | 2013 | 微软 | 100,000个必应Bing问题和人工生成的答案。从那时起,相继发布了1,000,000个问题数据集,自然语言生成数据集,段落排名数据集,关键词提取数据集,爬网数据集和会话搜索。 | 问答、搜索 | 英文阅读理解 | papel | ||
| 20 | CNN/Dailymail | 2015 | DeepMind | Apache-2.0 | 填空型大规模英文机器理解数据集,答案是原文中的某一个词。 CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。 Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。 | 问答对、填空型阅读理解 | 英文阅读理解 | papel | |
| vinte e um | CORRIDA | 2017 | 卡耐基梅隆大学 | / | 数据集为中国中学生英语阅读理解题目,给定一篇文章和5 道4 选1 的题目,包括了28000+ passages 和100,000 问题。 | 选择题形式 | 英文阅读理解 | papel | 下载需邮件申请 |
| vinte e dois | HEAD-QA | 2019 | aghie | MIT | 一个面向复杂推理的医疗保健、多选问答数据集。提供英语、西班牙语两种形式的数据 | 医疗领域、选择题形式 | 英文阅读理解西班牙语阅读理解 | papel | |
| vinte e três | Consensus Attention-based Neural Networks for Chinese Reading Comprehension | 2018 | 哈工大讯飞联合实验室 | / | 中文完形填空型阅读理解 | 填空型阅读理解 | 中文阅读理解 | papel | |
| vinte e quatro | WikiQA | 2015 | 微软 | / | WikiQA语料库是一个新的公开的问题和句子对集,收集并注释用于开放域问答研究 | 片段抽取阅读理解 | 英文阅读理解 | papel | |
| 25 | Children's Book Test (CBT) | 2016 | / | 测试语言模型如何在儿童书籍中捕捉意义。与标准语言建模基准不同,它将预测句法功能词的任务与预测语义内容更丰富的低频词的任务区分开来 | 填空型阅读理解 | 英文阅读理解 | papel | ||
| 26 | NewsQA | 2017 | Maluuba Research | / | 一个具有挑战性的机器理解数据集,包含超过100000个人工生成的问答对,根据CNN的10000多篇新闻文章提供问题和答案,答案由相应文章的文本跨度组成。 | 片段抽取阅读理解 | 英文阅读理解 | papel | |
| 27 | Frames dataset | 2017 | 微软 | / | 介绍了一个由1369个人类对话组成的框架数据集,平均每个对话15轮。开发这个数据集是为了研究记忆在目标导向对话系统中的作用。 | 阅读理解、对话 | 英文阅读理解 | papel | |
| 28 | Quasar | 2017 | 卡内基梅隆大学 | BSD-2-Clause | 提出了两个大规模数据集。Quasar-S数据集由37000个完形填空式查询组成,这些查询是根据流行网站Stack overflow 上的软件实体标记的定义构造的。网站上的帖子和评论是回答完形填空问题的背景语料库。Quasar-T数据集包含43000个开放域琐事问题及其从各种互联网来源获得的答案。 | 片段抽取阅读理解 | 英文阅读理解 | papel | |
| 29 | MS MARCO | 2018 | 微软 | / | 微软基于搜索引擎BING 构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。MARCO 数据集中的问题全部来自于BING 的搜索日志,根据用户在BING 中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。 | 多文档 | 英文阅读理解 | papel | |
| 30 | 中文完形填空 | 2016 | 崔一鸣 | 首个中文填空型阅读理解数据集PD&CFT, 全称People Daily and Children's Fairy Tale, 数据来源于人民日报和儿童故事。 | 填空型阅读理解 | 中文完形填空 | papel | ||
| 31 | NLPCC ICCPOL2016 | 2016.12.2 | NLPCC主办方 | 基于文档中的句子人工合成14659个问题,包括14K中文篇章。 | 问答对阅读理解 | 中文阅读理解 |
感谢以下同学的贡献(排名不分先后)
郑少棉、李明磊、李露、叶琛、薛司悦、章锦川、李小昌、李俊毅
Você pode contribuir com seu poder enviando informações do conjunto de dados. Depois de fazer upload de cinco ou mais conjuntos de dados e revisá -los, o aluno pode ser usado como colaborador do projeto e exibi -los.
Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,
or join QQ group: 836811304