Recurso incrível para NLP
Nova atualização: rede de cápsulas, detecção de sarcasmo
Índice
- Índice
- Bibliotecas
- Matemática Essesntial
- Dicionário
- Léxico
- Análise
- Discurso
- Modelo de idioma
- Detecção de sarcasmo
- Tradução da máquina
- Geração de texto
- Classificação de texto
- Resumo do texto
- Sentimento
- INCLIMENTOS DE PALAVRAS/DOCUMENTO
- Representação de palavras
- Resposta da pergunta
- Extração de informações
- Inferência de linguagem natural
- Redes de cápsulas
- Senso comum
- Outro
- Contribuir
Bibliotecas úteis
- A palestra de Numpy Stanford CS231N lida com Numpy, o que é fundamental nos cálculos de aprendizado de máquina.
- NLTK É um conjunto de bibliotecas e programas para processamento de linguagem natural simbólica e estatística
- Tensorflow Um tutorial fornecido pelo TensorFlow. Dá grandes explicações sobre o básico com auxílios visuais. Útil em PN de profundo
- Pytorch Um tutorial incrível sobre Pytorch fornecido pelo Facebook com ótima qualidade.
- TENSOR2TENSOR TO KIT DE FERRAMENTA DE SEQUÊNCIA pelo Google Escrito no TensorFlow.
- Fairseq Sequence to Sequence Tool Kit pelo Facebook escrito em Pytorch.
- Abraçar os transformadores de rosto uma biblioteca baseada no transformador fornecido por um rosto abraçado que permite fácil acesso a modelos pré-treinados. Uma das principais bibliotecas da PNL não apenas para desenvolvedores, mas também pesquisadores.
- Abraçando os tokenizadores de rosto Uma biblioteca simbólica que o rosto abraçando mantém. Ele aumenta as operações rápidas à medida que as principais funções são escritas em ferrugem. Os últimos tokenizadores como o BPE podem ser experimentados com os tokenizadores de rosto abraçados.
- Spacy Um tutorial escrito por Ines, o principal desenvolvedor do Notworking Spacy.
- Torchtext Um tutorial sobre a TorchText, um pacote que torna os dados pré -processamento à mão. Tem mais detalhes do que a documentação oficial.
- A biblioteca de código aberto do Google do Google que cria vocabulário baseado em BPE usando informações de subglema.
- Biblioteca Gensim Python para modelagem de tópicos, indexação de documentos e recuperação de similaridade com grandes corpora.
- Poliglota Um pipeline de linguagem natural que suporta aplicações multilíngues maciças.
- O TextBlob fornece API simples para mergulhar em tarefas comuns de processamento de linguagem natural (PNL), como marcação de parte de fala, extração de frase substantiva, análise de sentimentos, classificação, tradução, integração do WordNet, análise, inflexão de palavras
- Quypy Uma estrutura Python para transformar questões de linguagem natural em consultas em uma linguagem de consulta de banco de dados.
- Módulo de mineração da web padrão para Python, com ferramentas para raspagem, processamento de linguagem natural, aprendizado de máquina, análise de rede e visualização
Matemática Essencial
- Estatísticas e probabilidades
- Estatística 110 Uma palestra sobre probabilidade que pode ser facilmente compreendida pelos principais estudantes que não engenharia.
- As estatísticas de Brandon Foltz, as palestras de probabilidade e estatísticas de Brandon Foltz são publicadas no YouTube e são bastante curtas, para que possa ser facilmente acessado durante o trajeto diário.
- Álgebra linear
- Algebra Linear Awesome Palestra do Professor Gilbert Strang.
- Essência da palestra algébrica linear linear no canal do youtube 3blue1brown
- Básico
- Livro de Matemática para Machine Learning sobre todo o conhecimento matemático acompanhado de aprendizado de máquina.
- Essência da Palestra de Cálculo Cálculo pelo canal 3Blue1Brown mencionado acima, útil para aqueles que desejam uma visão geral do cálculo da mesma forma.
Dicionário
- Dicionário bilíngue
- CC-CEDICT Um dicionário bilíngue entre inglês e chinês.
- Dicionário de pronúncia
- CMUDIT O DICIONÁRIO DE PRONOCIMENTO DA UNIVERSIDADE DE CARNEGIE MELLON é um dicionário de pronúncia legível por máquina de código aberto para o inglês norte-americano que contém mais de 134.000 palavras e suas pronúncias.
Léxico
- PDEV DICIONÁRIO DE PADRÃO PDEV de verbos em inglês.
- Verbnet Um léxico que agrupa os verbos com base em seu comportamento semântico/sintático de vinculação.
- FRAMENET Um léxico baseado na semântica da estrutura.
- WordNet Um léxico que descreve relacionamentos semânticos (como sinonímia e hiperonimia) entre palavras individuais.
- Propbank Um corpus de um milhão de palavras de texto em inglês, anotado com rótulos de função de argumento para verbos; e um léxico definindo esses papéis de argumento por verbo.
- O NOMBANK A DATASET marca os conjuntos de argumentos que cooccur com substantivos no Corpus do Propbank (The Wall Street Journal Corpus do Penn Treebank), assim como o Propbank registra essas informações para verbos.
- Semlink Um projeto cujo objetivo é vincular diferentes recursos lexicais por meio do conjunto de mapeamentos. (Verbnet, propbank, FreMenet, WordNet)
- O FRAMESTER FRAMESTER é um cubo entre Framenet, WordNet, Verbnet, Babelnet, DBpedia, Yago, Dolce-Zero, além de outros recursos. O Framester não cria simplesmente um gráfico de conhecimento fortemente conectado, mas também aplica um tratamento formal rigoroso para a semântica da estrutura de Fillmore, permitindo a consulta de coruja completa e o raciocínio no gráfico de conhecimento baseado em quadros conjuntos criados.
Análise
- PTB O Penn Treebank (PTB).
- Dependências universais dependências universais (UD) é uma estrutura para anotação gramatical de cross-linguisticamente consistente e um esforço aberto da comunidade, com mais de 200 colaboradores produzindo mais de 100 bancos de árvores em mais de 60 idiomas.
- O TweeBank TweeBank V2 é uma coleção de tweets em inglês anotados em dependências universais que podem ser exploradas para o treinamento de sistemas de PNL para melhorar seu desempenho nos textos de mídia social.
- Semeval-2016 Tarefa 9 Semeval-2016 Tarefa 9 (análise de dependência semântica chinesa) conjuntos de dados.
Discurso
- PDTB2.0 PDTB, versão 2.0. Anota as relações 40600 do discurso, distribuídas nos cinco tipos a seguir: explícito, implícito, etc.
- PDTB3.0 Na versão 3, foram incluídos 13.000 tokens adicionais, certas anotações em pares foram padronizadas, novos sentidos foram incluídos e o corpus estava sujeito a uma série de verificações de consistência.
- Relações de discurso implícito anotado de retro-translação Este recurso contém instâncias de relação de discurso implícito anotado. Essas frases são anotadas automaticamente pela translação de corpora paralela.
- DiscurSechineSetedTalks Este conjunto de dados inclui anotação para 16 palestras do TED em chinês.
Modelo de idioma
- PTB Penn Treebank Corpus na versão LM.
- DataSet de palavras do Google Bilhão de palavras 1 bilhão de palavras de modelagem de idiomas.
- Wikitext O conjunto de dados de modelagem de idiomas Wikitext é uma coleção de mais de 100 milhões de tokens extraídos do conjunto de artigos verificados e destaque na Wikipedia. Comparado à versão pré-processada do Penn Treebank (PTB), o Wikitext-2 é mais duas vezes maior e o Wikitext-103 é mais de 110 vezes maior.
Detecção de sarcasmo
- O detector de sarcasmo contextual em cascata (Cascade) adota uma abordagem híbrida da modelagem orientada por conteúdo e contexto para detecção de sarcasmo em discussões on-line de mídia social. Além disso, eles usaram extratores de recursos baseados em conteúdo, como redes neurais convolucionais
- Uma visão mais profunda dos tweets sarcásticos usando profundas redes neurais convolucionais International Journal of Advanced Research in Computer Engineering & Technology, volume 6, edição 1, janeiro de 2017. Eles propõem um sistema automatizado para detecção de sarcasmo no Twitter usando recursos relacionados ao sentimento
- Rede Neural Adaptiva Recursiva Adandn (ADARNN) para classificação de sentimento do Twitter dependente do alvo. Propaga adaptivamente os sentimentos das palavras para segmentar, dependendo do contexto e das relações sintáticas entre eles
- Detectar o sarcasmo com o artigo de médio porte de redes neurais convolucionais profundas. Propor-se primeiro treinar um modelo de sentimento (baseado em uma CNN) para aprender a extração de recursos específicos do sentimento. O modelo aprende recursos locais em camadas mais baixas que são convertidas em recursos globais nas camadas mais altas.
Tradução da máquina
- Europarl O corpus paralelo europarl é extraído dos procedimentos do Parlamento Europeu. It includes versions in 21 European languages: Romanic (French, Italian, Spanish, Portuguese, Romanian), Germanic (English, Dutch, German, Danish, Swedish), Slavik (Bulgarian, Czech, Polish, Slovak, Slovene), Finni-Ugric (Finnish, Hungarian, Estonian), Baltic (Latvian, Lithuanian), and Greek.
- UNCORPUS As Nações Unidas Parallel Corpus v1.0 são compostas por registros oficiais e outros documentos parlamentares das Nações Unidas que são de domínio público.
- CWMT Os dados ZH-EN coletados e compartilhados pela Workshop da China sobre a Comunidade de Tradução da Máquina (CWMT). Existem três tipos de dados para a tradução da máquina chinesa-inglesa: texto monolíngue chinês, texto paralelo em inglês-inglês, texto de referência múltipla.
- Dados de treinamento de modelos de idioma monolíngue do WMT, como o rastreamento comum notícias rastreadas em cs de en fi ro ru tr e dados paralelos.
- Opus Opus é uma coleção crescente de textos traduzidos da web. No projeto Opus, tentamos converter e alinhar dados on -line gratuitos, adicionar anotação linguística e fornecer à comunidade um corpus paralelo disponível ao público.
Geração de texto
- Artigo automático da Tencent comentando um conjunto de dados chinês em larga escala com milhões de comentários reais e um subconjunto de anotamento humano que caracteriza a qualidade variável dos comentários. Esse conjunto de dados consiste em cerca de 200 mil artigos de notícias e 4,5 milhões de comentários humanos, juntamente com meta -dados ricos para categorias de artigos e votos do usuário dos comentários.
- Resumo
- Bigpatent Um conjunto de dados de resumo consiste em 1,3 milhão de registros de documentos de patentes dos EUA, juntamente com resumos abstratos escritos por escrito.
- Dados para texto
- Pessoa da Wikipedia e conjunto de dados de animais Este conjunto de dados reúne 428.748 pessoas e 12.236 Animal InfoBox com descrição com base no Wikipedia Dump (2018/04/01) e Wikidata (2018/04/12).
- Wikibio Este conjunto de dados reúne 728.321 biografias da Wikipedia. O objetivo é avaliar os algoritmos de geração de texto. Para cada artigo, ele fornece o primeiro parágrafo e o InfoBox (ambos tokenizados).
- Rotowire Este conjunto de dados consiste em resumos de jogos de basquete da NBA (escritos humanos) alinhados com as correntes de caixa e linhas correspondentes.
- Detalhes da MLB em geração de dados para texto com modelagem de entidades, ACL 2019
Classificação de texto
- 20NewsGroups O conjunto de dados de 20 grupos de notícias é uma coleção de aproximadamente 20.000 documentos do grupo de notícias, particionados (quase) uniformemente em 20 grupos de notícias diferentes.
- O Corpus of News Artigos da AG é uma coleção de mais de 1 milhão de artigos de notícias.
- Yahoo-Answers-Topic-Classification Este corpus contém 4.483.032 perguntas e suas respostas correspondentes do Yahoo! Serviço de respostas.
- Google-snippets Este conjunto de dados contém os resultados da pesquisa da Web relacionados a 8 domínios diferentes, como negócios, computadores e engenharia.
- BenchmarkingZoShot Este repositório contém o código e os dados para o documento EMNLP2019 "Benchmarking Zero-Shot Text Classificação: conjuntos de dados, avaliação e abordagem de interrupção".
Resumo do texto
- Resumo do texto com Gensim A implementação de Gensim é baseada no popular algoritmo "TexTrank"
- Resumo de texto não supervisionado Artigo incrível descrevendo a resumo de texto usando a Sentença incorporada
- Melhorando a abstração no resumo de texto, propondo duas técnicas para melhorias
- Resumo e categorização de texto mais relacionados a dados científicos e relacionados à saúde
- Resumo do texto com tensorflow. Um estudo básico sobre resumo de texto de 2016
Sentimento
- MPQA 3.0 Este corpus contém artigos de notícias e outros documentos de texto anotados manualmente para opiniões e outros estados privados (ou seja, crenças, emoções, sentimentos, especulações etc.). As principais alterações nesta versão do MPQA Corpus são as adições de novas anotações ETARGET (entidade/evento).
- SentiWordNet SentiWordNet é um recurso lexical para mineração de opinião. O SentiWordNet atribui a cada synset da WordNet três pontuações de sentimento: positividade, negatividade, objetividade.
- LEXICON DA ASSOCIAÇÃO DE EMOTION NRC O léxico da Emoção do NRC é uma lista de palavras em inglês e suas associações com oito emoções básicas (raiva, medo, antecipação, confiança, surpresa, tristeza, alegria e nojo) e dois sentimentos (negativos e positivos).
- Stanford Sentiment Treebank SST é o conjunto de dados do artigo: modelos profundos recursivos para composicionalidade semântica sobre um sentimento de Richard Swocher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher Manning, Andrew Ng e Christopher Potts Conference sobre métodos empíricos no processamento de linguagem natural (EMNLP 2013)
- Semeval-2013 Twitter Semeval 2013 DataSet do Twitter, que contém anotação de sentimentos no nível da frase.
- Sentiod Sentiod é um conjunto de dados para a tarefa de análise de sentimento baseada em aspectos direcionados, que contém 5215 frases. Sentiod: conjunto de dados de análise de sentimentos baseados em aspectos direcionados para bairros urbanos, Coling 2016 .
- Semeval-2014 Tarefa 4 Esta tarefa está preocupada com a análise de sentimentos baseada em aspectos (ABA). Dois conjuntos de dados específicos de domínio para laptops e restaurantes, consistindo em mais de 6 mil frases com anotações humanas no nível de aspecto de granulação fina para treinamento.
INCLIMENTOS DE PALAVRAS/DOCUMENTO
- As melhores incorporações atuais de palavras/frases universais. Ele codifica palavras e frases em vetores densos de comprimento fixo para melhorar drasticamente o processamento de dados textuais.
- Documentar a incorporação com os vetores do parágrafo 2015. do Google.
- Demoção de demonstração de incorporação de palavras de luva de como usar as incorporações de palavras da luva
- FastText uma biblioteca para aprender a incorporações de palavras e classificação de texto criada pelo laboratório de pesquisa de IA (FAIL) do Facebook com muitos modelos pré -gravados
- Classificação de texto com implementação prática do Word2vec sobre como fazer a classificação de texto com o Word2vec usando luva
- Documentar a incorporação Introdução ao básico e importância das incorporações de documentos
- De incorporações de palavras para documentar as distâncias intoduz a distância do Word Mover (WMD) que mede a dissimilaridade entre dois documentos de texto como a quantidade mínima de distância que as palavras incorporadas de um documento precisam "viajar" para alcançar as palavras incorporadas de outro documento.
- Tutorial do DOC2VEC sobre o conjunto de dados Lee
- Incorporações de palavras em python com spacy e gensim
- O ilustrado Bert, Elmo e co. (Como o aprendizado de transferência rachado da PNL). Dezembro de 2018.
- Palavras contextualizadas profundas representam. Elmo. Implementação de Pytorch. Implementação de TF
- Ajuste fino para classificação de texto. Código de implementação.
- Aprendizagem supervisionada de representações universais de sentenças a partir de dados de inferência de linguagem natural. Mostra como as representações universais de frases treinadas usando os dados supervisionados
- Aprendido na tradução: vetores de palavras contextualizados. Cove usa um codificador LSTM profundo de um modelo de sequência para sequência atencional treinado para tradução da máquina (MT) para contextualizar vetores de palavras
- Representações distribuídas de frases e documentos. Vetores de parágrafos. Veja o tutorial do DOC2VEC em Gensim
- Sense2vec. Um método rápido e preciso para a desambiguação do senso de palavras em incorporação de palavras neurais
- Pule vetores de pensamento. Um modelo de codificador-decodificador que tenta reconstruir as frases circundantes de uma passagem codificada
- Sequência para seqüência de aprendizado com redes neurais. Ele usa um LSTM multicamada para mapear a sequência de entrada para um vetor de uma dimensionalidade fixa e, em seguida, outro LSTM profundo para decodificar a sequência alvo do vetor
- O incrível poder dos vetores de palavras. Material relacionado ao Word2vec de diferentes cinco trabalhos de pesquisa
- Incorporação de string contextual para rotulagem de sequência. As propriedades incluem que elas (a) são treinadas sem nenhuma noção explícita de palavras e (b) são contextualizadas pelo texto circundante
- Bert explicou - modelo de idioma de última geração para a PNL. Uma ótima explicação dos fundamentos de como Bert funciona.
- Revisão de modelos baseados em Bert. E algumas pistas/idéias recentes sobre o que torna Bert tão eficaz
Representação de palavras
- Incorporação de palavras
- Google News Word2vec O modelo contém vetores 300-dimensionais para 3 milhões de palavras e frases que treinaram parte do conjunto de dados do Google News (cerca de 100 bilhões de palavras).
- Luva pré-treinada pré-treinada vetores de palavras usando luva. Wikipedia + Gigaword 5, Common Crawl, Twitter.
- Vetores de palavras pré-treinados pré-treinados de texto rápido para 294 idiomas, treinados na Wikipedia usando o FastText.
- O BPEMB BPEMB é uma coleção de incorporações de subgletas pré-treinadas em 275 idiomas, com base na codificação de pares de bytes (BPE) e treinados na Wikipedia.
- Word baseado em dependência incorporando incorporações de palavras pré-treinadas com base em informações de dependência , a partir de incorporações de palavras baseadas em dependência, ACL 2014 .
- A meta-incorporação realiza conjuntos de algumas versões de incorporação de palavras pré-gravadas, a partir de meta-incorporação: incorporações de palavras de alta qualidade por meio de conjuntos de incorporação de conjuntos, ACL 2016.
- Vetores pré-treinados Lexvec com base no modelo de incorporação de palavras lexvec . Rastreamento comum, Wikipedia inglesa e Newscrawl.
- Muse Muse é uma biblioteca Python para incorporações multilíngues de palavras, que fornecem incorporações multilíngues para 30 idiomas e 110 dicionários bilíngues de verdade em larga escala.
- CWV Este projeto fornece mais de 100 vetores de palavras chineses (incorporados) treinados com diferentes representações (densas e escassas), recursos de contexto (Word, Ngram, Caracter e muito mais) e corpora.
- Charngram2vec Este repositório provou o código reimplementado para incorporações de n-gram de caracteres pré-treinamento apresentadas em papel conjunto de várias tarefas (JMT), um modelo de várias tarefas: cultivo de uma rede neural para várias tarefas de PNL, EMNLP2017 .
- Representação de palavras com contexto
- Representações contextuais pré-treinadas da ELMO de modelos de linguagem bidirecional em larga escala fornecem grandes melhorias para quase todas as tarefas supervisionadas da PNL.
- Bert Bert , ou b - scoder as apresentações do T Ransformers, é um novo método de representações de idiomas de pré-treinamento que obtém resultados de ponta em uma ampla variedade de tarefas de processamento de linguagem natural (PNL). (2018.10)
- O OpenGPT GPT-2 é um grande modelo de idioma baseado em transformador, com 1,5 bilhão de parâmetros, treinado em um conjunto de dados de 8 milhões de páginas da Web. O GPT-2 é treinado com um objetivo simples: preveja a próxima palavra, dadas todas as palavras anteriores em algum texto.
Resposta da pergunta
- Compreensão de leitura da máquina
- O DataSet de resposta a perguntas de Stanford Stanford é um novo conjunto de dados de compreensão de leitura, consistindo em perguntas colocadas pelos trabalhadores de multidões em um conjunto de artigos da Wikipedia, onde a resposta para todas as perguntas é um segmento de texto ou extensão da passagem de leitura correspondente.
- CMRC2018 CMRC2018 é liberado pelo Segundo Oficinas de Avaliação sobre a compreensão da leitura de máquina chinesa. O conjunto de dados é composto por quase 20.000 perguntas reais anotadas por parágrafos de Human nos Wikipedia.
- O conjunto de dados de compreensão de leitura do DCRD Delta é um conjunto de dados de compreensão de leitura de máquinas (MRC) (MRC) de domínio aberto, ele contém 10.014 parágrafos de 2.108 artigos da Wikipedia e mais de 30.000 perguntas geradas por anotadores.
- Triviaqa Triviaqa inclui 95 mil pares de respostas de perguntas de autoria de entusiastas de trivia e documentos de evidência de forma independente, seis por pergunta, em média, que fornecem supervisão distante de alta qualidade para responder às perguntas. `` Este conjunto de dados é do domínio da Wikipedia e do domínio da Web.
- O NewsQA NewsQA é um conjunto de dados de compreensão de leitura de máquina de 120k de 120k de 120 mil.
- HarvestingQA Esta pasta contém o conjunto de dados de um milhão de parágrafos de QA-PAIS (dividido em pares de trem, dev e testes) descrito em: colheita de pares de respostas de perguntas no nível do parágrafo da Wikipedia (ACL 2018).
- O ProPARAPARA visa promover a pesquisa na compreensão da linguagem natural no contexto do texto processual. Isso requer a identificação das ações descritas no parágrafo e no rastreamento das mudanças no estado que acontecem com as entidades envolvidas.
- O McScript McScript é um novo conjunto de dados para a tarefa de compreensão de máquinas que se concentra no conhecimento do senso comum. Compreende 13.939 perguntas sobre 2.119 textos narrativos e abrange 110 cenários diários diferentes. Cada texto é anotado com um dos 110 cenários.
- McScript2.0 McScript2.0 é um corpus de compreensão de máquinas para a avaliação de ponta a ponta do conhecimento do script. Ele contém aprox. 20.000 perguntas sobre aprox. 3.500 textos, crowdsourced com base em um novo processo de coleção que resulta em questões desafiadoras. Metade das perguntas não pode ser respondida pelos textos de leitura, mas exige o uso do senso comum e, em particular, conhecimento do script.
- O Commonsenseqa Commonsenseqa é um novo conjunto de dados de resposta a perguntas de múltipla escolha que requer diferentes tipos de conhecimento de senso comum para prever as respostas corretas. Ele contém 12.102 perguntas com uma resposta correta e quatro respostas do distrator.
- O narrativo NarrativeQa inclui a lista de documentos com resumos da Wikipedia, links para histórias completas e perguntas e respostas. Para uma descrição detalhada disso, consulte o artigo "O NarrativeQa Reading Compreension Challenge".
- O HotpotQa Hotpotqa é um conjunto de dados de resposta a perguntas com perguntas naturais e multi-hop, com forte supervisão para apoiar fatos para permitir sistemas de resposta a perguntas mais explicáveis.
- Identificação de perguntas duplicadas/semelhante
- Pares de perguntas quorações do conjunto de perguntas do quora consiste em mais de 400.000 linhas de pares de duplicados de perguntas em potencial. [Formato da versão kaggle]
- Ask Ubuntu Este repo contém uma coleção pré -processada de perguntas retiradas de Askubuntu.com 2014 Corpus Dump. Ele também vem com 400*20 anotações manuais, marcando pares de perguntas como "similares" ou "não similares", de recuperação de perguntas semi-supervisionadas com convoluções fechadas, NAACL2016 .
Extração de informações
- Entidade
- Shimaoka Fine-Green Este conjunto de dados contém dois conjuntos de dados padrão e publicamente disponíveis para classificação de entidade de granulação fina, fornecida em um formato tokenizado pré-processado, detalhes em arquiteturas neurais para classificação do tipo de entidade de granulação fiada, EACL 2017 .
- Entidade ultrafina digitando uma nova tarefa de digitação de entidade: dada uma frase com uma mencionação de entidade, o objetivo é prever um conjunto de frases de forma livre (por exemplo, arranha-céu, compositor ou criminoso) que descrevem tipos apropriados para a entidade-alvo.
- Ninhado Nomeado entidade Corpus Um conjunto de dados de entidade nomeado e aninhado e aninhado sobre a parte completa do Wall Street Journal do Penn Treebank (PTB), que anotações compreende 279.795 menções de 114 tipos de entidades com até 6 camadas de ninho.
- O reconhecimento de entidade nomeado sobre a troca de código de dados (CS) é o fenômeno pelo qual os alto-falantes multilíngues alternam entre seus idiomas comuns na comunicação escrita ou falada. Ele contém os dados de treinamento e desenvolvimento para sistemas de ajuste e teste nos seguintes pares de idiomas: espanhol-inglesa (spa-engene) e moderno o árabe-egípcio padrão moderno (MSA-EGY).
- MIT Movie Corpus The MIT Movie Corpus é um corpus de treinamento e teste semanticamente marcado em formato biológico. O ENG Corpus são perguntas simples, e o corpus trivia10K13 são consultas mais complexas.
- Restaurante MIT Corpus The MIT Restaurant Corpus é um corpus de treinamento e teste semanticamente marcado em formato biológico.
- Extração de relação
- Os conjuntos de dados de relacionamentos semânticos anotados recomendam que este repositório contém conjuntos de dados anotados que podem ser usados para treinar modelos supervisionados para a tarefa de extração de relacionamento semântico.
- O Tacred Tacred é um conjunto de dados de extração de relações em larga escala, com 106.264 exemplos construídos sobre a Newswire e o texto da Web do corpus usado nos desafios anuais da População da Base de Conhecimento TAC (TAC KBP). Detalhes na atenção com consciência de posição e dados supervisionados melhoram o preenchimento de slots, EMNLP 2017 .
- Fewrel Fewrel é um conjunto de dados de classificação de relações com poucos tiros, que apresenta 70.000 frases de idioma natural que expressam 100 relações anotadas pelos trabalhadores de multidões.
- Tarefa semval 20187 Os dados de treinamento e script de avaliação para a Tarefa Semeval 2018 7: Extração e Classificação de Relacionamento Semântico em Documentos Científicos.
- Literatura chinesa-ner-re Um discurso nomeado de reconhecimento de entidade e um conjunto de dados de extração de relações para o texto da literatura chinesa. Ele contém 726 artigos, 29.096 frases e mais de 100.000 caracteres no total.
- Evento
- Dados de treinamento da ACE 2005 O corpus consiste em dados de vários tipos anotados para entidades, relações e eventos foram criados pelo consórcio de dados linguísticos com o suporte do programa ACE, em três idiomas: inglês, chinês, árabe.
- Corpus de emergência chinesa (CEC) O Corpus de Emergência Chinês (CEC) é construído pelo Data Semantic Laboratory na Universidade de Xangai. Este corpus é dividido em 5 categorias - terremoto, incêndio, acidente de trânsito, ataque terrorista e intoxicação de alimentos.
- A avaliação de eventos TAC-KBP é uma sub-pista na população da base de conhecimento TAC (KBP), que começou a partir de 2015. O objetivo da população da base de conhecimento TAC (KBP) é desenvolver e avaliar tecnologias para preencher as bases de conhecimento (KBS) a partir de texto não estruturado.
- Os dados de avaliação de cloze narrativos avaliam a compreensão de um script, prevendo o próximo evento, dados vários eventos de contexto. Detalhes em aprendizado não supervisionado de esquemas narrativos e seus participantes, ACL 2009 .
- Tensor de eventos Um conjunto de dados de avaliação sobre a geração de esquema/similaridade/cloze narrativa, proposto por representações de eventos com composições baseadas em tensores, AAAI 2018 .
- Semeval-2015 Tarefa 4 Linha do tempo: Ordem de eventos de documentos cruzados. Dado um conjunto de documentos e uma entidade -alvo, a tarefa é criar uma linha do tempo do evento relacionada a essa entidade, ou seja, para detectar, ancorar no tempo e ordenar os eventos que envolvem a entidade -alvo.
- A descrição do evento mais rico em Red consiste em anotações Coreference, Bridging e Event-Event (RELAÇÕES TEMAIS, CAUSAL, SUBEVENT e RELATÓRIAS) acima de 95 documentos ingleses em Inglês, fórum de discussão e texto narrativo, cobrindo todos os eventos, horários e entidades não evitivas em cada documento.
- INSCRIÇÃO O corpus de inscrição contém um total de 1000 textos narrativos Crowdsourced via Amazon Mechanical Turk. Ele é anotado com informações de script na forma de eventos específicos de cenário e etiquetas de participantes.
- AUTOLABELEVENT Os dados do trabalho em geração de dados rotulados automaticamente para extração de eventos em larga escala, ACL2017 .
- Eventinframenet Os dados do trabalho na alavancagem do FreameNet para melhorar a detecção automática de eventos, ACL2016 .
- Enquanto isso, o Corpus (o leitor de notícias e o corpus do leitor de notícias) consiste em um total de 480 artigos de notícias: 120 artigos em inglês Wikinews sobre quatro tópicos e suas traduções em espanhol, italiano e holandês. Ele foi anotado manualmente em vários níveis, incluindo entidades, eventos, informações temporais, funções semânticas e evento intra-documental e documental e núcleo de entidade.
- Bionlp-S-S-ST 2013 Bionlp-S-ST 2013 apresenta as seis tarefas de extração de eventos: Extração de eventos Genia para construção da base de conhecimento NFKB, genética do câncer, curadoria de caminhos, anotação de corpus com ontologia da regulação de genes, rede de regulação genética em bactérias e bactérias biotopos (anotação semântica por uma sobretologia).
- Relações temporais e causais do evento
- Atende ao esquema de relação causal e temporal (atende), que é único na captura simultaneamente de um conjunto de relações temporais e causais entre os eventos. Os Caters contêm um total de 1.600 frases no contexto de 320 contos de cinco frases de cinco frases amostradas do RocSories Corpus.
- O Bank de Tempo Custal do Bank-TimeBank é o corpus do Timebank retirado da tarefa Tempeval-3, que coloca novas informações sobre a causalidade na forma de anotação C-Signals e Clinks. 6.811 eventos (apenas eventos instanciados por makeinstance tag of timeml), 5.118 tlinks (links temporais), 171 csignals (sinais causais), 318 clínicas (links causais).
- EventCAUSALIDADEData O conjunto de dados EventCausality fornece anotações causais relativamente densas em 25 artigos de Newswire coletados da CNN em 2010.
- EventStoryline Um conjunto de dados de referência para a detecção de relação temporal e causal.
- TEMPEVAL-3 A Tarefa compartilhada Tempeval-3 visa avançar na pesquisa sobre o processamento de informações temporais.
- Temporalcausalinging um conjunto de dados com anotação de relações temporais e causais. As relações temporais foram anotadas com base no esquema proposto em "um esquema de anotação de vários eixos para relações temporais de eventos" usando o crowdflower; As relações causais foram mapeadas do "EventCausalityData".
- O TimeBank TimeBank 1.2 contém 183 artigos de notícias que foram anotados com informações temporais, adicionando eventos, horários e links temporais (TLINKS) entre eventos e horários.
- Corpus TimeBank-EventTime Este conjunto de dados é um subconjunto do Timebank Corpus com um novo esquema de anotação para ancorar os eventos a tempo. Descrição detalhada.
- Factualidade do evento
- Conjunto de dados de factualidade de eventos da UW Este conjunto de dados contém anotações de texto do corpus tempeval-3 com etiquetas de avaliação de factualidade.
- O FACTBANK 1.0 FACTBANK 1.0, consiste em 208 documentos (mais de 77.000 tokens) das relatórios de notícias de Newswire e de transmissão em que as menções de evento são anotadas com seu grau de factualidade.
- Comprommentbank O ComprommentBank é um corpus de 1.200 discursos que ocorrem naturalmente cuja frase final contém um predicado de incorporação de cláusula sob um operador de cancelamento de interrupção (pergunta, modal, negação, antecedente de condicional).
- A semântica decomposicional universal da UDS aconteceu, abrange a totalidade das dependências universais inglesas v1.2 (EUD1.2) Treebank, um grande conjunto de dados de factualidade de eventos.
- DLEF Um conjunto de dados de factualidade de eventos de nível de documento (DLEF), que inclui a fonte (inglês e chinês), diretrizes detalhadas para factualidade de eventos em nível de documentos e frases.
- Evento Coreference
- BCE 1.0 Este corpus consiste em uma coleção de documentos do Google News anotados com informações de núcleo de Eventos dentro e entre documentos. Os documentos são agrupados de acordo com o cluster do Google News, cada grupo de documentos que representam o mesmo evento (ou tópico) seminal.
- EECB 1.0 Comparado ao BCE 1.0, este conjunto de dados é estendido em duas direções: (i) sentenças totalmente anotadas e (ii) relações de coreferência da entidade. Além disso, os anotadores removeram as relações que não sejam a coreferência (por exemplo, subevent, propósito, relacionado etc.).
- BCE+ o BCE+ corpus é uma extensão do BCE 1.0. Um componente corpus recém -adicionado consiste em 502 documentos que pertencem aos 43 tópicos do BCE, mas que descrevem diferentes eventos seminais daqueles já capturados no BCE.
- Extração de informações abertas
- Oie-benchmark Este repositório contém código para converter anotações de controle de qualidade para extrações de IE de abertura e comparar analisadores abertos com um corpus de referência convertido.
- NeuralOpenie Um conjunto de dados de treinamento da extração de informações abertas neurais , ACL 2018. Aqui estão um total de 36.247.584 hsentence, pares de tuplei extraídos do dump da Wikipedia usando o Openie4.
- Outro
- O Wikilinksnei um conjunto de dados de desambiguação de entidade nomeado em larga escala de fragmentos de texto da Web, que é significativamente mais barulhento e mais desafiador do que os conjuntos de dados baseados em notícias existentes.
Inferência de linguagem natural
- SNLI O SNLI Corpus (versão 1.0) é uma coleção de 570 mil pares de frases em inglês escritos por humanos, rotulados manualmente para classificação equilibrada com os rótulos, enraizando, contradição e neutro, apoiando a tarefa da inferência de linguagem natural (NLI), também conhecida como renovação de texto (RTE).
- Multinli O corpus de inferência de linguagem natural de vários gêneros (Multinli) é uma coleção de 433 mil pares de 433 mil pares anotados com informações de interrupção textual. O corpus é modelado no corpus snli, mas difere em que abrange uma variedade de gêneros de texto falado e escrito e suporta uma avaliação distinta de generalização entre gêneros entre gêneros.
- Scitail O conjunto de dados do Scitail é um conjunto de dados de base criado a partir de exames científicos de múltipla escolha e frases da Web. O domínio torna esse conjunto de dados de natureza diferente dos conjuntos de dados anteriores e consiste em frases mais factuais, em vez de descrições de cenas.
- PAWS um novo conjunto de dados com pares de 108.463 paráfrase bem formados e não paráfrase com alta sobreposição lexical. PAWS: Paráfrase adversários de Word Scrambling
Redes de cápsulas
- Investigating Capsule Networks with Dynamic Routing for Text Classification.It show how capsule networks exhibit significant improvement when transfer single-label to multi-label text classification over the competitors
- Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction. They explore the capsule networks used for relation extraction in a multi-instance multi-label learning framework and propose a novel neural approach based on capsule networks with attention mechanisms
- Identifying Aggression and Toxicity in Comments using Capsule Network. 2018. It is early days for Capsule Networks, which was introduced by Geoffrey Hinton, et al., in 2017 as an attempt to introduce an NN architecture superior to the classical CNNs. The idea aims to capture hierarchincal relationships in the input layer through dynamic routing between "capsules" of neurons. Due likely to the affinitity of the theme of addressing hierarchical complexities, the idea's extention to the NLP field has since been a sujbect of active research, such as in the papers listed above.
- Dynamic Routing Between Capsules.They propose an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule
- Matrix Ccapsules With Expectation-Maximization Routing. The transformation matrices of capsule net are trained discriminatively by backpropagating through the unrolled iterations of EM between each pair of adjacent capsule layers
Commonsense
- ConceptNet ConceptNet is a multilingual knowledge base, representing words and phrases that people use and the common-sense relationships between them.
- Commonsense Knowledge Representation ConceptNet-related resources. Details in Commonsense Knowledge Base Completion. Proc. of ACL, 2016
- ATOMIC, an atlas of everyday commonsense reasoning, organized through 877k textual descriptions of inferential knowledge. ATOMIC focuses on inferential knowledge organized as typed if-then relations with variables.
- SenticNet SenticNet provides a set of semantics, sentics, and polarity associated with 100,000 natural language concepts. SenticNet consists of a set of tools and techniques for sentiment analysis combining commonsense reasoning, psychology, linguistics, and machine learning.
Outro
- QA-SRL This dataset use question-answer pairs to model verbal predicate-argument structure. The questions start with wh-words (Who, What, Where, What, etc.) and contains a verb predicate in the sentence; the answers are phrases in the sentence.
- QA-SRL 2.0 This repository is the reference point for QA-SRL Bank 2.0, the dataset described in the paper Large-Scale QA-SRL Parsing, ACL 2018.
- NEWSROOM CORNELL NEWSROOM is a large dataset for training and evaluating summarization systems. It contains 1.3 million articles and summaries written by authors and editors in the newsrooms of 38 major publications.
- CoNLL 2010 Uncertainty Detection The aim of this task is to identify sentences in texts which contain unreliable or uncertain information. Training Data contains biological abstracts and full articles from the BioScope (biomedical domain) corpus and paragraphs from Wikipedia possibly containing weasel information.
- COLING 2018 automatic identification of verbal MWE Corpora were annotated by human annotators with occurrences of verbal multiword expressions (VMWEs) according to common annotation guidelines. For example, "He picked one up ."
- Scientific NLP
- PubMed 200k RCT PubMed 200k RCT is new dataset based on PubMed for sequential sentence classification. The dataset consists of approximately 200,000 abstracts of randomized controlled trials, totaling 2.3 million sentences.
- Automatic Academic Paper Rating A dataset for automatic academic paper rating (AAPR), which automatically determine whether to accept academic papers. The dataset consists of 19,218 academic papers by collecting data on academic pa- pers in the field of artificial intelligence from the arxiv.
- ACL Title and Abstract Dataset This dataset gathers 10,874 title and abstract pairs from the ACL Anthology Network (until 2016).
- SCIERC A dataset includes annotations for entities, relations, and coreference clusters in scientific articles.
- SciBERT SciBERT is a BERT model trained on scientific text. A broad set of scientific nlp datasets under the data/ directory across ner, parsring, pico and text classification.
- 5AbstractsGroup The dataset contains academic papers from five different domains collected from the Web of Science, namely business, artifical intelligence, sociology, transport and law.
- SciCite A new large dataset of citation intent from Structural Scaffolds for Citation Intent Classification in Scientific Publications
- ACL-ARC A dataset of citation intents in the computational linguistics domain (ACL-ARC) introduced by Measuring the Evolution of a Scientific Field through Citation Frames .
- GASP The dataset consists of list of cited abstracts associated with the corresponding source abstract. The goal is to generete the abstract of a target paper given the abstracts of cited papers.
Contribute Contributions welcome!