NLP的很棒资源
新更新:胶囊网络,讽刺检测
目录
- 目录
- 库
- 杂文数学
- 字典
- 词典
- 解析
- 话语
- 语言模型
- 讽刺检测
- 机器翻译
- 文字生成
- 文本分类
- 文本摘要
- 情绪
- 单词/文档嵌入
- 单词表示
- 问题答案
- 信息提取
- 自然语言推断
- 胶囊网络
- 常识
- 其他
- 贡献
有用的库
- Numpy Stanford的演讲CS231N涉及Numpy,这在机器学习计算中至关重要。
- NLTK是一套符号和统计自然语言处理的库和程序
- TensorFlow TensorFlow提供的教程。它通过视觉辅助工具为基础提供了很好的解释。在深NLP中有用
- pytorch在Facebook提供的Pytorch上的一个很棒的教程,质量很高。
- Tensor2Tensor序列通过Google用TensorFlow编写的Google序列工具套件。
- Fairseq序列是由Facebook用Pytorch编写的Facebook序列工具套件。
- 拥抱脸部变压器是一个基于通过拥抱脸提供的变压器的库,可以轻松访问预训练的型号。 NLP的关键库之一不仅是开发人员,而且是研究人员。
- 拥抱脸部的脸部标记图书馆,拥抱的脸部保持着。随着密钥函数用Rust编写,它可以提高快速操作。可以通过拥抱的脸庞来尝试使用最新的标记器,例如BPE。
- Spacy由Ines撰写的教程,Ines是值得注意的Spacy的核心开发商。
- TORCHTEXT上的turchText教程,该软件包使数据预处理方便。比正式文档有更多的细节。
- 句子Google的开源库,该库使用子字信息构建基于BPE的词汇。
- Gensim Python库,用于主题建模,文档索引和与大型语料库的相似性检索。
- 多glellot自然语言管道,支持大规模的多语言应用。
- TextBlob提供了简单的API,用于潜入常见的自然语言处理(NLP)任务,例如词性标签,名词短语提取,情感分析,分类,翻译,WordNet集成,解析,单词sublection
- Quepy一个Python框架将自然语言问题转换为数据库查询语言的查询。
- 用于Python的模式Web挖掘模块,具有用于刮擦,自然语言处理,机器学习,网络分析和可视化的工具
基本数学
- 统计和概率
- 统计学110关于概率的讲座,非工程专业学生很容易理解。
- 布兰登·福尔茨(Brandon Foltz)的统计数据布兰登·福尔茨(Brandon Foltz)的概率和统计讲座发布在YouTube上,很短,因此可以在每日上下班期间轻松访问。
- 线性代数
- 吉尔伯特·斯特朗(Gilbert Strang)教授的线性代数真棒演讲。
- YouTube频道3Blue1brown上线性代数线性代数讲座的本质
- 基础
- 机器学习书籍的数学书籍有关所有数学知识,并伴有机器学习。
- 上面提到的频道3Blue1brown的微积分演讲的本质,对那些同样想要概述的人有帮助。
字典
- 双语词典
- 发音词典
- 卡内基·梅隆大学(Carnegie Mellon University)发音词典是北美英语的开源机器可读发音词典,其中包含超过134,000个单词及其发音。
词典
- PDEV模式词典的英语动词词典。
- 动词一个词典,该词典根据动词的语义/句法链接行为分组。
- Framenet基于框架语义的词典。
- Wordnet词典描述了单个单词之间的语义关系(例如同义词和超词)。
- Propbank的一百万个单词英语文本的语料库,并带有论证角色标签的动词;和词典以人均定义这些论点角色。
- Nombank A数据集标记了与Propbank语料库中名词(宾夕法尼亚州Treebank的Wall Street Journal Journal corpus)相处的参数集,就像Propbank记录了此类动词信息一样。
- Semlink一个项目,其目的是通过一组映射将不同的词汇资源链接在一起。 (动词,Propbank,Framenet,WordNet)
- Framester Framester是Framenet,Wordnet,Verbnet,Babelnet,Dbpedia,Yago,Dolce-Zero以及其他资源之间的枢纽。 Framester不仅会创建牢固连接的知识图,而且还对Fillmore的框架语义应用了严格的正式处理,可以在创建的基于连接框架的知识图上进行全面的猫头鹰查询和推理。
解析
- PTB Penn Treebank(PTB)。
- 通用依赖性普遍依赖(UD)是跨语言一致的语法注释和开放的社区努力的框架,其中200多名贡献者以60多种语言生产100多种Treebanks。
- Tweebank Tweebank V2是通用依赖性注释的英语推文的集合,可以利用用于培训NLP系统以提高其在社交媒体文本上的性能。
- Semeval-2016任务9 Semeval-2016任务9(中文语义依赖解析)数据集。
话语
- PDTB2.0 PDTB,版本2.0。注释40600个话语关系,分布在以下五种类型中:显式,隐式等。
- PDTB3.0在版本3中,又有13,000个令牌,标准化了某些成对注释,包括新的感官,并且该语料库受到一系列一致性检查。
- 背面翻译注释的隐式话语关系该资源包含带注释的隐式话语关系实例。这些句子是通过平行语料库的反向翻译自动注释的。
- DiscoursechinesetedTalks此数据集包含16次TED演讲的注释。
语言模型
- LM版本中的PTB Penn Treebank语料库。
- Google十亿个单词数据集10亿个单词语言建模基准。
- Wikitext Wikitext语言建模数据集是从Wikipedia上的一系列经过验证的良好和精选文章中提取的超过1亿个令牌的集合。与Penn Treebank(PTB)的预处理版本相比,Wikitext-2大于2倍以上,Wikitext-103大于110倍以上。
讽刺检测
- 级联上下文讽刺检测器(Cascade)在在线社交媒体讨论中采用了内容和上下文驱动的建模的混合方法。此外,他们使用了基于内容的功能提取器,例如卷积神经网络
- 使用深层卷积神经网络国际计算机工程与技术高级研究杂志,第6卷,第1期,2017年1月第1期。他们提出了一个自动化系统,以使用与情感有关的功能,以了解一种自动化系统,以更深入地了解讽刺推文。
- ADARNN自适应递归神经网络(ADARNN),用于目标依赖性Twitter情感分类。它根据上下文和句法关系而适应性地传播了单词对目标的情感
- 用深层卷积神经网络相关的媒介文章检测讽刺。它建议先训练一种情感模型(基于CNN),以学习特定的情感特征提取。该模型在较低层中学习本地特征,然后将其转换为较高层中的全局特征。
机器翻译
- Europarl Europarl平行语料库是从欧洲议会议会中提取的。 It includes versions in 21 European languages: Romanic (French, Italian, Spanish, Portuguese, Romanian), Germanic (English, Dutch, German, Danish, Swedish), Slavik (Bulgarian, Czech, Polish, Slovak, Slovene), Finni-Ugric (Finnish, Hungarian, Estonian), Baltic (Latvian, Lithuanian), and Greek.
- Uncorpus联合国平行语料库V1.0由公共领域中联合国的其他议会文件和其他议会文件组成。
- CWMT由中国机器翻译(CWMT)社区收集和共享的ZH-EN数据。中文 - 英语机器翻译的数据有三种类型:单语中文文本,平行中文 - 英语文本,多引用文本。
- WMT单语言模型培训数据,例如CS de en fi ro ru ru ru tr和并行数据中的Common Crawl News Crawl。
- Opus Opus是越来越多的网络翻译文本集合。在Opus项目中,我们尝试转换和对齐免费的在线数据,添加语言注释,并为社区提供公开可用的并行语料库。
文字生成
- Tencent Automatic文章评论了一个大型中国数据集,其中包含数百万个真实评论和一个人类通知的子集,这些子集的特征是评论的不同质量。该数据集由大约200k新闻文章和450万人类评论以及文章类别和用户评论票的丰富元数据组成。
- 摘要
- BigPatent A摘要数据集由130万条美国专利文件的记录以及人类的书面抽象摘要组成。
- 数据到文本
- Wikipedia人和动物数据集此数据集收集428,748人和12,236个动物Infobox,其描述基于Wikipedia Dump(2018/04/01)和Wikidata(2018/04/12)。
- Wikibio这个数据集收集了Wikipedia的728,321个传记。它旨在评估文本生成算法。对于每篇文章,它提供第一段和Infobox(均为令牌化)。
- rotowire这个数据集由(人写的)NBA篮球游戏摘要组成,与相应的盒子和线得分一致。
- 通过实体建模的数据到文本生成中的MLB细节,ACL 2019
文本分类
- 20NewsGroups 20新闻组数据集是大约20,000个新闻组文档的集合,在20个不同的新闻组中均匀分配(几乎)。
- AG的新闻文章AG AG收集了超过100万条新闻文章。
- Yahoo-Asswers-Topic-classification此语料库包含4,483,032个问题及其相应的答案。答案服务。
- Google-snippets此数据集包含与8个不同域(例如业务,计算机和工程)相关的Web搜索结果。
- Benchmarkingzeroshot此存储库包含EMNLP2019论文的代码和数据,“基准测试零击文本分类:数据集,评估和累积方法”。
文本摘要
- Gensim实现Gensim的文本摘要基于流行的“ Textrank”算法
- 无监督的文本摘要很棒的文章,描述了使用句子嵌入的文本摘要
- 改善文本摘要中的抽象提出了两种改进技术
- 文本摘要和分类与科学和健康相关数据更相关
- 文本摘要用TensorFlow。关于2016年文本摘要的基本研究
情绪
- MPQA 3.0此语料库包含新闻文章和其他文本文档,手动注释了意见和其他私人状态(即信仰,情感,情感,情感,猜测等)。此版本的MPQA语料库的主要更改是新的Etarget(实体/事件)注释的添加。
- Sentiwordnet Sentiwordnet是一种词汇挖掘的词汇资源。 SentiWordnet分配WordNet的每个同步三个情感分数:阳性,消极,客观性。
- NRC单词情感协会词典NRC情感词典是英语单词及其与八种基本情绪(愤怒,恐惧,预期,信任,惊喜,悲伤,悲伤,喜悦和厌恶)和两个情感(负面和积极)的关联。
- Stanford感性Treebank SST是本文的数据集:递归深层模型,以题材的语义构成,题材上的感性Treebank Richard Socher,Alex Perelygin,Jean Wu,Jason Chuang,Christopher Manning,Andrew Ng和Christopher Ng和Christopher Potts关于自然语言处理的经验方法(Emnlp 2013)的经验方法()
- Semeval-2013 Twitter Semeval 2013 Twitter数据集,其中包含短语级别的情感注释。
- Sentihood Sentihood是针对目标基于方面的情感分析任务的数据集,其中包含5215个句子。 Sentihood:针对城市社区的基于目标的情感分析数据集,2016年Coling 。
- Semeval-2014任务4此任务与基于方面的情感分析有关(ABSA)。提供了两个针对笔记本电脑和餐馆的特定领域数据集,包括超过6K的句子,并提供了良好的方面级注释,以进行培训。
单词/文档嵌入
- 当前最好的通用单词/句子嵌入。它用固定长度密度向量编码单词和句子,以极大地改善文本数据的处理。
- 使用段落向量嵌入的文档2015。
- 手套词嵌入式演示如何使用手套嵌入
- FastText一个库,用于学习由Facebook AI Research(Fair)实验室创建的单词嵌入和文本分类的库
- 使用Word2Vec的文本分类实现了如何使用手套使用Word2Vec进行文本分类
- 文件嵌入基础知识和文档嵌入重要性的重要性
- 从单词嵌入到文档距离,可以介绍单词移动的距离(WMD),该距离衡量了两个文本文档之间的差异,这是一个文档的嵌入式单词需要“旅行”才能到达另一个文档的嵌入式单词所需的最小距离。
- Lee数据集上的DOC2VEC教程
- 带有Spacy和Gensim的Python中的单词嵌入
- 插图的Bert,Elmo和Co。 (NLP如何破解转移学习)。 2018年12月。
- 深层上下文化的单词代表。 Elmo。 Pytorch实施。 TF实施
- 用于文本分类的微调。实施代码。
- 从自然语言推理数据中监督通用句子表示的学习。显示了使用监督数据训练的通用句子表示方式
- 在翻译中学习:上下文化的单词向量。 Cove使用深层LSTM编码器,从训练机器翻译(MT)的注意序列到序列模型来上下文化Word Vectors
- 句子和文件的分布式表示。段向量。请参阅Gensim的DOC2VEC教程
- Sense2Vec。神经词嵌入中的单词感觉歧义的快速准确方法
- 跳过思想矢量。试图重建编码段落的周围句子的编码器模型
- 使用神经网络序列学习的顺序。它使用多层LSTM将输入序列映射到固定维度的向量,然后将另一个深度LSTM从向量解码目标序列
- 单词向量的惊人力量。与Word2Vec有关的材料来自不同的五篇研究论文
- 序列标记的上下文字符串嵌入。属性包括他们(a)的训练,没有任何明确的单词概念,并且(b)被周围的文本背景化
- 伯特解释了NLP的艺术语言模型。关于伯特如何运作的基本原理的一个很好的解释。
- 审查基于BERT的模型。以及最近对伯特如此有效的线索/见解
单词表示
- 单词嵌入
- Google News Word2Vec该模型包含300维矢量,用于300万个单词和短语,这些词在Google新闻数据集的一部分(大约1000亿个单词)上进行了培训。
- 手套使用手套的手套预训练的预训练媒介。 Wikipedia + Gigaword 5,Common Crawl,Twitter。
- FastText预训练的294种语言的预训练的词向量,使用FastText在Wikipedia上进行了培训。
- BPEMB BPEMB是基于字节对编码(BPE)并在Wikipedia培训的275种语言中的预训练子字嵌入的集合。
- 基于依赖关系的单词嵌入了基于依赖性信息的预训练的单词嵌入,来自基于依赖关系的单词嵌入,ACL 2014 。
- Meta-embedDings从元素插入的元素嵌入式版本进行了一些预验证的单词嵌入式版本:高质量的单词嵌入通过嵌入集的集合,ACL 2016。
- LEXVEC预先训练的向量基于Lexvec Word嵌入模型。普通的爬网,英语维基百科和新闻爬行。
- 缪斯(Muse)是一个用于多语言单词嵌入式的Python图书馆,可为30种语言和110个大型地面双语词典提供多种语言嵌入。
- CWV此项目提供了100多个中文词向量(嵌入),该媒介训练有不同的表示(密集和稀疏),上下文特征(单词,ngram,charter等)和语料库。
- charngram2Vec该存储库为训练性n-gram嵌入式嵌入的重新实施代码(JMT)纸(JMT)纸张(一种联合多任务模型:成立用于多个NLP任务的神经网络),EMNLP2017 。
- 带有上下文的单词表示
- 大规模双向语言模型的ELMO预训练的上下文表示,几乎所有监督的NLP任务都提供了很大的改进。
- 伯特·伯特(Bert Bert)或t ransformers bert e ncoder r Emententations是一种新的训练语言表示的新方法,可在各种自然语言处理(NLP)任务中获得最新的结果。 (2018.10)
- OpenGPT GPT-2是一种基于最大变压器的大型语言模型,具有15亿个参数,在800万个网页的数据集上进行了培训。 GPT-2经过一个简单的目标训练:鉴于某些文本中所有以前的单词,预测下一个单词。
问题答案
- 机器阅读理解
- 斯坦福小队的问题回答数据集(Squad)是一个新的阅读理解数据集,由人群工人对一组Wikipedia文章提出的问题组成,每个问题的答案都是来自相应阅读段的文本或跨度的部分。
- CMRC2018 CMRC2018由中国机器阅读理解的第二次评估研讨会发布。该数据集由Human在Wikipedia段落上注释的近20,000个实际问题组成。
- DCRD Delta阅读理解数据集是一个开放式域传统机器阅读理解(MRC)数据集,其中包含来自2,108个Wikipedia文章的10,014段,并由注释者产生的30,000多个问题。
- Triviaqa Triviaqa包括由Trivia爱好者和独立收集证据文件撰写的95K问题答案,平均六个,为回答问题提供了高质量的远处监督。 ``该数据集来自Wikipedia域和Web域。
- newsqa newsqa是一个众筹的机器阅读理解数据集120k问答对。
- HarvestingQa此文件夹包含:从:从Wikipedia收集段落级别的问题 - 答案对中描述的100万段级质量质量质量数据集(分为火车,开发和测试集)(ACL 2018)。
- Propara Propara旨在在程序文本的背景下促进自然语言理解的研究。这需要确定段落中描述的动作,并跟踪所涉及的实体发生的状态变化。
- MCScript MCScript是一个新数据集,用于将重点放在常识性知识上的机器理解任务。它包括13,939个关于2,119个叙事文本的问题,涵盖了110个不同的日常情况。每个文本都用110个方案之一注释。
- MCScript2.0 MCScript2.0是用于脚本知识端到端评估的机器理解语料库。它包含大约。大约20,000个问题。 3,500条基于新收集过程的众包,导致了具有挑战性的问题。一半的问题不能从阅读文本中回答,而需要使用常识,尤其是脚本知识。
- CommonSenseQA CommonSenseQA是一个新的多项选择问题答案数据集,需要不同类型的常识知识来预测正确的答案。它包含12,102个问题,带有一个正确的答案和四个干扰器答案。
- 叙事Qa norderativeqa包括带有Wikipedia摘要的文档列表,完整故事的链接以及问题和答案。有关此的详细说明,请参见“叙事QA阅读理解挑战”。
- HOTPOTQA HOTPOTQA是一个问题,该问题回答了具有自然的多跳问题的数据集,并有强有力的监督支持事实,以使更容易解释的问题答案系统。
- 重复/类似的问题标识
- Quora问题对Quora问题对数据集由超过400,000行潜在问题对重复对组成。 [Kaggle版本格式]
- 询问Ubuntu此回购包含从Askubuntu.com 2014 Corpus Dump提取的问题的预处理集合。它还带有400*20个男子一年的注释,标记了一对“类似”或“非相似”的问题,从半监督的问题检索中,带有封闭的卷积,NAACL2016 。
信息提取
- 实体
- Shimaoka细粒度该数据集包含两个用于细粒实体分类的标准和公开可用的数据集,以预处理的令牌化格式提供,这些详细信息的细节详细信息用于细化实体类型类型类型分类,EACL 2017 。
- Ultra-Fine实体输入一个新实体打字任务:给定一个带有实体提及的句子,目的是预测一组自由形式的短语(例如摩天大楼,词曲作者或犯罪者)描述了针对目标实体的适当类型。
- 嵌套命名的Entity语料库是宾夕法尼亚州Treebank(PTB)的完整的Wall Street Journal部分上的细粒度,名为Entity数据集,注释包括279,795个提及114种实体类型,最多6层筑巢。
- 在代码开关数据代码转换(CS)上指定的实体识别是多语言扬声器在书面或口头交流中的通用语言之间来回切换的现象。它包含以下语言对调整和测试系统的培训和开发数据:西班牙语 - 英语(Spa-eng)和现代标准阿拉伯 - 埃及人(MSA-EGY)。
- 麻省理工学院电影语料库MIT电影语料库是一种以生物格式标记为标记的培训和测试语料库。 ENG语料库是简单的查询,而Trivia10k13语料库是更复杂的查询。
- 麻省理工学院的MIT餐厅餐厅Corpus是一种以生物形式进行语义标记的培训和测试语料库。
- 关系提取
- 注释语义关系的数据集建议该存储库包含带注释的数据集,可用于训练监督模型,以实现语义关系提取的任务。
- Tacred Tacred是一个大规模的关系提取数据集,其中有106,264个示例在Newswire上构建的示例,以及在年度TAC知识库人群(TAC KBP)挑战中使用的语料库中的Web文本。位置感知的关注和监督数据的详细信息改善了插槽填充,EMNLP 2017 。
- 少数几个是一些射击关系分类数据集,其中具有70、000个自然语言句子,表达了由人群工作者注释的100个关系。
- Semeval 2018 Task7 Semeval 2018的培训数据和评估脚本任务7:科学论文中的语义关系提取和分类。
- 中国文学级别的中文级别的实体识别和关系提取数据集用于中国文学文本。它包含726篇文章,29,096个句子和超过100,000个字符。
- 事件
- ACE 2005培训数据该语料库由针对实体,关系和事件注释的各种类型的数据组成,是由语言数据联盟在ACE计划的支持下创建的三种语言:英语,中文,阿拉伯语。
- 中国紧急语料库(CEC)中国紧急语料库(CEC)是由上海大学的数据语义实验室建造的。该语料库分为5类 - 地震,火灾,交通事故,恐怖袭击和食物中毒。
- TAC-KBP事件评估是从2015年开始的TAC知识库人口(KBP)的子轨道。
- 叙事锁定评估数据通过预测下一个事件给定几个上下文事件来评估对脚本的理解。无监督的叙事模式及其参与者的细节,ACL 2009 。
- 事件张量有关架构生成/句子相似性/叙事披肩的评估数据集,该数据集由基于张量的构图的事件表示提出,AAAI 2018 。
- Semeval-2015任务4时间轴:跨文档事件排序。给定一组文档和目标实体,任务是构建与该实体相关的事件时间表,即检测,时间并订购涉及目标实体的事件。
- 红色富裕事件描述包括核心,桥接和事件事件关系(时间,因果关系,子事件和报告关系)的注释95英语新闻,讨论论坛和叙事文本文档,涵盖每个文档中的所有事件,时间和非事实实体。
- 铭文铭文语料库总共包含1000个通过亚马逊机械土耳其人众包的叙事文本。它以特定于方案的事件和参与者标签的形式用脚本信息注释。
- AutoLabelevent在大规模事件提取的自动标记数据生成中的工作数据,ACL2017 。
- EventInframenet在利用Framenet改善自动事件检测方面的工作数据,ACL2016 。
- 同时,同时的语料库(新闻阅读器的多语言事件和时间语料库)总共包含480篇新闻文章:120个英文Wikinews文章,涉及四个主题及其用西班牙语,意大利语和荷兰语翻译。它已在多个层面上手动注释,包括实体,事件,时间信息,语义角色以及文档内和跨文档事件和实体核心。
- BIONLP-ST 2013 BIONLP-ST 2013具有六项事件提取任务:NFKB知识碱构建,癌症遗传学,途径策划,基因调节本体论的语料库注释,细菌中的基因调节网络和细菌生物植物的基因调节网络(通过Ontology的语义注释)。
- 事件时间和因果关系
- CATS CATES因果关系和时间关系方案(CATERS)在同时捕获事件之间的一组时间和因果关系方面是独一无二的。在320个五句话的短篇小说中,Caters总共包含1,600个句子。
- Causal TimeBank Causal TimeBank是从Tempeval-3任务中获取的时间库语料库,该任务将有关因果关系的新信息以C信号和clinks注释的形式。 6,811个事件(仅通过Timeml的MakeInstance标签实例化事件),5,118个TLINK(时间链接),171个CSIGNALS(因果信号),318个Clinks(因果链接)。
- EventCausalityData Excausality Dataset在2010年从CNN收集的25篇新闻周期文章提供了相对密集的因果注释。
- EventStoryline用于时间和因果关系检测的基准数据集。
- TempeVal-3 Tempeval-3共享任务旨在推进有关时间信息处理的研究。
- 临时与暂时关系和因果关系注释的数据集。根据使用Crowdflower的“事件暂时关系的多轴注释方案”中提出的计划对时间关系进行注释;因果关系是根据“ EventCausalityData”绘制的。
- TimeBank TimeBank 1.2包含183条新闻文章,这些新闻文章已注明了时间信息,在事件和时间之间添加了事件,时间和时间链接(TLINKS)。
- TimeBank-Eventtime语料库此数据集是TimeBank语料库的一个子集,该数据集具有新的注释方案,可以及时锚定事件。详细说明。
- 事件事实
- UW事件事实数据集此数据集包含带有事实评估标签的Tempeval-3语料库中文本的注释。
- Factbank 1.0 Factbank 1.0,由Newswire和广播新闻报告中的208个文件(超过77,000个令牌)组成,其中事件提到的事实程度是注释的。
- 承诺库承诺银行是一个由1200个天然发生的话语组成的语料库,其最终句子包含一个条款式的谓词,在累积的取消操作员下(问题,模态,否定,有条件的前提)。
- UDS通用分解语义发生在数据集中,涵盖了英语通用依赖关系v1.2(eud1.2)Treebank,这是一个大事件事实数据集。
- DLEF是文档级别事件事实(DLEF)数据集,其中包括源(英语和中文),《文档和句子级事件事实》的详细指南。
- 事件核心
- ECB 1.0该语料库由一系列Google News文档组成,该文档注释了和跨文档事件内部的COREFERCE信息。这些文档根据Google新闻集群进行分组,每组文档代表同一开创性事件(或主题)。
- EECB 1.0与ECB 1.0相比,该数据集在两个方向上扩展:(i)完全注释的句子和(ii)实体核心关系。此外,注释者除了核心(例如,子事件,目的,相关等)以外的其他关系。
- 欧洲央行+欧洲央行+语料库是ECB 1.0的扩展。新添加的语料组件由502个文档组成,这些文档属于欧洲央行的43个主题,但描述了与欧洲央行中捕获的事件不同的开创性事件。
- 开放信息提取
- OIE基准标准该存储库包含用于将QA-SRL注释转换为开放式萃取的代码,并将Open-IE解析器与转换的基准语料库进行比较。
- Neuralopenie A训练数据集来自神经开放信息提取,ACL,2018年。以下是36,247,584 HSentence,使用Openie4从Wikipedia dump中提取的Tuplei对。
- 其他
- Wikilinks为网络上文本片段的大规模命名实体歧义数据集提供了差异,这比现有基于新闻的数据集更加嘈杂,更具挑战性。
自然语言推断
- SNLI SNLI语料库(1.0版)是570k人写的英文句子的集合,手动标记了用于平衡分类的标签,标签需要,矛盾和中立,支持自然语言推断(NLI)的任务(NLI),也称为识别文本款项(RTE)。
- Multinli多元类别的自然语言推理(Multinli)语料库是一个众筹的433K句子对,并带有文本索引信息。该语料库是在SNLI语料库上建模的,但涵盖了一系列口语和书面文本,并支持独特的跨流行概括评估。
- Scitail Scitail数据集是由多项选择科学考试和Web句子创建的需要数据集。该域使该数据集本质上与以前的数据集不同,它由更多的事实句子而不是场景描述组成。
- PAWS一个具有108,463个形式良好的释义和非拼写对具有高词汇重叠的新数据集。爪子:词语对手
Capsule Networks
- Investigating Capsule Networks with Dynamic Routing for Text Classification.It show how capsule networks exhibit significant improvement when transfer single-label to multi-label text classification over the competitors
- Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction. They explore the capsule networks used for relation extraction in a multi-instance multi-label learning framework and propose a novel neural approach based on capsule networks with attention mechanisms
- Identifying Aggression and Toxicity in Comments using Capsule Network. 2018. It is early days for Capsule Networks, which was introduced by Geoffrey Hinton, et al., in 2017 as an attempt to introduce an NN architecture superior to the classical CNNs. The idea aims to capture hierarchincal relationships in the input layer through dynamic routing between "capsules" of neurons. Due likely to the affinitity of the theme of addressing hierarchical complexities, the idea's extention to the NLP field has since been a sujbect of active research, such as in the papers listed above.
- Dynamic Routing Between Capsules.They propose an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule
- Matrix Ccapsules With Expectation-Maximization Routing. The transformation matrices of capsule net are trained discriminatively by backpropagating through the unrolled iterations of EM between each pair of adjacent capsule layers
Commonsense
- ConceptNet ConceptNet is a multilingual knowledge base, representing words and phrases that people use and the common-sense relationships between them.
- Commonsense Knowledge Representation ConceptNet-related resources. Details in Commonsense Knowledge Base Completion. Proc。 of ACL, 2016
- ATOMIC, an atlas of everyday commonsense reasoning, organized through 877k textual descriptions of inferential knowledge. ATOMIC focuses on inferential knowledge organized as typed if-then relations with variables.
- SenticNet SenticNet provides a set of semantics, sentics, and polarity associated with 100,000 natural language concepts. SenticNet consists of a set of tools and techniques for sentiment analysis combining commonsense reasoning, psychology, linguistics, and machine learning.
其他
- QA-SRL This dataset use question-answer pairs to model verbal predicate-argument structure. The questions start with wh-words (Who, What, Where, What, etc.) and contains a verb predicate in the sentence; the answers are phrases in the sentence.
- QA-SRL 2.0 This repository is the reference point for QA-SRL Bank 2.0, the dataset described in the paper Large-Scale QA-SRL Parsing, ACL 2018.
- NEWSROOM CORNELL NEWSROOM is a large dataset for training and evaluating summarization systems. It contains 1.3 million articles and summaries written by authors and editors in the newsrooms of 38 major publications.
- CoNLL 2010 Uncertainty Detection The aim of this task is to identify sentences in texts which contain unreliable or uncertain information. Training Data contains biological abstracts and full articles from the BioScope (biomedical domain) corpus and paragraphs from Wikipedia possibly containing weasel information.
- COLING 2018 automatic identification of verbal MWE Corpora were annotated by human annotators with occurrences of verbal multiword expressions (VMWEs) according to common annotation guidelines. For example, "He picked one up ."
- Scientific NLP
- PubMed 200k RCT PubMed 200k RCT is new dataset based on PubMed for sequential sentence classification. The dataset consists of approximately 200,000 abstracts of randomized controlled trials, totaling 2.3 million sentences.
- Automatic Academic Paper Rating A dataset for automatic academic paper rating (AAPR), which automatically determine whether to accept academic papers. The dataset consists of 19,218 academic papers by collecting data on academic pa- pers in the field of artificial intelligence from the arxiv.
- ACL Title and Abstract Dataset This dataset gathers 10,874 title and abstract pairs from the ACL Anthology Network (until 2016).
- SCIERC A dataset includes annotations for entities, relations, and coreference clusters in scientific articles.
- SciBERT SciBERT is a BERT model trained on scientific text. A broad set of scientific nlp datasets under the data/ directory across ner, parsring, pico and text classification.
- 5AbstractsGroup The dataset contains academic papers from five different domains collected from the Web of Science, namely business, artifical intelligence, sociology, transport and law.
- SciCite A new large dataset of citation intent from Structural Scaffolds for Citation Intent Classification in Scientific Publications
- ACL-ARC A dataset of citation intents in the computational linguistics domain (ACL-ARC) introduced by Measuring the Evolution of a Scientific Field through Citation Frames .
- GASP The dataset consists of list of cited abstracts associated with the corresponding source abstract. The goal is to generete the abstract of a target paper given the abstracts of cited papers.
Contribute Contributions welcome!