很棒的nlp
专门用于自然语言处理的资源清单

用英语,传统的中文阅读
在贡献之前,请阅读贡献指南。请通过提出拉动请求来添加您喜欢的NLP资源
内容
- 研究摘要和趋势
- 著名的NLP研究实验室
- 教程
- 库
- node.js
- Python
- C ++
- 爪哇
- 科特林
- Scala
- r
- 克洛杰尔
- 红宝石
- 锈
- NLP ++
- 朱莉娅
- 服务
- 注释工具
- 数据集
- NLP在韩语
- 阿拉伯语的NLP
- NLP中文
- NLP德语
- NLP在波兰语中
- NLP西班牙语
- NLP用指示语言
- NLP在泰国
- NLP在丹麦语中
- NLP在越南语中
- NLP荷兰语
- NLP在印度尼西亚人
- NLP在乌尔都语中
- 波斯语中的NLP
- NLP在乌克兰人
- NLP在匈牙利人
- NLP在葡萄牙
- 其他语言
- 学分
研究摘要和趋势
- NLP Overview是应用于NLP的深度学习技术的最新概述,包括理论,实现,应用程序和最新结果。这是研究人员的重要深入NLP介绍。
- NLP-Progress跟踪自然语言处理的进度,包括数据集和最常见的NLP任务的当前最新技术
- NLP的成像网已经到了
- ACL 2018亮点:在更具挑战性的环境中理解代表和评估
- ACL 2017的四个深度学习趋势。第一部分:语言结构和词嵌入
- ACL 2017的四个深度学习趋势。第二部分:解释性和关注
- EMNLP 2017的亮点:令人兴奋的数据集,集群的返回等等!
- 自然语言处理的深度学习(NLP):进步和趋势
- 自然语言生成艺术状态的调查
著名的NLP研究实验室
回到顶部
- 伯克利NLP小组 - 著名的贡献包括重建长语言的工具,该工具在此处引用,并通过从目前在亚洲和太平洋说的637种语言中获取语料库并重新创造其后代。
- 语言技术学院,卡内基·梅隆大学 - 著名的项目包括Avenue Project,Quechua和Aymara等濒危语言的语法驱动的机器翻译系统,此前,Noah's ARK创建了AQMAR来改善阿拉伯语的NLP工具。
- NLP研究小组,哥伦比亚大学 - 负责创建螺栓(语音翻译系统的交互式错误处理)和一个未命名的项目,以表征对话中的笑声。
- 中心或语言和语音处理,约翰·霍普金斯大学(John Hopkins University) - 最近在这里开发语音识别软件来创建诊断测试或帕金森氏病的新闻。
- 马里兰州大学的计算语言学和信息处理小组 - 值得注意的贡献包括人类计算机的合作或单词逐字的问题回答和建模语音表示形式。
- 宾夕法尼亚大学宾夕法尼亚大学的自然语言加工 - 以创建宾夕法尼亚州的牛排而闻名。
- 斯坦福大学的语言处理小组 - 世界上最高的NLP研究实验室之一,以创建Stanford Corenlp及其核心分辨率系统而着称
教程
回到顶部
阅读内容
通用机器学习
- 机器学习101从Google的高级创意工程师解释了工程师和高管的机器学习
- AI Playbook -A16Z AI剧本是向您的经理转发的一个很好的链接或演示文稿的内容
- 塞巴斯蒂安·鲁德(Sebastian Ruder)的Ruder博客对NLP最佳研究的评论
- 如何标记数据指南以管理较大的语言注释项目
- 取决于博客文章的定义集合,涵盖了各种NLP主题,并具有详细的实现
NLP的介绍和指南
- 了解和实施自然语言处理
- python中的NLP- github笔记本的集合
- 自然语言处理:简介 - 牛津
- 使用Pytorch的NLP深度学习
- 动手NLTK教程 - NLTK教程,Jupyter笔记本电脑
- 使用Python进行自然语言处理 - 使用自然语言工具包分析文本 - 一本在线和印刷书籍,使用NLTK介绍NLP概念。该书的作者还写了NLTK库。
- 从头开始训练新的语言模型 - 拥抱面孔?
- Super Duper NLP Repo(SDNLPR):涵盖各种NLP任务实现的COLAB笔记本电脑收集。
博客和新闻通讯
- 深度学习,NLP和表示
- 插图的Bert,Elmo和Co。 (NLP如何破裂的转移学习)和插图的变压器
- HalDauméIII的自然语言处理
- Arxiv:自然语言处理(几乎)从头开始
- karpathy是经常性神经网络的不合理效力
- 机器学习精通:自然语言处理的深度学习
- 视觉NLP纸摘要
视频和在线课程
回到顶部
- 高级自然语言处理-CS 685,UMass Amherst CS
- 深度自然语言处理 - 牛津的演讲系列
- 自然语言处理的深度学习(CS224 -N) - 理查德·索切尔(Richard Socher)和克里斯托弗·曼宁(Christopher Manning)的斯坦福课程
- NLP的神经网络 - 卡内基·梅隆语言技术学院
- Yandex数据学校的深入NLP课程,涵盖了从文本嵌入到机器翻译的重要想法,包括序列建模,语言模型等。
- Fast.AI代码优先于自然语言处理 - 这涵盖了传统的NLP主题(包括Regex,SVD,Naive Bayes,Sckenization)和最新的神经网络方法(包括RNNS,SEQ2SEQ,GRUS和TRONSSERE),以及解决紧迫的道德问题,以及解决诸如偏见和偏见之类的紧急道德问题。在此处找到Jupyter笔记本
- 机器学习大学 - 加速自然语言处理 - 讲座从介绍到NLP和文本处理到经常性的神经网络和变形金刚。材料可以在这里找到。
- 来自IIT Madras的应用自然语言处理系列从基础知识一直到自动编码器和所有内容。此课程的GitHub笔记本也可以在此处找到
图书
- 言语和语言处理 - 免费,丹·朱菲西教授
- 自然语言处理 - 免费,NLP注释Jacob Eisenstein博士在Georgiatech
- NLP与Pytorch -Brian&Delip Rao
- r
- 使用Python进行自然语言处理
- 实用的自然语言处理
- 使用Spark NLP进行自然语言处理
- 斯蒂芬·莱吉·梅克(Stephan Raaijmakers)的自然语言处理深度学习
- 现实世界的自然语言处理 - Masato Hagiwara
- 自然语言处理,第二版 - 霍布森·莱恩(Hobson Lane)和玛丽亚(Maria Dyshel)
库
回到顶部
C ++ -C ++库|回到顶部
- INSNET-一种神经网络库,用于构建与实例相关的NLP模型,并具有无填充动态批处理。
- MIT信息提取工具包-C,C ++和Python工具用于指定实体识别和关系提取
- CRF ++ - 用于分割/标记顺序数据和其他自然语言处理任务的条件随机字段(CRF)的开源实现。
- CRFSuite -CRFSuite是用于标记顺序数据的条件随机场(CRF)的实现。
- Blip Parser- Bllip自然语言解析器(也称为Charniak -Johnson Parser)
- Colibri-core-C ++库,命令行工具和Python绑定,以快速且有效的方式提取和使用基本语言构造(例如N-grams和skipgrams)。
- UCTO-基于各种语言的Unicode-Unicode-Aware常规表达器。工具和C ++库。支持Folia格式。
- libfolia -c ++库的叶子格式
- 青蛙 - 为荷兰人开发的基于内存的NLP套件:POS Tagger,Lemmatiser,依赖解析器,NER,浅解析器,形态分析仪。
- 元 - 元:现代文本分析是C ++数据科学工具包,可促进挖掘大型文本数据。
- mecab(日语)
- 摩西
- 星空 - 来自Facebook的图书馆,用于创建Word级,段落级,文档级和文本分类的嵌入
Java -Java NLP库|回到顶部
- 斯坦福大学NLP
- OpenNLP
- NLP4J
- Java中的Word2Vec
- 混响网尺度开放信息提取
- OpenRegex是一种高效且灵活的基于令牌的正则表达语言和引擎。
- COGCOMPNLP-伊利诺伊州U的认知计算组中开发的核心库。
- 槌 - 语言工具包的机器学习 - 用于统计自然语言处理,文档分类,聚类,主题建模,信息提取以及其他机器学习应用程序的软件包。
- rdrpostagger-可用的可用POS标记工具包(在Java&Python中)以及40多种语言的预训练模型。
Kotlin -Kotlin NLP库|回到顶部
- 通用语言检测库,用于Kotlin和Java,适用于长文和短文
- Kotidgy - 基于索引的文本数据生成器用Kotlin编写的
Scala -Scala NLP库|回到顶部
- Saul-用于开发NLP系统的库,包括内置的模块,例如SRL,POS等。
- ATR4S-具有最先进的自动术语识别方法的工具包。
- TM-基于正规化多语言PLSA的主题建模实施。
- Word2Vec -scala- scala接口到Word2Vec模型;包括对向量的操作,例如文字距离和文字动物学。
- Epic -Epic是用Scala编写的高性能统计解析器,以及建立复杂结构化预测模型的框架。
- Spark NLP -Spark NLP是建立在Apache Spark ML顶部的自然语言处理库,可为机器学习管道提供简单,性能和准确的NLP注释,可在分布式环境中轻松扩展。
R -R NLP库|回到顶部
- Text2Vec-快速矢量化,主题建模,距离和手套单词嵌入R。
- WordVectors-用于创建和探索Word2Vec和其他Word嵌入模型的R软件包
- RMALLET -R软件包与Java机器学习工具槌接口
- DFR -Browser-为Web浏览器中的文本浏览主题模型创建D3可视化。
- DFRTopics -R用于探索文本主题模型的R软件包。
- sentiment_classifier-使用单词sense dismampuation和WordNet读取器的情感分类
- Jprocessing-日本天然Langauge加工库,以及日本的情感分类
- Corporaexplorer-用于动态探索文本收藏的R包装
- 整理 - 使用整洁工具的文本挖掘
- Spacyr -r包装器到Spacy NLP
- 克兰任务视图:自然语言处理
clojure |回到顶部
- clojure -opennlp- clojure中的自然语言处理(OpenNLP)
- 感染-CLJ-类似轨道的弯曲库,用于clojure和clojurescript
- Postagga-一个库,以解析clojure和clojurescript中的自然语言
红宝石|回到顶部
- 凯文·迪斯(Kevin Dias)的自然语言处理(NLP)Ruby库,工具和软件的集合
- Ruby进行的实用自然语言处理
生锈|回到顶部
- Whatlang - 基于Trigrams的自然语言识别库
- snips-nlu-rs-生产准备库,用于解析
- Rust-Bert-即可使用的NLP管道和基于变压器的模型
NLP ++ -NLP ++语言|回到顶部
- VSCODE语言扩展-NLP ++语言扩展VSCODE
- NLP -engine -NLP ++引擎在Linux上运行NLP ++代码,包括完整的英语解析器
- VisualText- NLP ++语言的首页
- NLP ++ Wiki- NLP ++语言的Wiki条目
朱莉娅|回到顶部
- Coldusloaders-各种NLP语料库的多种装载机
- 语言 - 用于使用人类语言的包装
- 文字分析 - 朱莉娅(Julia)包装分析
- TextModels-基于神经网络的自然语言处理模型
- WordTokenizer-自然语言处理和其他相关任务的高性能令牌
- Word2Vec-朱莉娅接口到Word2Vec
服务
NLP为具有较高级别功能的API,例如NER,主题标记等回到顶部
- WIT -AI-应用程序和设备的自然语言接口
- IBM Watson的自然语言理解-API和GitHub演示
- 亚马逊理解-NLP和ML套件涵盖了最常见的任务,例如NER,标记和情感分析
- Google Cloud自然语言API-语法分析,NER,情感分析和至少9种语言的内容标签包括英语和中文(简化和传统)。
- 帕拉尔德斯 - 高级文本分析API服务从情感分析到意图分析不等
- 微软认知服务
- 德克萨尔
- 玫瑰花结
- 文本分析 - 浏览器中的自然语言处理,具有情感分析,命名实体提取,pos标记,单词频率,主题建模,单词云等等
- NLP Cloud -Spacy NLP模型(自定义和预训练)是通过列出的实体识别(NER),POS标记等的RESTFUL API提供的。
- CloudMersive-执行语音标记,文本重新启动,语言翻译/检测和句子解析等动作的统一和免费的NLP API
注释工具
- 门 - 一般体系结构和文本工程已有15年以上的历史,免费和开源
- Anafora是免费的开源,基于Web的原始文本注释工具
- BRAT -BRAT快速注释工具是用于协作文本注释的在线环境
- Doccano -Doccano是免费的,开源的,并为文本分类,序列标记和序列提供了注释功能
- Inception-提供智能帮助和知识管理的语义注释平台
- TAGTOG,团队优先的Web工具可以查找,创建,维护和共享数据集 - 费用$
- Prodigy是一种由主动学习提供动力的注释工具,费用为$
- LightTag-托管和托管的团队的文本注释工具,费用为$
- RSTWEB-开源本地或在线工具,用于话语树注释
- Gitdox-带有GITHUB版本控制和XML数据验证的开源服务器注释工具和协作电子表格网格
- 标签工作室 - 托管和托管的团队,基于免费增值的文本注释工具,费用$
- Datasaur支持个人或团队的各种NLP任务,基于免费的NLP
- KONFUZIO-团队首先托管和本地文本,图像和PDF注释工具,由主动学习,基于免费增生,成本$ $
- UBIAI-具有最全面的自动保管功能的团队的易于使用的文本注释工具。支持NER,关系和文档分类以及发票标签的OCR注释,费用为$
- Shoonya -Shoonya是免费的开源数据注释平台,其组织和工作空间级别管理系统各种。 Shoonya是数据不可知的,可以由团队使用以各种验证阶段的规模来注释数据。
- 注释实验室 - 文本注释和DL模型培训/调整的免费端到端无代码平台。对指定实体识别,分类,关系提取和断言状态的现成支持SPARK NLP模型。对用户,团队,项目,文件的无限支持。不是福斯。
- Flat-Flat是基于网络的语言注释环境,基于Folia格式,Folia格式是一种用于语言注释的丰富XML格式。免费和开源。
技术
文本嵌入
单词嵌入
句子和基于语言模型的单词嵌入
回到顶部
- elmo-深层上下文化的单词表示 - pytorch含义 - TF实施
- ULMFIT-杰里米·霍华德(Jeremy Howard)和塞巴斯蒂安(Sebastian Ruder)的文本分类的通用语言模型
- Intersent-从自然语言推论数据中通过Facebook学习通用句子表示形式
- COVE-在翻译中学习:上下文化的单词向量
- pargraph向量 - 来自句子和文档的分布式表示。请参阅Gensim的DOC2VEC教程
- Sense2Vec-在单词感觉上歧义
- 跳过思想向量 - 单词表示方法
- 自适应跳过 - 类似的方法,具有自适应特性
- 序列学习的顺序 - 机器翻译的单词向量
问题回答和知识提取
回到顶部
- DRQA- Facebook研究Wikipedia数据的开放域问回答工作
- 文档-QA-简单有效的多段阅读理解
- 基于模板的信息提取没有模板
- Privee:一种用于自动分析Web隐私政策的体系结构
数据集
回到顶部
- NLP数据集的大量NLP数据集
- Gensim -DATA-验证的NLP模型和NLP Corpora的数据存储库。
多语言NLP框架
回到顶部
- udpipe是可训练的管道,用于令牌化,标记,诱饵和解析通用树库和其他Conll-U文件。主要用C ++编写,为多语言NLP处理提供了快速可靠的解决方案。
- NLP-Cube:自然语言处理管道 - 句子分裂,令牌化,lemmatization,词性标记和依赖性解析。新平台,用Dynet 2.0编写的Python。提供独立的(CLI/Python绑定)和服务器功能(REST API)。
- uralicnlp是一个NLP库,主要用于许多濒临灭绝的乌拉尔语言,例如萨米语,mordvin语言,玛丽语言,komi语言等。另外,支持一些非偏见的语言,例如芬兰语,以及瑞典语和阿拉伯语等非艺术语言。 uralicnlp可以进行形态学分析,产生,诱饵和歧义。
NLP在韩语
回到顶部
库
- Konlpy-韩国自然语言处理的Python包。
- mecab(韩文)-C ++图书馆韩国NLP
- Koalanlp-韩国自然语言处理的Scala库。
- KONLP-韩国自然语言处理的R包
博客和教程
- DSINDEX的博客
- Kangwon University的NLP课程在韩语
数据集
- KAIST语料库 - 韩国韩国高级科学技术学院的语料库。
- Naver情感电影语料库在韩国
- Chosun Ilbo档案馆 - 韩国韩国的数据集,来自韩国的主要报纸Chosun Ilbo。
- 聊天数据 - 韩语中的聊天机器人数据
- 请愿书 - 从Blue House国家请愿网站收集过期的请愿数据。
- 韩国平行语料库 -韩语到法语和韩文的神经机器翻译(NMT)数据集
- KORQUAD-带有Wiki HTML来源的韩国小队数据集。提到v1.0和v2.1在添加到很棒的NLP时
阿拉伯语的NLP
回到顶部
库
- Goarabic-阿拉伯文本处理的GO包
- JSASTEM-阿拉伯语茎的JavaScript
- Pyarabic-阿拉伯语的Python图书馆
- rftokenizer-可训练的python分段,用于阿拉伯语,希伯来语和科普特
数据集
- 多域数据集 - 最大的可用多域资源用于阿拉伯情感分析
- LABR-大型阿拉伯书评数据集
- 阿拉伯停止词 - 来自各种资源的阿拉伯停止词列表
NLP中文
回到顶部
库
- jieba-中文中的python包装套件
- Snownlp-中文NLP的Python套餐
- fudannlp-中文文本处理的Java库
- HANLP-多语言NLP库
选集
- FUNNLP- NLP工具和资源的收集主要用于中文
NLP德语
- 德语-NLP-开放式/开源/开放源代码/货架资源和工具的策划清单,特别关注德语
NLP在波兰语中
- 波兰-NLP-策划的资源清单,专门用于波兰语中的自然语言处理(NLP)。模型,工具,数据集。
NLP西班牙语
回到顶部
库
- Spanlp- python图书馆要检测,审查和清洁亵渎,粗俗,可恶的话,种族主义,仇外心理和欺凌,用西班牙语写的文本。它包含21个讲西班牙语国家的数据。
数据
- 哥伦比亚政治演讲
- 哥本哈根树仓
- 西班牙十亿个单词copus带有word2vec嵌入
- 西班牙未注释的语料库的汇编
单词和句子嵌入
- 西班牙语单词嵌入使用不同的方法和不同语料库计算的
- 使用FastText从大型语料库和不同尺寸计算的西班牙单词嵌入式
- 使用send2vec从大型语料库计算出的西班牙语句子嵌入
- beto-伯特西班牙
NLP用指示语言
回到顶部
数据,语料库和树岸
- 印地语依赖树库 - 印地语和乌尔都语的多代表多层树库
- 印地语中的通用依赖性树库
- 印地语中的平行通用依赖性树库 - 上述树库的较小部分。
- ISI Fire Stopwords列表(印地语和孟加拉国)
- 彼得·格雷厄姆(Peter Graham)的停止词列表
- nltk语料库60k单词pos标记,孟加拉国,印地语,马拉地语,泰卢固语
- 印地语电影评论数据集〜1K样本,3个极性课程
- BBC新闻印地语数据集4.3K样本,14个类
- IIT Patna Hindi Absa数据集5.4K样本,12个域,4K方面术语,方面和句子级别的4个类别
- 孟加拉ABSA 5.5K样品,2个域,10个方面术语
- IIT Patna电影评论情感数据集2K样本,3个极性标签
需要登录/访问的Corpora/数据集可以通过电子邮件获得
- SAIL 2015 Twitter和Facebook在泰卢固语的孟加拉语印地语标记了印地语的情感样本。
- IIT孟买NLP资源Sentiwordnet,电影和旅游平行标签的Corpora,Pallerity标记为有意义的注释语料库,Marathi Pallatenty标记为语料库。
- TDIL-IC汇总了许多有用的资源,并提供了对其他门控数据集的访问
语言模型和单词嵌入
- hindi2vec和nlp-for-hindi ulmfit样式languge模型
- IIT Patna双语单词嵌入Hi-en
- FastText Word嵌入在一堆语言中,接受了普通爬网的训练
- 印地语和孟加拉语2vec
- 印地语和乌尔都语Elmo模型
- 梵语阿尔伯特(Albert)接受了梵语Wikipedia和Oscar Copus的培训
库和工具
- 多任务深层形态分析仪基于网络的深网形态解析器,用于印地语和乌尔都语
- Anoop Kunchukuttan 18语言,从令牌化到翻译的全部功能
- Sivareddy的依赖性解析器依赖解析器和POS标记器,用于Kannada,Hindi和Telugu。 Python3端口
- INLTK-建立在Pytorch/Fastai之上的指示语言(印度次大陆语言)的自然语言工具包,该工具旨在为常见的NLP任务提供开箱即用的支持。
NLP在泰国
回到顶部
库
- Pythainlp -Python包装中的泰国NLP
- JTCC- Java中的角色群集库
- cutkum- tensorflow中深度学习的单词分割
- 泰语工具包 - 根据Wirote Aroonmanakun于2002年的论文,包括数据集
- Synthai-使用Python中深度学习的单词分割和POS标记
数据
- 最佳 - 一个带有500万个单词单词分段单词的文本语料库
- 总理29-包含泰国现任总理演讲的数据集
NLP在丹麦语中
- 被命名为丹麦的实体认可
- Danlp-丹麦的NLP资源
- 很棒的丹麦语 - 丹麦语言技术的精彩资源清单
NLP在越南语中
库
- 越南 - 越南NLP工具包
- vn.vitk-越南文本处理工具包
- VNCORENLP-越南自然语言处理工具包
- Phobert-越南语的预训练语言模型
- PYVI -Python越南核心NLP工具包
数据
- 越南树仓 - 选区解析任务的10,000句
- BKTREEBANK-越南依赖树库
- UD_VIETNEMESES-越南通用依赖树库
- Vivos-一个免费的越南演讲语料库,由AILAB的15小时录制演讲组成
- vntqcorpus(big).txt -175万个新闻中的句子
- Vitext2SQL-越南文本到SQL语义解析的数据集(EMNLP-2020调查结果)
- EVB语料库 - 15本双语书籍,100本平行的英语 /越南语 - 英语文本,250条平行法和法令文本,5,000篇新闻文章和2,000张电影字幕,来自15本双语书籍中的20,000,000个单词(2000万个)。
NLP荷兰语
回到顶部
- Python -Frog- Python与Frog结合,Frog是NLP套件的荷兰套件。 (POS标记,lemmatisation,依赖解析,NER)
- Simplenlg_nl-基于英语和法语的Simpleenlg实施,用于荷兰语的自然语言生成的荷兰表面实现者。
- Alpino-荷兰人的依赖解析器(也确实是POS标记和lemmatisation)。
- Kaldi NL-基于Kaldi的荷兰语音识别模型。
- Spacy-可用的荷兰型号。 - 工业强度NLP与Python和Cython。
NLP在印度尼西亚人
数据集
- ILPS的Kompas和Tempo收藏
- panl10n用于POS标签:39k句子和900k Word令牌
- 用于POS标签的IDN:此语料库包含10k句子和250k Word令牌
- 印度尼西亚树库和普遍的依赖关系 - 印度人
- 印度文本摘要和分类
- Wordnet -Bahasa-大,免费,语义词典
- Indobench Marks Marks Mark Marks Indonlu包括预训练的语言模型(Indobert),FastText模型,Indo4b语料库和几个NLU基准数据集
图书馆和嵌入
- 自然语言工具包巴哈萨
- 印尼单词嵌入
- 预处理的印度尼西亚快速文本文本嵌入了在Wikipedia上训练的
- Indobench Marksk Indonlu包括预审前的语言模型(Indobert),FastText模型,Indo4b语料库和几个NLU基准数据集
NLP在乌尔都语中
数据集
库
波斯语中的NLP
回到顶部
库
- HAZM-波斯NLP工具包。
- Parsivar:波斯语的语言处理工具包
- PERKE:PERKE是波斯语的Python键形提取程序包。它提供了一个端到端的键形提取管道,其中每个组件都可以轻松修改或扩展以开发新模型。
- PERSTEM:波斯茎,形态分析仪,音译器和部分言论塔格尔
- Parsian分析仪:弹性搜索的波斯分析仪
- Virastar:清理波斯文字!
数据集
- Bijankhan语料库:Bijankhan语料库是一种标记的语料库,适合于自然语言处理波斯语(FARSI)语言。该系列收集了每日新闻和常见文本。在此集合中,所有文件都归类为不同的主题,例如政治,文化等。总的来说,有4300个不同的主题。 Bijankhan Collection包含大约2600万手动标记的单词,其中包含40个波斯POS标签。
- Uppsala Persian语料库(UPC):Uppsala Persian Copus(UPC)是一个大型,可自由使用的波斯语料库。该语料库是Bijankhan语料库的修改版本,具有附加的句子细分和一致的令牌化,包含2,704,028个令牌,并带有31个语音标签的注释。该表中的说明列出了词性词性标签。
- 大规模口语波斯语:大规模口语波斯数据集(LSCP)在层次结构上是按照式分类法进行了组织的,该分类学的重点是多任务的波斯语言理解是一个全面的问题。 LSCP包括来自27m休闲波斯推文的120m句子,其依赖关系与句法注释,言论的一部分标签,情感极性和自动翻译英文(EN),德语(de),Czech(Czech(cs),意大利语),意大利语(ITALIAN(IT)和HINDI(IT)和HINDI(HIHINDI(HI)Spoken语言)。在LSCP网页上了解有关此项目的更多信息。
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
回到顶部
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
回到顶部
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
回到顶部
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
其他语言
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
回到顶部
Credits for initial curators and sources
执照
License - CC0