很棒的nlp-polish
精心策划的资源清单,专门用于波兰语中的自然语言处理(NLP)。模型,工具,数据集。

目录:
- 波兰文本数据
- 模型和嵌入
- 库和工具
- 论文,文章,博客
- 贡献
波兰文本数据集
面向任务的数据集
- Klej(Kompleksowa Lista ewaluacjijęzykowych)基准是一组九种评估任务,以了解波兰语言的理解。
- POLEVAL数据集 -
- 仇恨言语分类 - 在正常/无害的推文(类:0)和包含任何有害信息的推文之间进行区分(班级:1)[Poleval 2019 Task6] [Mirror Gdrive]
- 波兰CDSCORPU-用于组成分布语义的数据集。波兰cdscorpus由10k波兰句子对组成,这些句子对语义相关性和需要进行人类注销。
- wroclaw的消费者评论情感语料库(WCCRS) - 在整个文本(文本)和以下领域的句子(句子)级别上注释的波兰语评论语料库:酒店,医学,产品和大学(评论*)
- Ermlab Opineo数据集 - opineo评论-Gdrive
- Hatespeech语料库包含2000多个帖子,从公共抛光Web.http://zil.ipipan.waw.pl/hatespeech中
- 波兰类比数据集 - 示例:“ Ateny Grecja Bagdad Irak” - 对单词嵌入式评估有用
- NKJP-波兰国家语料库。它包含经典文学,每日报纸,专业期刊和期刊,对话的成绩单以及各种短期和互联网文本。只有一个小的子孔可供下载(GNU GLP v.3)。直接联系,也许是获得完整语料库的必要条件。
- POLEMO 2.0情绪分析数据集的Conll
- 波兰音乐数据集 - 波兰音乐数据集是最大的数据集,其中包含有关波兰艺术家,歌曲和歌词的信息(现在只有嘻哈艺术家)。
原始文本
干净的波兰奥斯卡 - 删除的预先吸收的波兰奥斯卡语料库:外国句子(非波兰),非valid polish senteces(例如枚举), @ermlab预先处理语料库
奥斯卡奖或开放的超大爬行爬行的年轻人语料库 - 是一种通过语言分类和过滤普通爬网语料库获得的巨大多语种语料库。包含109GB或49GB的波兰文本。
波兰Wikipedia垃圾场 - 定期每月波兰Wikipedia副本。 4GB文本更多。
opus-开放的平行语料库 - 您可以选择语言并仅下载抛光文件
- 波兰opensubtitles v2018-句子4590万,波兰令牌287.1m,opensubtitles tark raw txt corpus(未包装的7.2GB)Tokenized txt corpus(未包装7.6GB)的翻译电影字幕收集。
- 围绕v5句子640万,波兰令牌157.1m raw txt语料库(未包装1.1GB)令牌txt copus
波兰议会语料库文本来自波兰议会,SEJM和参议院议会
模型和嵌入
波兰变压器模型
- 波兰Roberta模型 - 模型接受了由波兰Wikipedia垃圾场,波兰书籍和文章,波兰议会语料库组成的语料库的培训
- POILBERT-波兰罗伯塔模特,接受了波兰维基百科,波兰文学和奥斯卡赛的培训。主要假设是质量文本将提供良好的模型。
- 波兰 - 波兰伯特模型。模型接受了Google Bert的GitHub存储库中提供的代码培训。与拥抱面/变压器合并
- Allegro Herbert-波兰BERT模型在波兰语料库中训练的MLM目标训练了整个单词的动态掩盖。
- Slavicbert-多语言BERT模型-Bert,Slavic Cased:4种语言(保加利亚语,捷克语,波兰语,俄语),12层,768 HIDDER,12头,110m参数,600MB。还有另一个Slavicbert模型http://docs.deeppavlov.ai/en/master/features/models/models/bert.html,但我有问题将其转换为Pytorch。
其他型号
- Elmo Embeddings - 一种在大型文本语料库(KGR10)训练的波兰语言的Elmo嵌入模型。
- Zalando Flair Polish模型 - 捕获潜在的句法语义信息的上下文字符串嵌入,超出了标准单词嵌入。有两个模型“ pl-forward and pl backward”
- ipipan word2vec波兰模型
- Wrocław科学技术大学Word2VEC-在不同语料库中培训的波兰语分销语言模型(KGR10,NKJP,Wikipedia)。
- FastText Polish Model FB-火车上:普通爬行,Wikipedia
- FastText KGR10波兰模型二进制
- 通用句子编码器多语言 - 句子嵌入,它涵盖16种语言(包括抛光)
- BPEMB:子字嵌入包括抛光 - 易于与Flair一起使用
- Tensorflow 2.0的Ulmfit-此系列包含在Wikipedia垃圾场训练英语和波兰语的ULMFIT经常性语言模型。这些模型本身是使用FastAi训练的,然后导出到可张紧的格式。代码可在Bitbucket上使用。
语言处理工具和库
Morfologik(Java)和Pymorfologik(Python包装器) - 基于字典的形态分析仪
莫菲斯 - 形态分析仪。另请参阅Elasticsearch插件
Stempel(Python端口) - 算法词干。另请参阅Elasticsearch插件
波兰语的Spacy扩展了一个流行的NLP库Spacy,以完全支持波兰语言。
IPI PAN的Spacy -PL-将现有的波兰语言工具和资源整合到Spacy管道中
Krnnt波兰形态标记器-KRNNT是基于经常性神经网络纸的波兰的形态标记器
Stanza(Python) - 斯坦福大学的NLP分析软件包。 Stanza是Python自然语言分析包。它包含可用于以下工具:句子/单词令牌化,以生成单词的基本形式,言语和形态特征的一部分,句法依赖性解析,识别命名实体。包含波兰模型
小鸭(Haskel) - 将文本解析为结构化数据的库,并支持波兰语
基于Wikipedia文本
论文,文章,博客文章
- 一些波兰NLP工具的基准 - 单词训练和形态学分析,多词的障碍,毫无歧视的POS标签,依赖性解析,浅解析,浅解析,命名实体识别,摘要,摘要等。
- github repo带有抛光列表:单词嵌入和语言模型(Word2Vec,fastText,Glove,Elmo)-https://github.com/sdadas/polish-nlp-resources
- 波兰单词嵌入式评论 - 对波兰单词嵌入的评估:Word2Vec,FastExt等由各个研究小组准备的。评估是通过单词类比任务完成的。
- 波兰语句子评估 - 包含五个波兰语的语言任务的八种句子表示方法(Word2Vec,Glove,FastText,Elmo,Flair,Bert,Laser,使用)的评估
- 培训罗伯塔(Roberta)从头开始 - 缺失指南 - 使用拥抱面/变形金刚用于培训Roberta模型的完整用户指南
贡献
如果您有或了解此处缺少的有价值的材料(数据集,模型,帖子,文章),请随时编辑并提交拉动请求。您也可以在LinkedIn或通过电子邮件发送:[email protected]。