很棒的nlp-polish
精心策劃的資源清單,專門用於波蘭語中的自然語言處理(NLP)。模型,工具,數據集。

目錄:
- 波蘭文本數據
- 模型和嵌入
- 庫和工具
- 論文,文章,博客
- 貢獻
波蘭文本數據集
面向任務的數據集
- Klej(Kompleksowa Lista ewaluacjijęzykowych)基準是一組九種評估任務,以了解波蘭語言的理解。
- POLEVAL數據集 -
- 仇恨言語分類 - 在正常/無害的推文(類:0)和包含任何有害信息的推文之間進行區分(班級:1)[Poleval 2019 Task6] [Mirror Gdrive]
- 波蘭CDSCORPU-用於組成分佈語義的數據集。波蘭cdscorpus由10k波蘭句子對組成,這些句子對語義相關性和需要進行人類註銷。
- wroclaw的消費者評論情感語料庫(WCCRS) - 在整個文本(文本)和以下領域的句子(句子)級別上註釋的波蘭語評論語料庫:酒店,醫學,產品和大學(評論*)
- Ermlab Opineo數據集 - opineo評論-Gdrive
- Hatespeech語料庫包含2000多個帖子,從公共拋光Web.http://zil.ipipan.waw.pl/hatespeech中
- 波蘭類比數據集 - 示例:“ Ateny Grecja Bagdad Irak” - 對單詞嵌入式評估有用
- NKJP-波蘭國家語料庫。它包含經典文學,每日報紙,專業期刊和期刊,對話的成績單以及各種短期和互聯網文本。只有一個小的子孔可供下載(GNU GLP v.3)。直接聯繫,也許是獲得完整語料庫的必要條件。
- POLEMO 2.0情緒分析數據集的Conll
- 波蘭音樂數據集 - 波蘭音樂數據集是最大的數據集,其中包含有關波蘭藝術家,歌曲和歌詞的信息(現在只有嘻哈藝術家)。
原始文本
乾淨的波蘭奧斯卡 - 刪除的預先吸收的波蘭奧斯卡語料庫:外國句子(非波蘭),非valid polish senteces(例如枚舉), @ermlab預先處理語料庫
奧斯卡獎或開放的超大爬行爬行的年輕人語料庫 - 是一種通過語言分類和過濾普通爬網語料庫獲得的巨大多語種語料庫。包含109GB或49GB的波蘭文本。
波蘭Wikipedia垃圾場 - 定期每月波蘭Wikipedia副本。 4GB文本更多。
opus-開放的平行語料庫 - 您可以選擇語言並僅下載拋光文件
- 波蘭opensubtitles v2018-句子4590萬,波蘭令牌287.1m,opensubtitles tark raw txt corpus(未包裝的7.2GB)Tokenized txt corpus(未包裝7.6GB)的翻譯電影字幕收集。
- 圍繞v5句子640萬,波蘭令牌157.1m raw txt語料庫(未包裝1.1GB)令牌txt copus
波蘭議會語料庫文本來自波蘭議會,SEJM和參議院議會
模型和嵌入
波蘭變壓器模型
- 波蘭Roberta模型 - 模型接受了由波蘭Wikipedia垃圾場,波蘭書籍和文章,波蘭議會語料庫組成的語料庫的培訓
- POILBERT-波蘭羅伯塔模特,接受了波蘭維基百科,波蘭文學和奧斯卡賽的培訓。主要假設是質量文本將提供良好的模型。
- 波蘭 - 波蘭伯特模型。模型接受了Google Bert的GitHub存儲庫中提供的代碼培訓。與擁抱面/變壓器合併
- Allegro Herbert-波蘭BERT模型在波蘭語料庫中訓練的MLM目標訓練了整個單詞的動態掩蓋。
- Slavicbert-多語言BERT模型-Bert,Slavic Cased:4種語言(保加利亞語,捷克語,波蘭語,俄語),12層,768 HIDDER,12頭,110m參數,600MB。還有另一個Slavicbert模型http://docs.deeppavlov.ai/en/master/features/models/models/bert.html,但我有問題將其轉換為Pytorch。
其他型號
- Elmo Embeddings - 一種在大型文本語料庫(KGR10)訓練的波蘭語言的Elmo嵌入模型。
- Zalando Flair Polish模型 - 捕獲潛在的句法語義信息的上下文字符串嵌入,超出了標准單詞嵌入。有兩個模型“ pl-forward and pl backward”
- ipipan word2vec波蘭模型
- Wrocław科學技術大學Word2VEC-在不同語料庫中培訓的波蘭語分銷語言模型(KGR10,NKJP,Wikipedia)。
- FastText Polish Model FB-火車上:普通爬行,Wikipedia
- FastText KGR10波蘭模型二進制
- 通用句子編碼器多語言 - 句子嵌入,它涵蓋16種語言(包括拋光)
- BPEMB:子字嵌入包括拋光 - 易於與Flair一起使用
- Tensorflow 2.0的Ulmfit-此系列包含在Wikipedia垃圾場訓練英語和波蘭語的ULMFIT經常性語言模型。這些模型本身是使用FastAi訓練的,然後導出到可張緊的格式。代碼可在Bitbucket上使用。
語言處理工具和庫
Morfologik(Java)和Pymorfologik(Python包裝器) - 基於字典的形態分析儀
莫菲斯 - 形態分析儀。另請參閱Elasticsearch插件
Stempel(Python端口) - 算法詞幹。另請參閱Elasticsearch插件
波蘭語的Spacy擴展了一個流行的NLP庫Spacy,以完全支持波蘭語言。
IPI PAN的Spacy -PL-將現有的波蘭語言工具和資源整合到Spacy管道中
Krnnt波蘭形態標記器-KRNNT是基於經常性神經網絡紙的波蘭的形態標記器
Stanza(Python) - 斯坦福大學的NLP分析軟件包。 Stanza是Python自然語言分析包。它包含可用於以下工具:句子/單詞令牌化,以生成單詞的基本形式,言語和形態特徵的一部分,句法依賴性解析,識別命名實體。包含波蘭模型
小鴨(Haskel) - 將文本解析為結構化數據的庫,並支持波蘭語
基於Wikipedia文本
論文,文章,博客文章
- 一些波蘭NLP工具的基準 - 單詞訓練和形態學分析,多詞的障礙,毫無歧視的POS標籤,依賴性解析,淺解析,淺解析,命名實體識別,摘要,摘要等。
- github repo帶有拋光列表:單詞嵌入和語言模型(Word2Vec,fastText,Glove,Elmo)-https://github.com/sdadas/polish-nlp-resources
- 波蘭單詞嵌入式評論 - 對波蘭單詞嵌入的評估:Word2Vec,FastExt等由各個研究小組準備的。評估是通過單詞類比任務完成的。
- 波蘭語句子評估 - 包含五個波蘭語的語言任務的八種句子表示方法(Word2Vec,Glove,FastText,Elmo,Flair,Bert,Laser,使用)的評估
- 培訓羅伯塔(Roberta)從頭開始 - 缺失指南 - 使用擁抱面/變形金剛用於培訓Roberta模型的完整用戶指南
貢獻
如果您有或了解此處缺少的有價值的材料(數據集,模型,帖子,文章),請隨時編輯並提交拉動請求。您也可以在LinkedIn或通過電子郵件發送:[email protected]。