Awesome-nlp-polish
Daftar sumber daya yang dikuratori yang didedikasikan untuk pemrosesan bahasa alami (NLP) dalam bahasa Polandia. Model, Alat, Dataset.

Daftar isi:
- Data teks Polandia
- Model dan embeddings
- Perpustakaan dan alat
- Makalah, artikel, blog
- Kontribusi
Dataset Teks Polandia
Datset berorientasi tugas
- Benchmark Klej (Kompleksowa Lista Ewaluacji Językowych) adalah seperangkat sembilan tugas evaluasi untuk pemahaman bahasa Polandia.
- Dataset Poleval -
- Klasifikasi Pidato Benci -Distuish antara tweet normal/tidak berbahaya (kelas: 0) dan tweet yang berisi segala jenis informasi berbahaya (kelas: 1) [Poleval 2019 Task6] [Mirror Gdrive]
- Polandia CDSCORPUS - Dataset untuk Semantik Distribusi Komposisi. CDSCORPUS Polandia terdiri dari 10K pasangan kalimat Polandia yang dianotasi manusia untuk keterkaitan semantik dan persyaratan.
- Wroclaw Corpus of Consumer Reviews Sentiment (WCCRS) - Corpus dari ulasan Polandia dianotasi dengan sentimen di tingkat seluruh teks ( teks ) dan pada tingkat kalimat ( kalimat ) untuk domain berikut: hotel, obat -obatan, produk, dan universitas (ulasan*)
- Ermlab Opine Dataset- Ulasan Opineo - GDrive
- Hatespeech Corpus berisi lebih dari 2000 posting yang dirangkak dari Public Polandia Web.http: //zil.ipipan.waw.pl/Hatespeech
- Dataset Analogi Polandia - Contoh: "Ateny Grecja Bagdad Irak" - Berguna untuk evaluasi embeddings kata
- NKJP - National Corpus of Polandia. Ini berisi literatur klasik, surat kabar harian, majalah dan jurnal spesialis, transkrip percakapan, dan berbagai teks pendek dan internet. Hanya sub-corpus kecil yang tersedia untuk diunduh (GNU GLP V.3). Kontak langsung dan mungkin perlu untuk mendapatkan corpus penuh.
- Dataset Analisis Sentimen Polemo 2.0 untuk Conll
- Dataset Musik Polandia- Dataset Musik Polandia adalah dataset terbesar dengan informasi tentang artis, lagu, dan lirik di Polandia (sekarang hanya artis hip hop).
Teks mentah
Clean Polandia Oscar-Corpus Oscar Polandia yang Diprotes, Dihapus: Kalimat Asing (Non-Polish), Petugas Polandia Non-Valid (mis. Enums), corpus preproses dengan @ermlab
Oscar atau Open Super -Large merayap Almanach Corpus - adalah korpus multibahasa besar yang diperoleh dengan klasifikasi bahasa dan penyaringan corpus crawl biasa. Berisi teks Polandia 109GB atau 49GB.
Polandia Wikipedia Dump - Salinan bulanan reguler Wikipedia Polandia. Lebih dari 4GB teks.
Opus - Corpus Paralel Terbuka - Anda dapat memilih bahasa dan hanya mengunduh file Polandia
- Polandia OpenSubtitles V2018 - Kalimat 45.9m, Token Polandia 287.1m, Koleksi subtitle film yang diterjemahkan dari OpenSubtitles RAW TXT Corpus (Unpacked 7.2GB) Tokenized TXK Corpus (Unpacked 7.6GB).
- Paracrawl V5 Kalimat 6.4m, Token Polandia 157.1m Raw Txt Corpus (Unpacked 1.1GB) Tokenized TXT Corpus
Teks korpus parlemen Polandia dari Prosiding Parlemen Polandia, SEJM dan Senat
Model dan embeddings
Model Transformator Polandia
- Model Roberta Polandia - Model dilatih pada korpus yang terdiri dari tempat pembuangan wikipedia Polandia, buku dan artikel Polandia, korpus parlemen Polandia
- Politbert - Model Roberta Polandia dilatih tentang Wikipedia Polandia, Sastra Polandia dan Oscar. Asumsi utama adalah bahwa teks berkualitas akan memberikan model yang baik.
- Polbert - Model Bert Polandia. Model dilatih dengan kode yang disediakan di repositori GitHub Google Bert. Gabungkan dengan huggingface/transformers
- ALLEGRO HERBERT - Model Bert Polandia yang dilatih pada korpora Polandia hanya menggunakan tujuan MLM dengan menutupi seluruh kata.
- Slavicbert-Model Bert multibahasa -BERT, Slavia Cased: 4 Bahasa (Bulgaria, Ceko, Polandia, Rusia), 12-layer, 768-tersembunyi, 12-heads, parameter 110m, 600MB. Ada juga model Slavicbert lain http://docs.deeppavlov.ai/en/master/features/models/bert.html tapi saya punya masalah untuk mengubahnya menjadi pytorch.
Model lain
- Elmo Embeddings - Model embeddings elmo untuk bahasa Polandia yang dilatih pada korpora tekstual besar (KGR10).
- Zalando Flair Polish Model - Embeddings string kontekstual yang menangkap informasi laten sintaksis -semantik yang melampaui kata embeddings kata standar. Ada dua model "PL-Forward dan PL-Backward"
- Model Polandia Ipipan Word2Vec
- WROCław University of Science and Technology Word2VEC - Model Bahasa Distribusi untuk Polandia yang dilatih pada korpora yang berbeda (KGR10, NKJP, Wikipedia).
- FastText Polandia Model FB - Latih On: Common Crawl, Wikipedia
- FastText Kgr10 Model Binary
- Universal Kalimat Encoder Multilingual - Embeddings Kalimat, itu mencakup 16 bahasa (termasuk Polandia)
- BPEMB: Subword Embeddings termasuk Polandia - mudah digunakan dengan bakat
- Ulmfit untuk TensorFlow 2.0 - Koleksi ini berisi model bahasa berulang ULMFIT yang dilatih di tempat pembuangan wikipedia untuk bahasa Inggris dan Polandia. Model-model itu sendiri dilatih menggunakan Fastai dan kemudian diekspor ke format yang dapat digunakan Tensorflow. Kode tersedia di Bitbucket.
Alat pemrosesan bahasa dan perpustakaan
Morfologik (Java) dan Pymorfologik (Python Wrapper) - Analisis Morfologi Berbasis Kamus
MORFEUSZ - PENGEPERNYA MORFOLOGIS. Lihat juga Plugin Elasticsearch
Stempel (port Python) - Algorithmic Stemmer. Lihat juga Plugin Elasticsearch
Spacy for Polandia - Perpanjang Spacy, perpustakaan NLP siap -produksi yang populer, untuk sepenuhnya mendukung bahasa Polandia.
Spacy -PL oleh IPI Pan - Mengintegrasikan alat dan sumber daya bahasa Polandia yang ada ke dalam pipa spacy
Krnnt Polandia Tagger Morfologi - Krnnt adalah tagger morfologis untuk Polandia berdasarkan kertas jaringan saraf berulang
STANZA (Python) - Paket analisis NLP dari Stanford University. Stanza adalah paket analisis bahasa alami Python. Ini berisi alat, yang dapat digunakan untuk: kalimat/kata tokenisasi, untuk menghasilkan bentuk -bentuk dasar kata -kata, bagian dari fitur bicara dan morfologis, penguraian ketergantungan sintaksis, mengenali entitas yang disebutkan. Berisi model Polandia
Duckling (Haskel) - Perpustakaan untuk Menguras Teks ke dalam Data Terstruktur Dengan Dukungan untuk Polandia
Daftar singkatan Polandia yang dikuratori untuk Tokenizer Kalimat NLTK berdasarkan teks Wikipedia
Makalah, artikel, posting blog
- Benchmark dari beberapa alat NLP Polandia-Lemmatisasi dan analisis morfologis satu kata, lemmatisasi multi-kata, penandaan POS yang disamban, penguraian ketergantungan, penguraian dangkal, pengakuan entitas yang disebutkan, ringkasan dll.
- GitHub repo dengan daftar polesan: embeddings kata dan model bahasa (word2vec, fasttext, sarung tangan, elmo)-https://github.com/sdadas/polish-nlp-sources
- Polandia Word Embeddings Review - Evaluasi Embeddings Kata Polandia: Word2Vec, Fastext dll. Disiapkan oleh berbagai kelompok penelitian. Evaluasi dilakukan dengan tugas analogi kata -kata.
- Evaluasi Kalimat Polandia- Berisi Evaluasi Delapan Metode Representasi Kalimat (Word2Vec, Glove, FastText, Elmo, Flair, Bert, Laser, Use) pada lima tugas linguistik Polandia
- Pelatihan Roberta dari awal - Panduan yang Hilang - Panduan Pengguna Lengkap Untuk Melatih Model Roberta Dengan Penggunaan Huggingface/Transformers untuk Polandia
Kontribusi
Jika Anda memiliki atau mengetahui bahan berharga (kumpulan data, model, posting, artikel) yang hilang di sini, jangan ragu untuk mengedit dan mengirimkan permintaan tarik. Anda juga dapat mengirimi saya catatan di LinkedIn atau melalui email: [email protected].