awesome nlp polish - Unduh Kode Sumber awesome nlp polish

awesome nlp polish

Kode sumber lainnya

1.0.0

Unduh

Awesome-nlp-polish

Daftar sumber daya yang dikuratori yang didedikasikan untuk pemrosesan bahasa alami (NLP) dalam bahasa Polandia. Model, Alat, Dataset.

Logo Polandia NLP yang Luar Biasa

Daftar isi:

Data teks Polandia
Model dan embeddings
Perpustakaan dan alat
Makalah, artikel, blog
Kontribusi

Dataset Teks Polandia

Datset berorientasi tugas

Benchmark Klej (Kompleksowa Lista Ewaluacji Językowych) adalah seperangkat sembilan tugas evaluasi untuk pemahaman bahasa Polandia.
Dataset Poleval -
- Klasifikasi Pidato Benci -Distuish antara tweet normal/tidak berbahaya (kelas: 0) dan tweet yang berisi segala jenis informasi berbahaya (kelas: 1) [Poleval 2019 Task6] [Mirror Gdrive]
Polandia CDSCORPUS - Dataset untuk Semantik Distribusi Komposisi. CDSCORPUS Polandia terdiri dari 10K pasangan kalimat Polandia yang dianotasi manusia untuk keterkaitan semantik dan persyaratan.
Wroclaw Corpus of Consumer Reviews Sentiment (WCCRS) - Corpus dari ulasan Polandia dianotasi dengan sentimen di tingkat seluruh teks ( teks ) dan pada tingkat kalimat ( kalimat ) untuk domain berikut: hotel, obat -obatan, produk, dan universitas (ulasan*)
Ermlab Opine Dataset- Ulasan Opineo - GDrive
Hatespeech Corpus berisi lebih dari 2000 posting yang dirangkak dari Public Polandia Web.http: //zil.ipipan.waw.pl/Hatespeech
Dataset Analogi Polandia - Contoh: "Ateny Grecja Bagdad Irak" - Berguna untuk evaluasi embeddings kata
NKJP - National Corpus of Polandia. Ini berisi literatur klasik, surat kabar harian, majalah dan jurnal spesialis, transkrip percakapan, dan berbagai teks pendek dan internet. Hanya sub-corpus kecil yang tersedia untuk diunduh (GNU GLP V.3). Kontak langsung dan mungkin perlu untuk mendapatkan corpus penuh.
Dataset Analisis Sentimen Polemo 2.0 untuk Conll
Dataset Musik Polandia- Dataset Musik Polandia adalah dataset terbesar dengan informasi tentang artis, lagu, dan lirik di Polandia (sekarang hanya artis hip hop).

Teks mentah

Clean Polandia Oscar-Corpus Oscar Polandia yang Diprotes, Dihapus: Kalimat Asing (Non-Polish), Petugas Polandia Non-Valid (mis. Enums), corpus preproses dengan @ermlab
Oscar atau Open Super -Large merayap Almanach Corpus - adalah korpus multibahasa besar yang diperoleh dengan klasifikasi bahasa dan penyaringan corpus crawl biasa. Berisi teks Polandia 109GB atau 49GB.
Polandia Wikipedia Dump - Salinan bulanan reguler Wikipedia Polandia. Lebih dari 4GB teks.
Opus - Corpus Paralel Terbuka - Anda dapat memilih bahasa dan hanya mengunduh file Polandia
- Polandia OpenSubtitles V2018 - Kalimat 45.9m, Token Polandia 287.1m, Koleksi subtitle film yang diterjemahkan dari OpenSubtitles RAW TXT Corpus (Unpacked 7.2GB) Tokenized TXK Corpus (Unpacked 7.6GB).
- Paracrawl V5 Kalimat 6.4m, Token Polandia 157.1m Raw Txt Corpus (Unpacked 1.1GB) Tokenized TXT Corpus
Teks korpus parlemen Polandia dari Prosiding Parlemen Polandia, SEJM dan Senat

Model dan embeddings

Model Transformator Polandia

Model Roberta Polandia - Model dilatih pada korpus yang terdiri dari tempat pembuangan wikipedia Polandia, buku dan artikel Polandia, korpus parlemen Polandia
Politbert - Model Roberta Polandia dilatih tentang Wikipedia Polandia, Sastra Polandia dan Oscar. Asumsi utama adalah bahwa teks berkualitas akan memberikan model yang baik.
Polbert - Model Bert Polandia. Model dilatih dengan kode yang disediakan di repositori GitHub Google Bert. Gabungkan dengan huggingface/transformers
ALLEGRO HERBERT - Model Bert Polandia yang dilatih pada korpora Polandia hanya menggunakan tujuan MLM dengan menutupi seluruh kata.
Slavicbert-Model Bert multibahasa -BERT, Slavia Cased: 4 Bahasa (Bulgaria, Ceko, Polandia, Rusia), 12-layer, 768-tersembunyi, 12-heads, parameter 110m, 600MB. Ada juga model Slavicbert lain http://docs.deeppavlov.ai/en/master/features/models/bert.html tapi saya punya masalah untuk mengubahnya menjadi pytorch.

Model lain

Elmo Embeddings - Model embeddings elmo untuk bahasa Polandia yang dilatih pada korpora tekstual besar (KGR10).
Zalando Flair Polish Model - Embeddings string kontekstual yang menangkap informasi laten sintaksis -semantik yang melampaui kata embeddings kata standar. Ada dua model "PL-Forward dan PL-Backward"
Model Polandia Ipipan Word2Vec
WROCław University of Science and Technology Word2VEC - Model Bahasa Distribusi untuk Polandia yang dilatih pada korpora yang berbeda (KGR10, NKJP, Wikipedia).
FastText Polandia Model FB - Latih On: Common Crawl, Wikipedia
FastText Kgr10 Model Binary
Universal Kalimat Encoder Multilingual - Embeddings Kalimat, itu mencakup 16 bahasa (termasuk Polandia)
BPEMB: Subword Embeddings termasuk Polandia - mudah digunakan dengan bakat
Ulmfit untuk TensorFlow 2.0 - Koleksi ini berisi model bahasa berulang ULMFIT yang dilatih di tempat pembuangan wikipedia untuk bahasa Inggris dan Polandia. Model-model itu sendiri dilatih menggunakan Fastai dan kemudian diekspor ke format yang dapat digunakan Tensorflow. Kode tersedia di Bitbucket.

Alat pemrosesan bahasa dan perpustakaan

Morfologik (Java) dan Pymorfologik (Python Wrapper) - Analisis Morfologi Berbasis Kamus
MORFEUSZ - PENGEPERNYA MORFOLOGIS. Lihat juga Plugin Elasticsearch
Stempel (port Python) - Algorithmic Stemmer. Lihat juga Plugin Elasticsearch
Spacy for Polandia - Perpanjang Spacy, perpustakaan NLP siap -produksi yang populer, untuk sepenuhnya mendukung bahasa Polandia.
Spacy -PL oleh IPI Pan - Mengintegrasikan alat dan sumber daya bahasa Polandia yang ada ke dalam pipa spacy
Krnnt Polandia Tagger Morfologi - Krnnt adalah tagger morfologis untuk Polandia berdasarkan kertas jaringan saraf berulang
STANZA (Python) - Paket analisis NLP dari Stanford University. Stanza adalah paket analisis bahasa alami Python. Ini berisi alat, yang dapat digunakan untuk: kalimat/kata tokenisasi, untuk menghasilkan bentuk -bentuk dasar kata -kata, bagian dari fitur bicara dan morfologis, penguraian ketergantungan sintaksis, mengenali entitas yang disebutkan. Berisi model Polandia
Duckling (Haskel) - Perpustakaan untuk Menguras Teks ke dalam Data Terstruktur Dengan Dukungan untuk Polandia
Daftar singkatan Polandia yang dikuratori untuk Tokenizer Kalimat NLTK berdasarkan teks Wikipedia

Makalah, artikel, posting blog

Benchmark dari beberapa alat NLP Polandia-Lemmatisasi dan analisis morfologis satu kata, lemmatisasi multi-kata, penandaan POS yang disamban, penguraian ketergantungan, penguraian dangkal, pengakuan entitas yang disebutkan, ringkasan dll.
GitHub repo dengan daftar polesan: embeddings kata dan model bahasa (word2vec, fasttext, sarung tangan, elmo)-https://github.com/sdadas/polish-nlp-sources
Polandia Word Embeddings Review - Evaluasi Embeddings Kata Polandia: Word2Vec, Fastext dll. Disiapkan oleh berbagai kelompok penelitian. Evaluasi dilakukan dengan tugas analogi kata -kata.
Evaluasi Kalimat Polandia- Berisi Evaluasi Delapan Metode Representasi Kalimat (Word2Vec, Glove, FastText, Elmo, Flair, Bert, Laser, Use) pada lima tugas linguistik Polandia
Pelatihan Roberta dari awal - Panduan yang Hilang - Panduan Pengguna Lengkap Untuk Melatih Model Roberta Dengan Penggunaan Huggingface/Transformers untuk Polandia

Kontribusi

Jika Anda memiliki atau mengetahui bahan berharga (kumpulan data, model, posting, artikel) yang hilang di sini, jangan ragu untuk mengedit dan mengirimkan permintaan tarik. Anda juga dapat mengirimi saya catatan di LinkedIn atau melalui email: [email protected].

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-19
ukuran 28.15KB
Berasal dari Github

Aplikasi Terkait

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
awesome swift

2024-11-03
Game Iblis yang Luar Biasa

2023-04-16
Iklan yang Luar Biasa

2022-08-08

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua