NLP Belarusia dan Sumber Daya Pemrosesan Pidato
Repositori ini berisi tautan ke Bahasa Alami Belarusia dan sumber daya pemrosesan dan kumpulan data.
Ini terinspirasi oleh proyek serupa dengan sumber daya pemrosesan pidato Ukraina: egorsmkv/pidato-pengenalan-UK
Todos:
- Tambahkan deskripsi terperinci untuk masing -masing item daftar
- mengevaluasi model pada tolok ukur dan mencatat kinerjanya
? Pidato-ke-teks
? Implementasi
? Tolok ukur
Perbandingan model dikelompokkan berdasarkan dataset. Todo
? Kumpulan data
- Suara umum. Dataset pengenalan ucapan
- Dataset dari Knihi.com. TODO: Apa jenis datasetnya?
- Google/Fleurs
- SSRLAB: TODO. Dataset pengenalan ucapan
? Teks-ke-speech
? Implementasi
- Implementasi Coquiai
- JHLFRFUFYFN/BEL-TTS. Glowtts + Hifigan
- Kode
- Model
- Demo di Huggingface
- Demo pada halaman web khusus. Kode sumber untuk halaman demo: di sini
- Alex73/Belarusia-tts. Implementasi Coquiai oleh Yurii Paniv (@robinhad).
Repo & model asli dihapus - hanya garpu yang tersedia sekarang
NLP
Pos-tagging
- Koichiyasuoka/Roberta-Small-Belarusia-Upos
- stanfordnlp/stanza-be
- PORITSKI/YABC_Tagger. POS-TGERGE DAN LEMMATIZER Berbasis Aturan.
Ditulis dalam perl. Menggunakan PORITSKI/YABC sebagai pangkalan tata bahasa (?) - Volchek/Beltagger. Versi PoRitski/YABC_Tagger berbasis aturan PORITSKI/YABC_Tagger.
Cross-Platform, ditulis dalam C ++.
Masalah yang Diketahui:- Membutuhkan data input untuk dikodekan di Windows-1251, tidak mendukung UTF-8;
- Tagset tidak sepenuhnya kompatibel dengan tagset dan basis tata bahasa Bnkorpus
- Basis tata bahasa yang digunakan tidak cukup penuh. Belarus/Grammardb adalah sumber paradigma yang lebih baik tetapi belum dimasukkan
- Skrip perhitungan tabel akhiran tidak porting dari perl ke c ++
- Kode menggunakan Boost Libarary
Lainnya
- Pkasila/Bel -Sklony - Halaman Web dengan Declension Kata Bekas Belarusia. Demo: sklony.pkasila.net
Pemodelan bahasa bertopeng
- Koichiyasuoka/Roberta-Small-Belarusia
Kumpulan data
- Oscar
- MC4
- PORITSKI/YABC - ээсперыентальны корпус беларускай мовы, экбм
- Belarus/GrammardB - Database Tata Bahasa dari Bahasa Belarusia
- Tsimafeip/Translator - Dataset dengan pasangan terjemahan Rusia -Belarusia
- Dataset Ketergantungan Universal:
- Halaman
- Repositori GitHub
- Kalimat Tatoeba Belarusia
? ️? Komunitas dan platform:
- Corpus.by
- ssrlab.by
- bnkorpus.info
- Organisasi Belarus di GitHub
- nlproc.by community di github
? Tidak disortir
- Tidak ada apa -apa untuk saat ini