Belarusian NLP และทรัพยากรการประมวลผลคำพูด
ที่เก็บนี้มีลิงก์ไปยังภาษาธรรมชาติและการประมวลผลคำพูดและชุดข้อมูล
ได้รับแรงบันดาลใจจากโครงการที่คล้ายกันกับทรัพยากรการประมวลผลคำพูดของยูเครน: EGORSMKV/การพูดคุย-UK-UK
Todos:
- เพิ่มคำอธิบายโดยละเอียดในรายการแต่ละรายการ
- ประเมินโมเดลเกี่ยวกับมาตรฐานและบันทึกประสิทธิภาพของพวกเขา
- คำพูดเป็นข้อความ
- การดำเนินการ
- เกณฑ์มาตรฐาน
การเปรียบเทียบแบบจำลองจัดกลุ่มตามชุดข้อมูล สิ่งที่ต้องทำ
- ชุดข้อมูล
- เสียงทั่วไป ชุดข้อมูลการรู้จำเสียงพูด
- ชุดข้อมูลจาก knihi.com TODO: ชุดข้อมูลประเภทอะไร?
- Google/Fleurs
- SSRLAB: TODO ชุดข้อมูลการรู้จำเสียงพูด
- ข้อความเป็นคำพูด
- การดำเนินการ
- การใช้งาน Coquiai
- jhlfrfufyfn/bel-tts Glowtts + Hifigan
- รหัส
- แบบอย่าง
- การสาธิตเกี่ยวกับ HuggingFace
- สาธิตบนหน้าเว็บที่กำหนดเอง ซอร์สโค้ดสำหรับหน้าสาธิต: ที่นี่
- Alex73/Belarusian-TTS การใช้งาน Coquiai โดย Yurii Paniv (@robinhad)
repo & models ดั้งเดิมถูกลบ - เฉพาะส้อมพร้อมใช้งานแล้ว
NLP
การติดแท็ก
- Koichiyasuoka/Roberta-Small-Belarusian-upos
- stanfordnlp/stanza-be
- Poritski/yabc_tagger Pos-tagger ตามกฎและ lemmatizer
เขียนใน Perl ใช้ Poritski/YABC เป็นฐานไวยากรณ์ (?) - Volchek/Beltagg รุ่นที่ได้รับการปรับปรุงของ PORITSKI/YABC_TAGGER กฎ POS-TAGGER และ LEMMATIZER
ข้ามแพลตฟอร์มเขียนใน C ++
ปัญหาที่รู้จัก:- ต้องการข้อมูลอินพุตที่จะได้รับการควบคุมใน Windows-1251 ไม่รองรับ UTF-8
- Tagset ไม่เข้ากันได้อย่างสมบูรณ์กับฐานแท็กและฐานไวยากรณ์ของ Bnkorpus
- ฐานไวยากรณ์ที่ใช้ไม่เต็มพอ Belarus/Grammardb เป็นแหล่งกระบวนทัศน์ที่ดีกว่า แต่ยังไม่ได้รวมเข้าด้วยกัน
- สคริปต์การคำนวณตารางต่อท้ายไม่ได้รับการพอร์ตจาก Perl ถึง C ++
- รหัสใช้ boost libarary
อื่น
- pkasila/bel -sklony - หน้าเว็บที่มีคำนามคำนามเบลารุส ตัวอย่าง: sklony.pkasila.net
การสร้างแบบจำลองภาษาที่สวมหน้ากาก
- Koichiyasuoka/Roberta-Small-Belarusian
ชุดข้อมูล
- ออสการ์
- MC4
- poritski/yabc - эксперыменталныорпселарускаймовы, эli
- Belarus/Grammardb - ฐานข้อมูลไวยากรณ์ของภาษาเบลารุส
- Tsimafeip/Translator - ชุดข้อมูลที่มีคู่แปลรัสเซีย - เบลารุสเซีย
- ชุดข้อมูลการพึ่งพาสากล:
- หน้าหนังสือ
- ที่เก็บ GitHub
- Tatoeba Belarusian ประโยค
?? ชุมชนและแพลตฟอร์ม:
- corpus.by
- ssrlab.by
- bnkorpus.info
- องค์กรเบลารุสบน GitHub
- nlproc.by ชุมชนบน GitHub
- ไม่ได้เรียงลำดับ