白俄羅斯NLP和語音處理資源
該存儲庫包含與白俄羅斯自然語言以及語音處理資源和數據集的鏈接。
它的靈感來自烏克蘭語音處理資源的類似項目:egorsmkv/secement-cognition-uk
托多斯:
- 在列表項目中添加詳細說明
- 評估基準測試模型並記錄其性能
?語音到文本
?實施
?基準
模型比較由數據集分組。托多
?數據集
- 常見的聲音。語音識別數據集
- 來自Knihi.com的數據集。 TODO:數據集的類型是什麼?
- Google/Fleurs
- SSRLAB:托多。語音識別數據集
?文本到語音
?實施
- Coquiai實施
- JHLFRFUFYFN/BEL-TTS。 Glowtts + Hifigan
- 代碼
- 模型
- 在擁抱面上的演示
- 自定義網頁上的演示。演示頁面的源代碼:此處
- Alex73/Belarusian-TTS。 Yurii Paniv(@Robinhad)的Coquiai實施。
原始倉庫和模型已刪除 - 現在只有叉
NLP
POS標記
- Koichiyasuoka/Roberta-Small-Belarusian-Upos
- Stanfordnlp/stanza-be
- poritski/yabc_tagger。基於規則的Pos-Tagger和Lemmatizer。
用珀爾寫。將Poritski/YABC用作語法基礎(?) - Volchek/Beltagger。 Poritski/Yabc_tagger規則的改進版本,基於Pos-Tagger和Lemmatizer。
跨平台,用C ++編寫。
已知問題:- 需要在Windows-1251中解釋輸入數據,不支持UTF-8;
- 標籤集與BNKorpus的標籤和語法基礎不完全兼容
- 使用的語法基礎不夠飽滿。白俄羅斯/grammardb是一個更好的範式來源,但尚未合併
- 後綴表計算腳本未從Perl移植到C ++
- 代碼使用Boost Libarary
其他
- PKASILA/BEL -SKLONY-與白俄羅斯名詞Declension的網頁。演示:sklony.pkasila.net
蒙版語言建模
- Koichiyasuoka/Roberta-Small-Belarusian
數據集
- 奧斯卡
- MC4
- poritski/yabc -эксперы執ы完全
- 白俄羅斯/grammardb-白俄羅斯語言的語法數據庫
- tsimafeip/translator-與俄羅斯 - 貝拉魯斯翻譯對的數據集
- 通用依賴關係數據集:
- tatoeba白俄羅斯句子
? ♀️?社區和平台:
- BY語料庫
- ssrlab.by
- bnkorpus.info
- Github上的白俄羅斯組織
- nlproc.通過github的社區
?未分類