白俄罗斯NLP和语音处理资源
该存储库包含与白俄罗斯自然语言以及语音处理资源和数据集的链接。
它的灵感来自乌克兰语音处理资源的类似项目:egorsmkv/secement-cognition-uk
托多斯:
- 在列表项目中添加详细说明
- 评估基准测试模型并记录其性能
?语音到文本
?实施
?基准
模型比较由数据集分组。托多
?数据集
- 常见的声音。语音识别数据集
- 来自Knihi.com的数据集。 TODO:数据集的类型是什么?
- Google/Fleurs
- SSRLAB:托多。语音识别数据集
?文本到语音
?实施
- Coquiai实施
- JHLFRFUFYFN/BEL-TTS。 Glowtts + Hifigan
- 代码
- 模型
- 在拥抱面上的演示
- 自定义网页上的演示。演示页面的源代码:此处
- Alex73/Belarusian-TTS。 Yurii Paniv(@Robinhad)的Coquiai实施。
原始仓库和模型已删除 - 现在只有叉
NLP
POS标记
- Koichiyasuoka/Roberta-Small-Belarusian-Upos
- Stanfordnlp/stanza-be
- poritski/yabc_tagger。基于规则的Pos-Tagger和Lemmatizer。
用珀尔写。将Poritski/YABC用作语法基础(?) - Volchek/Beltagger。 Poritski/Yabc_tagger规则的改进版本,基于Pos-Tagger和Lemmatizer。
跨平台,用C ++编写。
已知问题:- 需要在Windows-1251中解释输入数据,不支持UTF-8;
- 标签集与BNKorpus的标签和语法基础不完全兼容
- 使用的语法基础不够饱满。白俄罗斯/grammardb是一个更好的范式来源,但尚未合并
- 后缀表计算脚本未从Perl移植到C ++
- 代码使用Boost Libarary
其他
- PKASILA/BEL -SKLONY-与白俄罗斯名词Declension的网页。演示:sklony.pkasila.net
蒙版语言建模
- Koichiyasuoka/Roberta-Small-Belarusian
数据集
- 奥斯卡
- MC4
- poritski/yabc -эксперы执ы完全
- 白俄罗斯/grammardb-白俄罗斯语言的语法数据库
- tsimafeip/translator-与俄罗斯 - 贝拉鲁斯翻译对的数据集
- 通用依赖关系数据集:
- tatoeba白俄罗斯句子
?♀️?社区和平台:
- BY语料库
- ssrlab.by
- bnkorpus.info
- Github上的白俄罗斯组织
- nlproc.通过github的社区
?未分类