ベラルーシのNLPおよび音声処理リソース
このリポジトリには、ベラルーシの自然言語および音声処理リソースとデータセットへのリンクが含まれています。
ウクライナの音声処理リソースを備えた同様のプロジェクトに触発されています:egorsmkv/speech-recognition-uk
トドス:
- 各リスト項目に詳細な説明を追加します
- ベンチマークでモデルを評価し、パフォーマンスを記録します
?音声からテキスト
?実装
?ベンチマーク
データセットによってグループ化されたモデル比較。トト
?データセット
- 一般的な声。音声認識データセット
- knihi.comのデータセット。 TODO:データセットの種類は何ですか?
- Google/Fleurs
- ssrlab:todo。音声認識データセット
?テキストからスピーチ
?実装
- コキアイの実装
- jhlfrfufyfn/bel-tts。 Glowtts + Hifigan
- コード
- モデル
- Huggingfaceのデモ
- カスタムWebページのデモ。デモページのソースコード:こちら
- Alex73/Belarusian-Tts。 Yurii Paniv(@robinhad)によるコキアイの実装。
元のレポとモデルが削除されました - フォークのみが利用可能になりました
NLP
ポーズタグ
- Koichiyasuoka/Roberta-Small-Belarusian-upos
- Stanfordnlp/Stanza-be
- poritski/yabc_tagger。ルールベースのPO-TaggerとLemmatizer。
Perlで書かれています。 Poritski/YABCを文法ベースとして使用します(?) - volchek/beltagger。 Poritski/yabc_taggerルールベースのPos-taggerおよびlemmatizerの改良バージョン。
C ++で記述されたクロスプラットフォーム。
既知の問題:- Windows-1251で入力データを着用する必要があり、UTF-8はサポートしていません。
- タグセットは、Bnkorpusのタグセットと文法ベースと完全に互換性がありません
- 使用される文法ベースは十分ではありません。 Belarus/Grammardbはより良いパラダイムソースですが、まだ組み込まれていません
- 接尾辞テーブル計算スクリプトは、PerlからC ++に移植されていません
- コードはBoost Libararyを使用します
他の
- Pkasila/bel -sklony-ベラルーシの名詞が偏ったWebページ。デモ:sklony.pkasila.net
マスクされた言語モデリング
- Koichiyasuoka/Roberta-Small-Belarusian
データセット
- オスカー
- MC4
- poritski/yabc -olyэкспеootментал直接€賛美
- Belarus/Grammardb-ベラルーシ語の文法データベース
- Tsimafeip/翻訳者 - ロシア語ベラルーシの翻訳ペアを備えたデータセット
- ユニバーサル依存関係データセット:
- タトーバ・ベラルーシの文章
?♀ ♀️?コミュニティとプラットフォーム:
- corpus.by
- ssrlab.by
- bnkorpus.info
- GithubのBelarus組織
- Githubのnlproc.byコミュニティ
?留められていない