??ウクライナ人の音声認識と統合
概要
このリポジトリは、ウクライナのスピーチからテキストへのテキストからスピーチへのプロジェクトのためのモデル、データセット、およびツールへのリンクを収集します。
コミュニティ
- 不一致:https://bit.ly/discord-uds
- 音声認識:https://t.me/speech_recognition_uk
- 音声統合:https://t.me/speech_synthesis_uk
?音声からテキスト
?実装
WAV2VEC2-BERT
- 600mパラメーション:https://huggingface.co/yehor/w2v-bert-2.0-uk-v2(demo:https://huggingface.co/spaces/yehor/w2v-bert-2.0-uk-v2-demo)
WAV2VEC2
- 1b Params(データのごく一部に基づく言語モデルを使用):https://huggingface.co/yehor/wav2vec2-xls-2-uk-with-lm
- 1b Params(ニューステキストに基づいた言語モデルを使用):https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-news-lm
- 1b Params(ニューステキストに基づくバイナリ言語モデルを使用):https://huggingface.co/yehor/wav2vec2-xls-2-uk-with-news-lm
- 1b Params(言語モデル:オスカー):https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk
- 1b Params(言語モデル:オスカー):https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk-cv
- 300m Params(データのごく一部に基づく言語モデルを使用):https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-lm
- 300m Params(ただし、言語モデルなし):https://huggingface.co/robinhad/wav2vec2-xls-r-300m-uk
- 300mパラメーション(データのごく一部に基づく言語モデルを使用):https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm
- 300mパラメーション(データのごく一部に基づく言語モデル)およびノイズ化されたデータ:https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm-noisy
- 300mパラメーション(ニューステキストに基づく言語モデルを使用):https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-news-lm
- 300m Params(Wikipediaテキストに基づく言語モデルを使用):https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-wiki-lm
- 90mパラメーション(データのごく一部に基づく言語モデルを使用):https://huggingface.co/yehor/wav2vec2-xls-r-base-uk-with-small-lm
- 90mパラメージ(データのごく一部に基づく言語モデルを使用):https://huggingface.co/yehor/wav2vec2-xls-r-base-uk-with-cv-lm
- ONNXモデル(1Bおよび300Mモデル):https://github.com/egorsmkv/ukrainian-onx-model
ここでデモを確認できます:https://github.com/egorsmkv/wav2-uk-demo
data2vec
- data2vec-large:https://huggingface.co/robinhad/data2vec-large-uk
シトリネ
- nvidiaストリーミングシトリネット1024(英国):https://huggingface.co/nvidia/stt_uk_citrinet_1024_gamma_0_25
- nvidiaストリーミングシトリネット512(英国):https://huggingface.co/neongeckocom/stt_uk_citrinet_512_gamma_0_25
ContextNet
FastConformer
スクイーズフォーマー
squeezeformer-ctc ml:https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_ml
- デモ1:https://huggingface.co/spaces/theodotus/streaming-asr-uk
- デモ2:https://huggingface.co/spaces/theodotus/buffered-asr-uk
squeezeformer-ctc sm:https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_sm
squeezeformer-ctc xs:https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_xs
配置-CTC
Vosk
- VOSK V3 NANO(動的グラフ付き):https://drive.google.com/file/d/1pwlxmtz7sppm1dthbpm3u66nh6-dsb1n/view?usp = sharing(73 mb)
- Vosk V3 Small(動的グラフ付き):https://drive.google.com/file/d/1zkambkw2hfplbmmpq2ar04-i7nhyjqtd/view?usp = sharing(133 mb)
- VOSK V3(動的グラフ付き):https://drive.google.com/file/d/12advn-ewfwejxlznvm0ob-utsnf7nj4q/view?usp=sharing(345 mb)
- vosk v3:https://drive.google.com/file/d/17umtgquvwyuicjxet1oz3kwnfywpjw2/view?usp = sharing(343 MB)
- VOSK V2:https://drive.google.com/file/d/1mdln3jwue8bpcr9a0irer-icc1wipgzs/view?usp=sharing(339 MB、demo code:https://github.com/egorsmkv/vosk-ukrainiandemo)
- VOSK V1:https://drive.google.com/file/d/1nzpxrd4gtdi0yvxcfyzqtktktw_tpzqfk/view?usp=sharing(87 MB、訓練されたデータが少ない古いモデル)
注:VOSKモデルは、Apacheライセンス2.0に基づいてライセンスされています。
ディープスピーチ
- 英語モデルからの転送学習を使用したDeepSpeech:https://github.com/robinhad/voice-cognition-ua
- V0.5:https://github.com/robinhad/voice-cognition-ua/releases/tag/v0.5(1230+ hours)
- V0.4:https://github.com/robinhad/voice-cognition-ua/releases/tag/v0.4(1230時間)
- v0.3:https://github.com/robinhad/voice-cognition-ua/releases/tag/v0.3(751時間)
M-CTC-T
- M-CTC-T-LARGE:https://huggingface.co/speechbrain/m-ctc-t-large
ささやきます
- 公式ウィスパー:https://github.com/openai/whisper
- Whisper(ウクライナ語の小規模、微調整):https://github.com/egorsmkv/whisper-ukrainian
- ささやき(ウクライナ語のために大きく、微調整):https://huggingface.co/arampacha/whisper-large-uk-2
- https://huggingface.co/mitchelldehaven/whisper-medium-uk
- https://huggingface.co/mitchelldehaven/whisper-large-v2-uk
懐中電灯
- 懐中電灯コンフォーマー:https://github.com/egorsmkv/flashlight-ukrainian
ベンチマーク
このベンチマークでは、一般的な音声10テストスプリットを使用します。
wav2vec2-bert
| モデル | wer | cer | 正確さ、 % | wer +lm | Cer +LM | 精度+LM 、% |
|---|
| yehor/w2v-bert-2.0-uk | 0.0727 | 0.0151 | 92.73% | 0.0655 | 0.0139 | 93.45% |
wav2vec2
| モデル | wer | cer | 正確さ、 % | wer +lm | Cer +LM | 精度+LM 、% |
|---|
| yehor/wav2vec2-xls-r-1b-uk-with-lm | 0.1807 | 0.0317 | 81.93% | 0.1193 | 0.0218 | 88.07% |
| yehor/wav2vec2-xls-r-1b-uk-with-news-lm | 0.1807 | 0.0317 | 81.93% | 0.0997 | 0.0191 | 90.03% |
| yehor/wav2vec2-xls-r-300m-uk-with-lm | 0.2906 | 0.0548 | 70.94% | 0.172 | 0.0355 | 82.8% |
| yehor/wav2vec2-xls-r-300m-uk-with-news-lm | 0.2027 | 0.0365 | 79.73% | 0.0929 | 0.019 | 90.71% |
| yehor/wav2vec2-xls-r-300m-uk-with-wiki-lm | 0.2027 | 0.0365 | 79.73% | 0.1045 | 0.0208 | 89.55% |
| yehor/wav2vec2-xls-r-base-uk-with-small-lm | 0.4441 | 0.0975 | 55.59% | 0.2878 | 0.0711 | 71.22% |
| Robinhad/wav2vec2-xls-r-300m-uk | 0.2736 | 0.0537 | 72.64% | - | - | - |
| arampacha/wav2vec2-xls-r-1b-uk | 0.1652 | 0.0293 | 83.48% | 0.0945 | 0.0175 | 90.55% |
Citrinet
LM-4Gram-500KはLMとして使用されます
| モデル | wer | cer | 正確さ、 % | wer +lm | Cer +LM | 精度+LM 、% |
|---|
| nvidia/stt_uk_citrinet_1024_gamma_0_25 | 0.0432 | 0.0094 | 95.68% | 0.0352 | 0.0079 | 96.48% |
| neongeckocom/stt_uk_citrinet_512_gamma_0_25 | 0.0746 | 0.016 | 92.54% | 0.0563 | 0.0128 | 94.37% |
ContextNet
| モデル | wer | cer | 正確さ、 % |
|---|
| theodotus/stt_uk_contextnet_512 | 0.0669 | 0.0145 | 93.31% |
FastConformer P&C
このモデルは、テキストの句読点と大文字をサポートしています
| モデル | wer | cer | 正確さ、 % | WER +P&C | CER +P&C | 精度+P&C 、% |
|---|
| theodotus/stt_ua_fastconformer_hybrid_large_pc | 0.0400 | 0.0102 | 96.00% | 0.0710 | 0.0167 | 92.90% |
Squeezeformer
LM-4Gram-500KはLMとして使用されます
| モデル | wer | cer | 正確さ、 % | wer +lm | Cer +LM | 精度+LM 、% |
|---|
| theodotus/stt_uk_squeezeformer_ctc_xs | 0.1078 | 0.0229 | 89.22% | 0.0777 | 0.0174 | 92.23% |
| theodotus/stt_uk_squeezeformer_ctc_sm | 0.082 | 0.0175 | 91.8% | 0.0605 | 0.0142 | 93.95% |
| theodotus/stt_uk_squeezeformer_ctc_ml | 0.0591 | 0.0126 | 94.09% | 0.0451 | 0.0105 | 95.49% |
Flashlight
LM-4Gram-500KはLMとして使用されます
| モデル | wer | cer | 正確さ、 % | wer +lm | Cer +LM | 精度+LM 、% |
|---|
| 懐中電灯コンフォーマー | 0.1915 | 0.0244 | 80.85% | 0.0907 | 0.0198 | 90.93% |
data2vec
| モデル | wer | cer | 正確さ、 % |
|---|
| Robinhad/data2vec-large-uk | 0.3117 | 0.0731 | 68.83% |
VOSK
| モデル | wer | cer | 正確さ、 % |
|---|
| V3 | 0.5325 | 0.3878 | 46.75% |
m-ctc-t
| モデル | wer | cer | 正確さ、 % |
|---|
| Speechbrain/M-CTC-T-Large | 0.57 | 0.1094 | 43% |
whisper
| モデル | wer | cer | 正確さ、 % |
|---|
| 小さい | 0.6308 | 0.1859 | 36.92% |
| ベース | 0.521 | 0.1408 | 47.9% |
| 小さい | 0.3057 | 0.0764 | 69.43% |
| 中くらい | 0.1873 | 0.044 | 81.27% |
| 大きい(V1) | 0.1642 | 0.0393 | 83.58% |
| 大きい(V2) | 0.1372 | 0.0318 | 86.28% |
ウクライナ語の微調整バージョン:
| モデル | wer | cer | 正確さ、 % |
|---|
| 小さい | 0.2704 | 0.0565 | 72.96% |
| 大きい | 0.2482 | 0.055 | 75.18% |
Whisperモデルを独自のデータで微調整したい場合は、このリポジトリを使用してください:https://github.com/egorsmkv/whisper-ukrainian
DeepSpeech
| モデル | wer | cer | 正確さ、 % |
|---|
| v0.5 | 0.7025 | 0.2009 | 29.75% |
発達
- Kaldi(ロシア語)を使用して自分のモデルを訓練する方法:https://github.com/egorsmkv/speech-execognition-uk/blob/master/vosk-model-creation/instruction.md
- ウクライナのウィキペディアデータに基づいてkenlmモデルをトレーニングする方法:https://github.com/egorsmkv/ukwiki-kenlm
- WAV2VEC2モデルのトレースされたJITバージョンをエクスポート:https://github.com/egorsmkv/wav2vec2-jit
データセット
さまざまなオープンソース + Companies + Community = 188.31GB / 〜1200時間からのコンパイルされたデータセット?
- Storage Share by nextcloud:https://nx16725.your-storageshare.de/s/cabcbextdz7zndn(wgetを使用してダウンロードし、ブラウザでダウンロードすると速度制限があります)
- トレントファイル:https://academictorrents.com/details/fcf8b60c59e9eb583df003d54ed61776650beb8(188.31 gb)
Voice of America(398時間)
- Storage Share nextcloud:https://nx16725.your-storageshare.de/s/f4nyhxdew2ykzka
フルール
- ウクライナのサブセット:https://huggingface.co/datasets/google/fleurs/viewer/uk_ua/train
Yodas2
- ウクライナのサブセット:
- https://huggingface.co/datasets/espnet/yodas2/main/data/uk000
- https://huggingface.co/datasets/espnet/yodas2/main/data/uk100
企業
- Mozilla Common Voiceには、ウクライナのデータセットがあります:https://commonvoice.mozilla.org/uk/datasets
- m-ailabsウクライナ人コーパスウクライナ人:http://www.caito.de/data/training/stt_tts/uk_uk.tgz
- Espreso TV Subset:https://blog.gdeltproject.org/visual-explorer-quick-workflow-for-downing-belarusian-russian-ukrainian-transcripts-translations/
ウクライナのポッドキャスト
- https://huggingface.co/datasets/taras-sereda/uk-pods
Cleaned CommonVoice 10(テストセット)
- リポジトリ:https://github.com/egorsmkv/cv10-uk-testset-clean
noised common Voice 10
- 転写:https://www.dropbox.com/s/ohj3y2cq8f4207a/transcriptions.zip?dl=0
- オーディオファイル:https://www.dropbox.com/s/v8crgclt9opbrv1/data.zip?dl=0
コミュニティ
- Voxforgeリポジトリ:http://www.repository.voxforge1.org/downloads/uk/trunk/
他の
- ウクライナ語の電報ボットを使用して作成されたASRコーパス:https://github.com/egorsmkv/asr-tg-bot-corpus
- ウクライナ語の音声データセット:https://www.caito.de/2019/01/the-m-ailabspeech-dataset/
関連作品
言語モデル
- ウクライナのLMS:https://huggingface.co/yehor/kenlm-ukrainian
逆テキストの正規化:
- ウクライナの逆テキスト正規化のためのWFST:https://github.com/lociko/ukraine_itn_wfst
テキストの強化
- 句読点および資本化モデル:https://huggingface.co/dchaplinsky/punctuation_uk_bert(demo:https://huggingface.co/spaces/yehor/punctuation-uk)
アライナー
- wav2vec2-bertモデルのaligner:https://github.com/egorsmkv/w2v2-bert-aligner
- FasterWhisper(主にTTS用)に基づくAligner:https://github.com/patriotyk/narizaka
- Kaldiに基づくAligner:https://github.com/proger/uk
?テキストからスピーチ
ストレスを伴うテスト文:
К+ам'ян+ець-Под+ільський - м+істо в Хмельн+ицькій +області Укра+їни, ц+ентр Кам'ян+ець-Под+ільської міськ+ої об'+єднаної територі+альної гром+ади +і Кам'ян+ець-Под+ільського рай+ону.
ストレスなし:
Кам'янець-Подільський - місто в Хмельницькій області України, центр Кам'янець-Подільської міської об'єднаної територіальної громади і Кам'янець-Подільського району.
?実装
styletts2
P-flow TTS
audio.mp4
rad-tts
- rad-tts、声「ラダ」
- 3つの声、ラダ、テティアナ、マイキータの声を備えたrad-tts
demo.mp4
Coqui tts
v1.0.0 M-Ailabsデータセットの使用:https://github.com/robinhad/ukrainian-tts/releases/tag/v1.0.0(200,000ステップ)
v2.0.0 Mykyta/Olena Datasetの使用:https://github.com/robinhad/ukrainian-tts/releases/tag/v2.0.0(140,000ステップ)
tts_output.mp4
ネオンTTS
- Neon Coqui TTS Pythonプラグインに実装されたCoqui TTSモデル。 Interactive DemoはHuggingfaceで利用できます。このモデルと他のモデルはHuggingfaceからダウンロードでき、詳細情報はneon.aiで見つけることができます
neon_tts.mp4
FastPitch
- nvidia fastpitch:https://huggingface.co/theodotus/tts_uk_fastpitch
Balacoon TTS
- Balacoon Tts、Lada、Tetiana、Mykytaの声。モデルリリースに関するブログ投稿。
balacoon_tts.mp4
データセット
- テキストからスピーチへの声を開きますか?ウクライナ人:https://huggingface.co/datasets/yehor/opentts-uk
- 声「ラダ」、女性
- 声「テチアナ」、女性
- 声「カテリナ」、女性
- 音声「Mykyta」、男性
- 声「オレクサ」、男性
関連作品
アクセント
- https://github.com/neonbohdan/ukrainian-accentor-transformer
- https://github.com/lang-uk/ukrainian-word-stress
- https://github.com/egorsmkv/ukrainian-accentor
その他
- オーディオ +テキストブックから高品質のテキスト(TTS)コーパスを作成するツール:https://github.com/patriotyk/narizaka
- テキストの正規化を行うモデル:https://huggingface.co/skypro1111/mbart-large-50-verbalization