?烏克蘭人的語音識別與綜合
概述
該存儲庫收集指向烏克蘭語音到文本和文本到語音項目的模型,數據集和工具的鏈接。
社區
- 不和諧:https://bit.ly/discord-uds
- 語音識別:https://t.me/speech_recognition_uk
- 語音綜合:https://t.me/speech_synthesis_uk
?語音到文本
?實施
wav2Vec2-bert
- 600m參數:https://huggingface.co/yehor/w2v-bert-2.0-uk-v2(demo:https://huggingface.co/spaces/yeehor/w2v-bert-2.0-bert-2.0-bert-2.0-uk-uk-v2-demo)
WAV2VEC2
- 1B參數(基於數據的語言模型的數據少數):https://huggingface.co/yehor/wav2vec2-xls-xls-rs-r-1b-1b-uk-with-lm
- 1B參數(基於新聞文本的語言模型):https://huggingface.co/yehor/wav2vec2-xls-rs-r-1b-1b-uk-with-with-news-news-lm
- 1b params(基於新聞文本的二進制語言模型):https://huggingface.co/yehor/wav2vec2-xls-xls-r-1b-1b-uk-with-binary-news-lm
- 1B參數(使用語言模型:OSCAR):https://huggingface.co/arampacha/wav2vec2-xls-rs-r-1b-1b-uk
- 1B參數(使用語言模型:OSCAR):https://huggingface.co/arampacha/wav2vec2-xls-rs-r-1b-1b-uk-cv
- 300m參數(基於少量數據的語言模型):https://huggingface.co/yehor/wav2vec2-xls-xls-r-300m-300m-300m-uk-with-lm
- 300m參數(但沒有語言模型):https://huggingface.co/robinhad/wav2vec2-xls-r-300m-300m-uk
- 300m參數(基於數據的語言模型,數據模型):https://huggingface.co/yehor/wav2vec2-xls-xls-r-300m-300m-300m--uk-with-with-small-lm
- 300m參數(基於數據的語言模型,基於數據的一小部分)和NOISED數據:https://huggingface.co/yehor/wav2vec2-xls-r-300m-300m-300m-300m-uk-with-with-small-lm-noisy
- 300m參數(基於新聞文本的語言模型):https://huggingface.co/yehor/wav2vec2-xls-xls-r-300m-300m-300m-uk-with-news-news-lm
- 300m參數(基於Wikipedia文本的語言模型):https://huggingface.co/yehor/wav2vec2-xls-r-300m-300m-300m--uk-with-with-with-with-with-with-lm
- 90m參數(基於數據的語言模型的數據少數):https://huggingface.co/yehor/wav2vec2-xls-r-base-base-base-uk-with-with-small-lm
- 90m參數(基於數據的語言模型,數據的一小部分):https://huggingface.co/yehor/wav2vec2-xls-r-base-base-base-uk-with-cv-lm
- ONNX型號(1B和300m型號):https://github.com/egorsmkv/ukrainian-onnx-model
您可以在此處查看演示:https://github.com/egorsmkv/wav2vec2-uk-demo
data2vec
- data2vec-large:https://huggingface.co/robinhad/data2vec-large-uk
Citrinet
- NVIDIA流citrinet 1024(英國):https://huggingface.co/nvidia/stt_uk_citrinet_1024_gamma_0_25
- NVIDIA流citrinet 512(英國):https://huggingface.co/neongeckocom/stt_uk_citrinet_512_gamma_0_25
上下文網
fastConformer
擠壓器
SqueezeFormer-CTC ML:https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_ml
- 演示1:https://huggingface.co/spaces/theodotus/streaming-asr-uk
- 演示2:https://huggingface.co/spaces/theodotus/buffered-asr-uk
SqueezeFormer-CTC SM:https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_sm
SqueezeFormer-CTC XS:https://huggingface.co/theodotus/stt_uk_squeizeformer_ctc_xs
構象-CTC
沃斯克
- VOSK V3 NANO(帶有動態圖):https://drive.google.com/file/d/1pwlxmtz7sppm1dthbpm3u66nh6nh6-dsb1n/view? usp = sharing(73 mb)
- Vosk V3小(帶有動態圖):https://drive.google.com/file/d/1zkambkkw2hfplbmmpq2ar04-i7nhyjqtd/view? usp = Sharing(133 MB)
- VOSK V3(帶有動態圖):https://drive.google.com/file/d/12advn-ewfwejxlznvm0ob-utsnf7nj4q/view?usp = sharing(345 MB)
- VOSK V3:https://drive.google.com/file/d/17umtgquvvvwyuicjxet1oz3kwnfywpjw2/view2/view? usp = sharing(343 mb)
- Vosk V2:https://drive.google.com/file/d/1mdln3jwue8bpcr9a0irer-icc1wipgzs/view?usp = sharing(339 MB,演示代碼:https://github.com.com.com.com.com.com/egorsmkkv/vosk-cosk-cosk-cosk-coskrainian-demian-demian-demian-demian-democo.
- vosk v1:https://drive.google.com/file/d/1nzpxrd4gtdi0yvxcfyzqtkkkkktkkktkkktw_tpzqfk/view? usp = Sharing(87 MB,舊模型,訓練有素的數據較少)
注意:Vosk型號是根據Apache許可證2.0許可的。
深史
- 使用英語模型轉移學習的深層語言:https://github.com/robinhad/voice-recognition-ua
- v0.5:https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.5(1230+小時)
- v0.4:https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.4(1230小時)
- v0.3:https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.3(751小時)
M-CTC-T
- m-ctc-t-large:https://huggingface.co/speechbrain/m-ctc-t-large
耳語
- 官方耳語:https://github.com/openai/whisper
- 耳語(烏克蘭人小,微調):https://github.com/egorsmkv/whisper-ukrainian
- 耳語(大型,對烏克蘭人進行微調):https://huggingface.co/arampacha/whisper-large-uk-2
- https://huggingface.co/mitchelldehaven/whisper-medium-uk
- https://huggingface.co/mitchelldehaven/whisper-large-v2-uk
手電筒
- 手電筒構象異構體:https://github.com/egorsmkv/flashlight-ukrainian
基準
該基準測試使用常見的語音10測試拆分。
wav2vec2-bert
| 模型 | wer | CER | 準確性, % | +lm | CER +LM | 精度+LM ,% |
|---|
| yhor/w2v-bert-2.0-uk | 0.0727 | 0.0151 | 92.73% | 0.0655 | 0.0139 | 93.45% |
wav2vec2
| 模型 | wer | CER | 準確性, % | +lm | CER +LM | 精度+LM ,% |
|---|
| yhor/wav2Vec2-xls-r-1b-uk-with-lm | 0.1807 | 0.0317 | 81.93% | 0.1193 | 0.0218 | 88.07% |
| yhor/wav2Vec2-xls-r-1b-uk-with-binary-news-lm | 0.1807 | 0.0317 | 81.93% | 0.0997 | 0.0191 | 90.03% |
| yhor/wav2Vec2-xls-r-300m-uk-uk-with-lm | 0.2906 | 0.0548 | 70.94% | 0.172 | 0.0355 | 82.8% |
| yhor/wav2Vec2-xls-r-300m-uk-uk-uk-with-news-lm | 0.2027 | 0.0365 | 79.73% | 0.0929 | 0.019 | 90.71% |
| yhor/wav2Vec2-xls-r-300m-uk-uk-with-with-with-lm | 0.2027 | 0.0365 | 79.73% | 0.1045 | 0.0208 | 89.55% |
| yhor/wav2Vec2-xls-r-base-uk-uk-with-small-lm | 0.4441 | 0.0975 | 55.59% | 0.2878 | 0.0711 | 71.22% |
| Robinhad/wav2Vec2-XLS-R-300M-uk | 0.2736 | 0.0537 | 72.64% | - | - | - |
| Arampacha/wav2Vec2-xls-r-1b-uk | 0.1652 | 0.0293 | 83.48% | 0.0945 | 0.0175 | 90.55% |
Citrinet
LM-4克-500K用作LM
| 模型 | wer | CER | 準確性, % | +lm | CER +LM | 精度+LM ,% |
|---|
| nvidia/stt_uk_citrinet_1024_gamma_0_25 | 0.0432 | 0.0094 | 95.68% | 0.0352 | 0.0079 | 96.48% |
| neongeckocom/stt_uk_citrinet_512_gamma_0_25 | 0.0746 | 0.016 | 92.54% | 0.0563 | 0.0128 | 94.37% |
ContextNet
| 模型 | wer | CER | 準確性, % |
|---|
| theodotus/stt_uk_contextnet_512 | 0.0669 | 0.0145 | 93.31% |
FastConformer P&C
該模型支持文本標點符號和資本化
| 模型 | wer | CER | 準確性, % | +P&C | CER +P&C | 準確性+P&C ,% |
|---|
| theodotus/stt_ua_fastConformer_hybrid_large_pc | 0.0400 | 0.0102 | 96.00% | 0.0710 | 0.0167 | 92.90% |
Squeezeformer
LM-4克-500K用作LM
| 模型 | wer | CER | 準確性, % | +lm | CER +LM | 精度+LM ,% |
|---|
| theodotus/stt_uk_squeezeformer_ctc_xs | 0.1078 | 0.0229 | 89.22% | 0.0777 | 0.0174 | 92.23% |
| theodotus/stt_uk_squeezeformer_ctc_sm | 0.082 | 0.0175 | 91.8% | 0.0605 | 0.0142 | 93.95% |
| theodotus/stt_uk_squeezeformer_ctc_ml | 0.0591 | 0.0126 | 94.09% | 0.0451 | 0.0105 | 95.49% |
Flashlight
LM-4克-500K用作LM
| 模型 | wer | CER | 準確性, % | +lm | CER +LM | 精度+LM ,% |
|---|
| 手電筒構象異構體 | 0.1915 | 0.0244 | 80.85% | 0.0907 | 0.0198 | 90.93% |
data2vec
| 模型 | wer | CER | 準確性, % |
|---|
| Robinhad/data2vec-large-uk | 0.3117 | 0.0731 | 68.83% |
VOSK
| 模型 | wer | CER | 準確性, % |
|---|
| V3 | 0.5325 | 0.3878 | 46.75% |
m-ctc-t
| 模型 | wer | CER | 準確性, % |
|---|
| 語音腦/M-CTC-T-large | 0.57 | 0.1094 | 43% |
whisper
| 模型 | wer | CER | 準確性, % |
|---|
| 微小的 | 0.6308 | 0.1859 | 36.92% |
| 根據 | 0.521 | 0.1408 | 47.9% |
| 小的 | 0.3057 | 0.0764 | 69.43% |
| 中等的 | 0.1873 | 0.044 | 81.27% |
| 大(V1) | 0.1642 | 0.0393 | 83.58% |
| 大(V2) | 0.1372 | 0.0318 | 86.28% |
烏克蘭人的微調版本:
| 模型 | wer | CER | 準確性, % |
|---|
| 小的 | 0.2704 | 0.0565 | 72.96% |
| 大的 | 0.2482 | 0.055 | 75.18% |
如果您想根據自己的數據微調竊竊私語模型,請使用此存儲庫:https://github.com/egorsmkv/whisper-ukrainian
DeepSpeech
| 模型 | wer | CER | 準確性, % |
|---|
| v0.5 | 0.7025 | 0.2009 | 29.75% |
發展
- 如何使用Kaldi(在俄語)訓練自己的模型:https://github.com/egorsmkv/speech-recognition-uk/blob/master/vosk-model-creation/instruction.md
- 如何根據烏克蘭Wikipedia數據培訓KENLM模型:https://github.com/egorsmkv/ukwiki-kenlm
- 導出wav2Vec2模型的追踪JIT版本:https://github.com/egorsmkv/wav2vec2-jit
數據集
從不同的開源 +公司 + Community = 188.31GB / 〜1200小時收集數據集?
- 存儲共享由NextCloud提供動力:https://nx16725.your-storageshare.de/s/cabcbextddz7zndn(使用WGET下載,在瀏覽器中下載,瀏覽器的下載速度限制)
- 洪流文件:https://academictorrents.com/details/fcf8bb60c59eb583df003d54ed617766650beb8(188.31 GB)
美國的聲音(398小時)
- 存儲共享由NextCloud提供動力:https://nx16725.your-storageshare.de/s/f4nyhxdew2ykzka
逃跑
- 烏克蘭子集:https://huggingface.co/datasets/google/fleurs/viewer/uk_ua/train
yodas2
- 烏克蘭子集:
- https://huggingface.co/datasets/espnet/yodas2/tree/main/main/data/uk000
- https://huggingface.co/datasets/espnet/yodas2/tree/main/main/data/uk100
公司
- Mozilla Common Voice具有烏克蘭數據集:https://commonvoice.mozilla.org/uk/datasets
- M-ailabs烏克蘭語料庫烏克蘭人:http://www.caito.de/data/training/stt_tts/uk_uk.tgz
- ESPRESO電視子集:https://blog.gdeltproject.org/visual-explorer-quick-workflow-for-downloading-belarusian-russian-russian-russian-russian-ukrainian-translacts-translations-translations-translations/translations/
烏克蘭播客
- https://huggingface.co/datasets/taras-sereda/uk-pods
清潔通用的語音10(測試集)
- 存儲庫:https://github.com/egorsmkv/cv10-uk-testset-clean
噪音通用聲音10
- 轉錄:https://www.dropbox.com/s/ohj3y2cq8f4207a/transcriptions.zip?dl = 0
- 音頻文件:https://www.dropbox.com/s/v8clgclt9opbrv1/data.zip?dl = 0
社區
- voxforge存儲庫:http://www.repository.voxforge1.org/downloads/uk/trunk/
其他
- 使用電報機器人為烏克蘭人創建的ASR語料庫:https://github.com/egorsmkv/asr-tg-bot-corpus
- 與烏克蘭人的演講數據集:https://www.caito.de/2019/01/the-m-ailabs-speech-dataset/
相關作品
語言模型
- 烏克蘭LMS:https://huggingface.co/yehor/kenlm-ukrainian
逆文本歸一化:
- 烏克蘭逆文本歸一化的WFST:https://github.com/lociko/ukraine_itn_wfst
文本增強
- 標點符號和大寫模型:https://huggingface.co/dchaplinsky/punctuation_uk_bert(demo:https://huggingface.co/spaces/yehor/punctuation-unctuation-uk)
對準器
- WAV2VEC2-BERT模型的一線器:https://github.com/egorsmkv/w2v2-bert-aligner
- 基於更快的對準器(主要用於tts):https://github.com/patriotyk/narizaka
- 基於kaldi的對準器:https://github.com/proger/uk
?文本到語音
帶壓力的測試句子:
К+ам'ян+ець-Под+ільський - м+істо в Хмельн+ицькій +області Укра+їни, ц+ентр Кам'ян+ець-Под+ільської міськ+ої об'+єднаної територі+альної гром+ади +і Кам'ян+ець-Под+ільського рай+ону.
沒有壓力:
Кам'янець-Подільський - місто в Хмельницькій області України, центр Кам'янець-Подільської міської об'єднаної територіальної громади і Кам'янець-Подільського району.
?實施
styletts2
p-flow tts
音頻.mp4
rad-tts
- rad-tts,聲音“ lada”
- 帶有三個聲音的rad-tt,拉達,提蒂亞納和mykyta的聲音
demo.mp4
coqui tts
V1.0.0使用M-ailabs數據集:https://github.com/robinhad/ukrainian-tts/Releases/tag/v1.0.0(200,000步)
v2.0.0使用mykyta/olena數據集:https://github.com/robinhad/ukrainian-tts/releases/tag/v2.0.0(140,000步)
tts_output.mp4
霓虹燈TT
- 在霓虹燈Coqui TTS Python插件中實現的Coqui TTS模型。 HuggingFace上可以使用交互式演示。該模型和其他模型可以從Huggingface下載,可以在Neon.ai上找到更多信息
neon_tts.mp4
FastPitch
- nvidia fastpitch:https://huggingface.co/theodotus/tts_uk_fastpitch
巴拉肯TT
- 巴拉肯TT,拉達的聲音,Tetiana和Mykyta。關於模型發布的博客文章。
balacoon_tts.mp4
數據集
- 打開文本到語音的聲音?烏克蘭人:https://huggingface.co/datasets/yehor/opentts-uk
- 女性聲音“ Lada”
- 女性聲音“ Tetiana”
- 女性聲音“ Kateryna”
- 聲音“ mykyta”,男性
- 聲音“ Oleksa”,男性
相關作品
口音
- https://github.com/neonbohdan/ukrainian-accentor-transformer
- https://github.com/lang-uk/ukrainian-word-ards
- https://github.com/egorsmkv/ukrainian-accentor
雜項
- 從音頻 +教科書中製作高質量文本(TTS)語料庫的工具:https://github.com/patriotyk/narizaka
- 進行文本歸一化的模型:https://huggingface.co/skypro1111/mbart-large-50-verbalization