?? Pengenalan Pidato & Sintesis untuk Ukraina
Ringkasan
Repositori ini mengumpulkan tautan ke model, kumpulan data, dan alat untuk proyek-proyek ucapan-ke-teks dan teks-ke-ucapan Ukraina.
Masyarakat
- Perselisihan : https://bit.ly/discord-uds
- Pengenalan Pidato: https://t.me/speech_recognition_uk
- Sintesis ucapan: https://t.me/speech_synthesis_uk
? Pidato-ke-teks
? Implementasi
WAV2VEC2-BERT
- 600m Params: https://huggingface.co/yehor/w2v-bert-2.0-uk-v2 (demo: https://huggingface.co/spaces/yehor/w2v-bert-2.0-uk-v2-demo)
wav2vec2
- 1b params (dengan model bahasa berdasarkan sebagian kecil data): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-lm
- 1b params (dengan model bahasa berdasarkan teks berita): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-news-lm
- 1b params (dengan model bahasa biner berdasarkan teks berita): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-biner-news-lm
- 1b params (dengan model bahasa: oscar): https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk
- 1b params (dengan model bahasa: Oscar): https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk-cv
- 300m Params (dengan model bahasa berdasarkan sebagian kecil data): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-lm
- 300m Params (tetapi tanpa model bahasa): https://huggingface.co/robinhad/wav2vec2-xls-r-300m-uk
- 300m Params (dengan model bahasa berdasarkan porsi kecil data): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm
- 300m Params (dengan model bahasa berdasarkan porsi kecil data) dan data noised: https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm-noisy
- 300m Params (dengan model bahasa berdasarkan teks berita): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-news-lm
- 300m Params (dengan model bahasa berdasarkan teks wikipedia): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-wiTh-wiki-lm
- 90m Params (dengan model bahasa berdasarkan porsi kecil data): https://huggingface.co/yehor/wav2vec2-xls-b-base-uk-with-small-lm
- 90m Params (dengan model bahasa berdasarkan porsi kecil data): https://huggingface.co/yehor/wav2vec2-xls-b-base-uk-with-cv-lm
- Model ONNX (model 1B dan 300M): https://github.com/egorsmkv/ukrainian-onnx-derarel
Anda dapat memeriksa demo di sini: https://github.com/egorsmkv/wav2vec2-uk-demo
data2vec
- Data2vec-large: https://huggingface.co/robinhad/data2vec-large-uk
Sitrinet
- NVIDIA Streaming Citrinet 1024 (UK): https://huggingface.co/nvidia/stt_uk_citrinet_1024_gamma_0_25
- NVIDIA Streaming Citrinet 512 (UK): https://huggingface.co/neongeckocom/stt_uk_citrinet_512_gamma_0_25
ContextNet
FastConformer
Squeezeformer
Squeezeformer-ctc ML: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_ml
- Demo 1: https://huggingface.co/spaces/theodotus/streaming-asr-uk
- Demo 2: https://huggingface.co/spaces/theodotus/buffered-asr-uk
Squeezeformer-ctc sm: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_sm
Squeezeformer-ctc xs: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_xs
Conformer-CTC
Vosk
- Vosk v3 nano (dengan grafik dinamis): https://drive.google.com/file/d/1pwlxmtz7sppm1dthbpm3u66nh6-dsb1n/view?usp=sharing (73 MB)
- Vosk V3 Small (dengan grafik dinamis): https://drive.google.com/file/d/1zkambkw2hfplbmmpq2ar04-i7nhyjqtd/view?usp=sharing (133 MB)
- Vosk V3 (dengan grafik dinamis): https://drive.google.com/file/d/12advn-ewfwejxlznvm0ob-utsnf7nj4q/view?usp=sharing (345 MB)
- Vosk V3: https://drive.google.com/file/d/17umtgquvvwyuicjxet1oz3kwnfywpjw2/view?usp=sharing (343 MB)
- Vosk V2: https://drive.google.com/file/d/1mdln3jwue8bpcr9a0irer-icc1wipgzs/view?usp=hare (339 MB, kode demo: https://github.com/egorsmkv/vosk-vosk--MOINPS://GithUB.com/egorsmkv/vosk-vosk--vosk--github.com
- Vosk V1: https://drive.google.com/file/d/1nzpxrd4gtdi0yvxcfyzqtkktw_tpzqfk/view?usp=sharing (87 MB, model lama dengan data yang kurang terlatih)
Catatan : Model VOSK dilisensikan di bawah Lisensi Apache 2.0 .
Deepspeech
- Deepspeech Menggunakan Transfer Pembelajaran Dari Model Bahasa Inggris: https://github.com/robinhad/voice-recognition-ua
- V0.5: https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.5 (1230+ jam)
- V0.4: https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.4 (1230 jam)
- V0.3: https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.3 (751 jam)
M-CTC-T
- M-CTC-T-Large: https://huggingface.co/speechbrain/m-ctc-t-large
berbisik
- Whisper resmi: https://github.com/openai/whisper
- Whisper (kecil, disesuaikan untuk Ukraina): https://github.com/egorsmkv/whisper-ukrainian
- Whisper (besar, disesuaikan untuk Ukraina): https://huggingface.co/arampacha/whisper-garge-uk-2
- https://huggingface.co/mitchelldehaven/whisper-medium-uk
- https://huggingface.co/mitchelldehaven/whisper-large-v2-uk
Senter
- Conformer senter: https://github.com/egorsmkv/flashlight-ukrainian
Tolok ukur
Benchmark ini menggunakan split uji suara 10 umum.
wav2vec2-bert
| Model | Wer | Cer | Akurasi, % | Wer +lm | Cer +lm | Akurasi +lm , % |
|---|
| Yehor/W2V-BERT-2.0-UK | 0,0727 | 0,0151 | 92,73% | 0,0655 | 0,0139 | 93,45% |
wav2vec2
| Model | Wer | Cer | Akurasi, % | Wer +lm | Cer +lm | Akurasi +lm , % |
|---|
| Yehor/wav2vec2-xls-r-1b-uk-with-lm | 0.1807 | 0,0317 | 81,93% | 0.1193 | 0,0218 | 88,07% |
| Yehor/wav2vec2-xls-r-1b-uk-withiner-biner-news-lm | 0.1807 | 0,0317 | 81,93% | 0,0997 | 0,0191 | 90,03% |
| Yehor/wav2vec2-xls-r-300m-uk-with-lm | 0.2906 | 0,0548 | 70,94% | 0.172 | 0,0355 | 82,8% |
| Yehor/wav2vec2-xls-r-300m-uk-with-news-lm | 0.2027 | 0,0365 | 79,73% | 0,0929 | 0,019 | 90,71% |
| Yehor/wav2vec2-xls-r-300m-uk-wiki-lm | 0.2027 | 0,0365 | 79,73% | 0.1045 | 0.0208 | 89,55% |
| Yehor/wav2vec2-xls-r-base-uk-with-small-lm | 0.4441 | 0,0975 | 55,59% | 0.2878 | 0.0711 | 71,22% |
| Robinhad/WAV2VEC2-XLS-R-300M-UK | 0.2736 | 0,0537 | 72,64% | - | - | - |
| arampacha/wav2vec2-xls-r-1b-uk | 0.1652 | 0,0293 | 83,48% | 0,0945 | 0,0175 | 90,55% |
Citrinet
LM-4GRAM-500K digunakan sebagai LM
| Model | Wer | Cer | Akurasi, % | Wer +lm | Cer +lm | Akurasi +lm , % |
|---|
| nvidia/stt_uk_citrinet_1024_gamma_0_25 | 0,0432 | 0,0094 | 95,68% | 0,0352 | 0,0079 | 96,48% |
| Neongeckocom/stt_uk_citrinet_512_gamma_0_25 | 0,0746 | 0,016 | 92,54% | 0,0563 | 0,0128 | 94,37% |
ContextNet
| Model | Wer | Cer | Akurasi, % |
|---|
| Theodotus/stt_uk_contextNet_512 | 0,0669 | 0,0145 | 93,31% |
FastConformer P&C
Model ini mendukung tanda baca teks dan kapitalisasi
| Model | Wer | Cer | Akurasi, % | Wer +p & c | Cer +p & c | Akurasi +P&C , % |
|---|
| theodotus/stt_ua_fastconformer_hybrid_large_pc | 0,0400 | 0.0102 | 96,00% | 0.0710 | 0,0167 | 92,90% |
Squeezeformer
LM-4GRAM-500K digunakan sebagai LM
| Model | Wer | Cer | Akurasi, % | Wer +lm | Cer +lm | Akurasi +lm , % |
|---|
| Theodotus/STT_UK_SQUEEZEFORMER_CTC_XS | 0.1078 | 0,0229 | 89,22% | 0,0777 | 0,0174 | 92,23% |
| theodotus/stt_uk_squeezeformer_ctc_sm | 0,082 | 0,0175 | 91,8% | 0,0605 | 0,0142 | 93,95% |
| Theodotus/stt_uk_squeezeformer_ctc_ml | 0,0591 | 0,0126 | 94,09% | 0,0451 | 0,0105 | 95,49% |
Flashlight
LM-4GRAM-500K digunakan sebagai LM
| Model | Wer | Cer | Akurasi, % | Wer +lm | Cer +lm | Akurasi +lm , % |
|---|
| Konformer senter | 0.1915 | 0,0244 | 80,85% | 0,0907 | 0,0198 | 90,93% |
data2vec
| Model | Wer | Cer | Akurasi, % |
|---|
| Robinhad/data2vec-large-uk | 0.3117 | 0,0731 | 68,83% |
VOSK
| Model | Wer | Cer | Akurasi, % |
|---|
| v3 | 0,5325 | 0.3878 | 46,75% |
m-ctc-t
| Model | Wer | Cer | Akurasi, % |
|---|
| PidatoBrain/M-CTC-T-Large | 0,57 | 0.1094 | 43% |
whisper
| Model | Wer | Cer | Akurasi, % |
|---|
| kecil | 0.6308 | 0.1859 | 36,92% |
| basis | 0,521 | 0.1408 | 47,9% |
| kecil | 0.3057 | 0,0764 | 69,43% |
| sedang | 0.1873 | 0,044 | 81,27% |
| besar (v1) | 0.1642 | 0,0393 | 83,58% |
| besar (v2) | 0.1372 | 0,0318 | 86,28% |
Versi fine-tuned untuk Ukraina:
| Model | Wer | Cer | Akurasi, % |
|---|
| kecil | 0.2704 | 0,0565 | 72,96% |
| besar | 0.2482 | 0,055 | 75,18% |
Jika Anda ingin menyempurnakan model bisikan pada data sendiri, maka gunakan repositori ini: https://github.com/egorsmkv/whisper-ukrainian
DeepSpeech
| Model | Wer | Cer | Akurasi, % |
|---|
| v0.5 | 0.7025 | 0.2009 | 29,75% |
Perkembangan
- Cara melatih model sendiri menggunakan Kaldi (dalam bahasa Rusia): https://github.com/egorsmkv/speech-recognition-uk/blob/master/vosk-model-creation/instruction.md
- Cara Melatih Model Kenlm Berdasarkan Data Wikipedia Ukraina: https://github.com/egorsmkv/ukwiki-kenlm
- Ekspor versi JIT yang dilacak dari model WAV2VEC2: https://github.com/egorsmkv/wav2vec2-jit
Kumpulan data
Dataset yang dikompilasi dari berbagai sumber terbuka + perusahaan + komunitas = 188.31GB / ~ 1200 jam?
- Penyimpanan Bagikan Didukung oleh NextCloud: https://nx16725.your-storageshare.de/s/cabcbextdz7zndn (gunakan wget untuk mengunduh, mengunduh di browser memiliki batasan kecepatan)
- File torrent: https://academictorrents.com/details/fcf8bb60c59e9eb583df003d54ed61776650Beb8 (188.31 GB)
Voice of America (398 jam)
- Penyimpanan Bagikan Didukung oleh NextCloud: https://nx16725.your-storageshare.de/s/f4nyhxdew2ykzka
Fleurs
- Subset Ukraina: https://huggingface.co/datasets/google/fleurs/viewer/uk_ua/train
Yodas2
- Subset Ukraina:
- https://huggingface.co/datasets/espnet/yodas2/tree/main/data/uk000
- https://huggingface.co/datasets/espnet/yodas2/tree/main/data/uk100
Perusahaan
- Mozilla Common Voice memiliki dataset Ukraina: https://commonvoice.mozilla.org/uk/datasetsets
- M-AILABS Ukraina Corpus Ukraina: http://www.caito.de/data/training/stt_tts/uk_uk.tgz
- Espreso TV Subset: https://blog.gdeltproject.org/visual-explorer-quick-workflow-for-downloading-belarusia-rusia-ukrainian-transcripts-translations/
Podcast Ukraina
- https://huggingface.co/datasets/taras-serda/uk-pods
Cleaned Common Voice 10 (Test Set)
- Repositori: https://github.com/egorsmkv/cv10-uk-testset-clean
Noised Common Voice 10
- Transkripsi: https://www.dropbox.com/s/ohj3y2cq8f4207a/transcriptions.zip?dl=0
- File audio: https://www.dropbox.com/s/v8crgclt9opbrv1/data.zip?dl=0
Masyarakat
- Repositori VoxForge: http://www.repository.voxforge1.org/downloads/uk/trunk/
Lainnya
- ASR Corpus dibuat menggunakan bot telegram untuk Ukraina: https://github.com/egorsmkv/asr-tg-bot-corpus
- Dataset Pidato dengan Ukraina: https://www.caito.de/2019/01/the-m-ailabs-feech-dataset/
Karya terkait
Model bahasa
- LMS Ukraina: https://huggingface.co/yehor/kenlm-ukrainian
Normalisasi teks terbalik:
- WFST untuk normalisasi teks terbalik Ukraina: https://github.com/lociko/ukraine_itn_wfst
Peningkatan teks
- Model tanda baca dan kapitalisasi: https://huggingface.co/dchaplinsky/punctuate_uk_bert (demo: https://huggingface.co/spaces/yehor/punctuation-uk)
Pelurus
- Aligner untuk model WAV2VEC2-BERT: https://github.com/egorsmkv/w2v2-bert-aligner
- Aligner berdasarkan Fasterwhisper (kebanyakan untuk TTS): https://github.com/patriotyk/narizaka
- Aligner Berdasarkan Kaldi: https://github.com/proger/uk
? Teks-ke-speech
Uji kalimat dengan tekanan:
К+ам'ян+ець-Под+ільський - м+істо в Хмельн+ицькій +області Укра+їни, ц+ентр Кам'ян+ець-Под+ільської міськ+ої об'+єднаної територі+альної гром+ади +і Кам'ян+ець-Под+ільського рай+ону.
Tanpa tekanan:
Кам'янець-Подільський - місто в Хмельницькій області України, центр Кам'янець-Подільської міської об'єднаної територіальної громади і Кам'янець-Подільського району.
? Implementasi
Styletts2
P-FLOW TTS
Audio.mp4
Rad-tts
- Rad-tts, suara "lada"
- Rad-tts dengan tiga suara, suara Lada, Tetiana, dan Mykyta
demo.mp4
Coqui tts
V1.0.0 Menggunakan Dataset M-Aailabs: https://github.com/robinhad/ukrainian-tts/releases/tag/v1.0.0 (200.000 langkah)
V2.0.0 Menggunakan Dataset Mykyta/Olena: https://github.com/robinhad/ukrainian-tts/releases/tag/v2.0.0 (140.000 langkah))
tts_output.mp4
Neon tts
- Model coqui tts diimplementasikan dalam plugin neon coqui tts python. Demo interaktif tersedia di Huggingface. Model ini dan yang lainnya dapat diunduh dari Huggingface dan informasi lebih lanjut dapat ditemukan di Neon.ai
neon_tts.mp4
Fastpitch
- Nvidia fastpitch: https://huggingface.co/theodotus/tts_uk_fastpitch
Balacoon Tts
- Balacoon Tts, Suara Lada, Tetiana dan Mykyta. Posting blog tentang rilis model.
Balacoon_tts.mp4
Kumpulan data
- Buka suara teks-ke-ucapan untuk ?? Ukraina : https://huggingface.co/datasets/yehor/opentts-uk
- Suara "Lada", perempuan
- Suara "Tetiana", perempuan
- Suara "Kateryna", perempuan
- Suara "mykyta", laki -laki
- Suara "Olekssa", pria
Karya terkait
Accentors
- https://github.com/neonbohdan/ukrainian-accentor-transformer
- https://github.com/lang-uk/ukrainian-word-stress
- https://github.com/egorsmkv/ukrainian-accentor
Misc
- Alat untuk membuat corpus teks berkualitas tinggi ke pidato (TTS) dari audio + buku teks: https://github.com/patriotyk/narizaka
- Model untuk melakukan normalisasi teks: https://huggingface.co/skypro1111/mbart-large-50-verbalisasi