?? Распознавание и синтез речи для украинского языка
Обзор
Этот репозиторий собирает ссылки на модели, наборы данных и инструменты для украинских проектов речи в текст и текста в речь .
Сообщество
- Discord : https://bit.ly/discord-uds
- Распознавание речи: https://t.me/speech_recognition_uk
- Синтез речи: https://t.me/speech_synthesis_uk
? Речи к тексту
? Реализации
WAV2VEC2-BERT
- 600M Params: https://huggingface.co/yehor/w2v-bert-2.0-uk-v2 (Демо: https://huggingface.co/spaces/yehor/w2v-bert-2.0-uk-v2-demo)
wav2vec2
- 1b Params (с языковой моделью на основе небольшой части данных): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-lm
- 1B Params (с языковой моделью на основе новостей): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-news-lm
- 1B Params (с двоичным языковым модели на основе новостей): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-binary-news-lm
- 1b Params (с языковой моделью: Оскар): https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk
- 1b Params (с языковой моделью: Oscar): https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk-cv
- Парамы 300 м (с языковой моделью на основе небольшой части данных): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-lm
- 300M Params (но без языковой модели): https://huggingface.co/robinhad/wav2vec2-xls-r-300m-uk
- Парамы 300 м (с языковой моделью на основе небольшой части данных): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm
- Парамы 300 м (с языковой моделью, основанной на небольшой части данных) и Noited Data: https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm-noisy
- Парамы 300 м (с языковой моделью на основе новостей): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-news-lm
- Парамы 300 м (с языковой моделью на основе текстов Википедии): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-wiki-lm
- 90M Params (с языковой моделью на основе небольшой части данных): https://huggingface.co/yehor/wav2vec2-xls-r-base-uk-with-small-lm
- 90M Params (с языковой моделью на основе небольшой части данных): https://huggingface.co/yehor/wav2vec2-xls-r-base-uk-tich-cv-lm
- Модель ONNX (модели 1B и 300M): https://github.com/egorsmkv/ukrainian-onnnx-model
Вы можете проверить демонстрации здесь: https://github.com/egorsmkv/wav2vec2-uk-demo
Data2Vec
- Data2Vec-large: https://huggingface.co/robinhad/data2vec-large-uk
Цитрин
- Nvidia Streaming Citrinet 1024 (Великобритания): https://huggingface.co/nvidia/stt_uk_citrinet_1024_gamma_0_25
- Nvidia Streaming Citrinet 512 (Великобритания): https://huggingface.co/neongeckocom/stt_uk_citrinet_512_gamma_0_25
Контекст
FastConformer
Squeezeformer
Squeezeformer-ctc ML: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_ml
- Демо 1: https://huggingface.co/spaces/theodotus/streaming-asr-uk
- Демо 2: https://huggingface.co/spaces/theodotus/buffered-asr-uk
Squeezeformer-ctc sm: https://huggingface.co/theodotus/stt_uk_squezeformer_ctc_sm
Squeezeformer-ctc xs: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_xs
Confermer-CTC
Воск
- Vosk v3 nano (с динамическим графом): https://drive.google.com/file/d/1pwlxmtz7sppm1dthbpm3u66nh6-dsb1n/view?usp=sharing (73 МБ)
- Vosk V3 Small (с динамическим графом): https://drive.google.com/file/d/1zkambkw2hfplbmmpq2ar04-i7nhyjqtd/view?usp=sharing (133 МБ)
- Vosk v3 (с динамическим графом): https://drive.google.com/file/d/12advn-ewfwejxlznvm0ob-utsnf7nj4q/view?usp=sharing (345 МБ)
- Vosk V3: https://drive.google.com/file/d/17umtgquvvwyuicjxet1oz3kwnfywpjw2/view?usp=sharing (343 МБ)
- Vosk v2: https://drive.google.com/file/d/1mdln3jwue8bpcr9a0irer-icc1wipgzs/view?usp=sharing (339 мб, демо-код: https://github.com/egorsmkv/vosk-ukrainian-demo)
- Vosk V1: https://drive.google.com/file/d/1nzpxrd4gtdi0yvxcfyzqtkktw_tpzqfk/view?usp=sharing (87 Мб, старая модель с менее обученными данными)
Примечание . Модели Vosk лицензированы по Apache License 2.0 .
Глубокая речь
- Deepspeech с использованием переноса обучения из английского
- v0.5: https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.5 (1230+ часов)
- v0.4: https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.4 (1230 часов)
- v0.3: https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.3 (751 часы)
M-CTC-T
- M-CTC-T-LARGE: https://huggingface.co/speechbrain/m-ctc-t-large
шепот
- Официальный шепот: https://github.com/openai/whisper
- Whisper (маленький, тонкий для украинского): https://github.com/egorsmkv/whisper-ukrainian
- Whisper (большой, тонкий для украинского): https://huggingface.co/arampacha/whisper-large-uk-2
- https://huggingface.co/mitchelldehaven/whisper-medium-uk
- https://huggingface.co/mitchelldehaven/whisper-large-v2-uk
Фонарик
- Конформер фонарика: https://github.com/egorsmkv/flashlight-ukrainian
Тесты
В этом эталоне используется общий голосовой 10 -тестовый раздел.
wav2vec2-bert
| Модель | Wer | Чистка | Точность, % | Wer +lm | Cer +lm | Точность +LM , % |
|---|
| Yehor/w2v-bert-2.0-uk | 0,0727 | 0,0151 | 92,73% | 0,0655 | 0,0139 | 93,45% |
wav2vec2
| Модель | Wer | Чистка | Точность, % | Wer +lm | Cer +lm | Точность +LM , % |
|---|
| Yehor/wav2vec2-xls-r-1b-uk-with-lm | 0,1807 | 0,0317 | 81,93% | 0,1193 | 0,0218 | 88,07% |
| Yehor/wav2vec2-xls-r-1b-uk-with-binary-news-lm | 0,1807 | 0,0317 | 81,93% | 0,0997 | 0,0191 | 90,03% |
| Yehor/wav2vec2-xls-r-300m-uk-with-lm | 0,2906 | 0,0548 | 70,94% | 0,172 | 0,0355 | 82,8% |
| Yehor/wav2vec2-xls-r-300m-uk-with-news-lm | 0,2027 | 0,0365 | 79,73% | 0,0929 | 0,019 | 90,71% |
| Yehor/wav2vec2-xls-r-300m-uk-with-wiki-lm | 0,2027 | 0,0365 | 79,73% | 0,1045 | 0,0208 | 89,55% |
| Yehor/wav2vec2-xls-r-base-uk-with-small-lm | 0,4441 | 0,0975 | 55,59% | 0,2878 | 0,0711 | 71,22% |
| Робинхад/WAV2VEC2-XLS-R-300M-UK | 0,2736 | 0,0537 | 72,64% | - | - | - |
| Arampacha/wav2vec2-xls-r-1b-uk | 0,1652 | 0,0293 | 83,48% | 0,0945 | 0,0175 | 90,55% |
Citrinet
LM-4GRAM-500K используется в качестве LM
| Модель | Wer | Чистка | Точность, % | Wer +lm | Cer +lm | Точность +LM , % |
|---|
| nvidia/stt_uk_citrinet_1024_gamma_0_25 | 0,0432 | 0,0094 | 95,68% | 0,0352 | 0,0079 | 96,48% |
| neongeckocom/stt_uk_citrinet_512_gamma_0_25 | 0,0746 | 0,016 | 92,54% | 0,0563 | 0,0128 | 94,37% |
ContextNet
| Модель | Wer | Чистка | Точность, % |
|---|
| theodotus/stt_uk_contextnet_512 | 0,0669 | 0,0145 | 93,31% |
FastConformer P&C
Эта модель поддерживает пунктуацию и капитализацию текста
| Модель | Wer | Чистка | Точность, % | WER +P & C. | CER +P & C. | Точность +P & C , % |
|---|
| theodotus/stt_ua_fastconformer_hybrid_large_pc | 0,0400 | 0,0102 | 96,00% | 0,0710 | 0,0167 | 92,90% |
Squeezeformer
LM-4GRAM-500K используется в качестве LM
| Модель | Wer | Чистка | Точность, % | Wer +lm | Cer +lm | Точность +LM , % |
|---|
| theodotus/stt_uk_squeezeformer_ctc_xs | 0,1078 | 0,0229 | 89,22% | 0,0777 | 0,0174 | 92,23% |
| theodotus/stt_uk_squeezeformer_ctc_sm | 0,082 | 0,0175 | 91,8% | 0,0605 | 0,0142 | 93,95% |
| theodotus/stt_uk_squeezeformer_ctc_ml | 0,0591 | 0,0126 | 94,09% | 0,0451 | 0,0105 | 95,49% |
Flashlight
LM-4GRAM-500K используется в качестве LM
| Модель | Wer | Чистка | Точность, % | Wer +lm | Cer +lm | Точность +LM , % |
|---|
| Конформер фонарика | 0,1915 | 0,0244 | 80,85% | 0,0907 | 0,0198 | 90,93% |
data2vec
| Модель | Wer | Чистка | Точность, % |
|---|
| Robinhad/Data2VEC-Large-UK | 0,3117 | 0,0731 | 68,83% |
VOSK
| Модель | Wer | Чистка | Точность, % |
|---|
| v3 | 0,5325 | 0,3878 | 46,75% |
m-ctc-t
| Модель | Wer | Чистка | Точность, % |
|---|
| Speechbrain/M-CTC-T-Large | 0,57 | 0,1094 | 43% |
whisper
| Модель | Wer | Чистка | Точность, % |
|---|
| крошечный | 0,6308 | 0,1859 | 36,92% |
| база | 0,521 | 0,1408 | 47,9% |
| маленький | 0,3057 | 0,0764 | 69,43% |
| середина | 0,1873 | 0,044 | 81,27% |
| большой (v1) | 0,1642 | 0,0393 | 83,58% |
| большой (v2) | 0,1372 | 0,0318 | 86,28% |
Точная настройка версия для украинского:
| Модель | Wer | Чистка | Точность, % |
|---|
| маленький | 0,2704 | 0,0565 | 72,96% |
| большой | 0,2482 | 0,055 | 75,18% |
Если вы хотите точно настроить модель шепота на собственных данных, то используйте этот репозиторий: https://github.com/egorsmkv/whisper-ukrainian
DeepSpeech
| Модель | Wer | Чистка | Точность, % |
|---|
| v0.5 | 0,7025 | 0,2009 | 29,75% |
Разработка
- Как обучить собственную модель, используя Kaldi (на русском языке): https://github.com/egorsmkv/speech-recoggonition-uk/blob/master/vosk-model-reation/instruction.md
- Как обучить модель Kenlm на основе Украинской Википедии Данные: https://github.com/egorsmkv/ukwikik-kenlm
- Экспорт модели WAV2VEC2 моделей WAV2VEC2: https://github.com/egorsmkv/wav2vec2-jit
Наборы данных
Скомпилированный набор данных из разных открытых источников + компаний + сообщество = 188,31 ГБ / ~ 1200 часов?
- Хранение обмена приводится к следующему ткк.
- Торрент файл: https://academictorrents.com/details/fcf8bb60c59e9eb583df003d54ed61776650beb8 (188.31 ГБ)
Голос Америки (398 часов)
- Случайный обмен приведенными на следующем месте: https://nx16725. Yourstorageshare.de/s/f4nyhxdew2ykzka
Fleurs
- Украинское подмножество: https://huggingface.co/datasets/google/fleurs/viewer/uk_ua/train
Йодас2
- Украинские подмножества:
- https://huggingface.co/datasets/espnet/yodas2/tree/main/data/uk000
- https://huggingface.co/datasets/espnet/yodas2/tree/main/data/uk100
Компании
- Mozilla Common Voice имеет украинский набор данных: https://commonvoice.mozilla.org/uk/datasets
- M-AILABS Украинный корпус Украина: http://www.caito.de/data/training/stt_tts/uk_uk.tgz
- ESPRESO TV SUBLE: https://blog.gdeltproject.org/visual-explorer-quick-workflow-for-downloading-belarusian-russian-ukrainian-transcripts-translations/
Украинские подкасты
- https://huggingface.co/datasets/taras-sereda/uk-pods
Очищенный общий голос 10 (тестовый набор)
- Репозиторий: https://github.com/egorsmkv/cv10-uk-testset-clean
Зверящий общий голос 10
- Транскрипции: https://www.dropbox.com/s/ohj3y2cq8f4207a/transcriptions.zip?dl=0
- Аудиофайлы: https://www.dropbox.com/s/v8crgclt9opbrv1/data.zip?dl=0
Сообщество
- Voxforge Repository: http://www.repository.voxforge1.org/downloads/uk/trunk/
Другой
- ASR Corpus создан с использованием бота Telegram для Украины: https://github.com/egorsmkv/asr-tg-bot-corpus
- Набор данных речи с украинским: https://www.caito.de/2019/01/the-m-ailabs-peech-dataset/
Связанные работы
Языковые модели
- Украинский LMS: https://huggingface.co/yehor/kenlm-ukrainian
Нормализация обратной текста:
- WFST для украинской нормализации обратного текста: https://github.com/lociko/ukraine_itn_wfst
Усовершенствование текста
- МОДЕЛЯ ПРИМЕДА И КАПИЛИЗАЦИИ: https://huggingface.co/dchaplinsky/punctation_uk_bert (demo: https://huggingface.co/spaces/yehor/punctation-uk)
Выравнивания
- Aligner для моделей WAV2VEC2-BERT: https://github.com/egorsmkv/w2v2-bert-alignerer
- Aligner, основанный на быстрее (в основном для TTS): https://github.com/patriotyk/narizaka
- Aligner на основе Kaldi: https://github.com/proger/uk
? Текст в речь
Тестовое предложение со стрессами:
К+ам'ян+ець-Под+ільський - м+істо в Хмельн+ицькій +області Укра+їни, ц+ентр Кам'ян+ець-Под+ільської міськ+ої об'+єднаної територі+альної гром+ади +і Кам'ян+ець-Под+ільського рай+ону.
Без стрессов:
Кам'янець-Подільський - місто в Хмельницькій області України, центр Кам'янець-Подільської міської об'єднаної територіальної громади і Кам'янець-Подільського району.
? Реализации
Styletts2
P-Flow TTS
audio.mp4
Рад-Ттс
- Rad-tts, голос "Лада"
- Rad-tts с тремя голосами, голосами Лада, Тетианы и Микиты
Demo.mp4
Coqui Tts
v1.0.0 Использование набора данных m-ailabs: https://github.com/robinhad/ukrainian-tts/releases/tag/v1.0.0 (200 000 шагов)
v2.0.0 Использование набора данных Mykyta/Olena: https://github.com/robinhad/ukrainian-tts/releases/tag/v2.0.0 (140 000 шагов)
tts_output.mp4
Неоновый тт
- Модель Coqui TTS, реализованная в плагине Neon Coqui TTS Python. Интерактивная демонстрация доступна на Huggingface. Эта модель и другие могут быть загружены из Huggingface, и дополнительную информацию можно найти на Neon.ai
neon_tts.mp4
Fastpitch
- Nvidia fastpitch: https://huggingface.co/theodotus/tts_uk_fastpitch
Балакун Ттс
- Балакун ТТ, голоса Лада, Тетианы и Микиты. Сообщение в блоге о выпуске модели.
balacoon_tts.mp4
Наборы данных
- Откройте голоса текста в речь для ?? Украинский : https://huggingface.co/datasets/yehor/opentts-uk
- Голос "Лада", женщина
- Голос "Тетиана", женщина
- Голос "Катерина", женщина
- Голос "Микита", мужчина
- Голос "Олека", мужчина
Связанные работы
Акценторы
- https://github.com/neonbohdan/ukrainian-accentor-transformer
- https://github.com/lang-uk/ukrainian-word-stress
- https://github.com/egorsmkv/ukrainian-accentor
Разное
- Инструмент для создания высококачественного текста в речи (TTS) Корпус из аудио + учебники: https://github.com/patriotyk/narizaka
- Модель для нормализации текста: https://huggingface.co/skypro1111/mbart-large-50-verbalization