? Spracherkennung und Synthese für ukrainisch
Überblick
Dieses Repository sammelt Links zu Modellen, Datensätzen und Tools für ukrainische Sprach- und Text- und Text-zu-Sprache- Projekte.
Gemeinschaft
- Discord : https://bit.ly/discord-uds
- Spracherkennung: https://t.me/speech_recognition_uk
- Sprachsynthese: https://t.me/speech_synthesis_uk
? Sprache zu Text
? Implementierungen
WAV2VEC2-TERT
- 600m Params: https://huggingface.co/yehor/w2v-tbert-2.0-uk-v2 (Demo: https://huggingface.co/spaces/yehor/w2v-tbert-2.0-uk-v2-demo)
WAV2VEC2
- 1B-Parameter (mit Sprachmodell basierend auf einem kleinen Teil der Daten): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-lm
- 1B Params (mit Sprachmodell basierend auf Nachrichtentexten): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-new-lm
- 1B-Parameter (mit Binärsprachenmodell basierend auf Nachrichtentexten): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-inary-news-lm
- 1B Params (mit Sprachmodell: Oscar): https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk
- 1B Params (mit Sprachmodell: Oscar): https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk-cv
- 300 m Params (mit Sprachmodell basierend auf einem kleinen Teil der Daten): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-lm
- 300 m Params (jedoch ohne Sprachmodell): https://huggingface.co/robinhad/wav2vec2-xls-r-300m-uk
- 300 m Params (mit Sprachmodell basierend auf einem kleinen Teil der Daten): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm
- 300 m Params (mit Sprachmodell basierend auf einem kleinen Teil der Daten) und nehmen Daten: https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm-noisy
- 300 m Params (mit Sprachmodell basierend auf Nachrichtentexten): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-new-new-lm
- 300 m Params (mit Sprachmodell basierend auf Wikipedia-Texten): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-wiki-lm
- 90 m Params (mit Sprachmodell basierend auf einem kleinen Teil der Daten): https://huggingface.co/yehor/wav2vec2-xls--base-uk-with-small-lm
- 90 m Params (mit Sprachmodell basierend auf einem kleinen Teil der Daten): https://huggingface.co/yehor/wav2vec2-xls--base-uk-with-cv-lm
- ONNX-Modell (1B- und 300-m-Modelle): https://github.com/egorsmkv/ukrainian-onnx-model
Hier können Sie Demos überprüfen: https://github.com/egorsmkv/wav2vec2-uk-demo
Data2Vec
- Data2Vec-large: https://huggingface.co/robinhad/data2vec-large-uk
Citrinet
- Nvidia Streaming Citrinet 1024 (UK): https://huggingface.co/nvidia/stt_uk_citrinet_1024_gamma_0_25
- Nvidia Streaming Citrinet 512 (UK): https://huggingface.co/neongeckocom/stt_uk_citrinet_512_gamma_0_25
Kontextnetz
Fastconformer
Squeezeformer
Squeezeformer-CTC ML: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_ml
- Demo 1: https://huggingface.co/spaces/theodotus/streaming-asr-uk
- Demo 2: https://huggingface.co/spaces/theodotus/buffered-asr-uk
Squeezeformer-ctc SM: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_sm
Squeezeformer-ctc XS: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_xs
Konformer-CTC
Vosk
- Vosk v3 nano (mit dynamischem graph): https://drive.google.com/file/d/1pwlxmtz7sppm1dthbpm3u66nh6-dsb1n/view?usp=sharing (73 MB)
- Vosk v3 klein (mit dynamischem graph): https://drive.google.com/file/d/1zKambkw2hfplbmmpq2ar04-i7nhyjqtd/view?usp=sharing (133 MB)
- Vosk v3 (mit dynamischem Graph): https://drive.google.com/file/d/12advn-ewwejxlznvm0ob-utsnf7nj4q/view?usp=sharing (345 MB)
- Vosk v3: https://drive.google.com/file/d/17umtgquvwyuicjxet1oz3kwnfywpjw2/view?usp=sharing (343 MB)
- Vosk v2: https://drive.google.com/file/d/1mdln3jwue8bpcr9a0irer-icc1wipgzs/view?usp=sharing (339 MB, Demo-Code: https://github.com/egorsmkv/voskv/voskv/vosk-ukrain
- Vosk v1: https://drive.google.com/file/d/1nzpxrd4gtdi0yvxcfyzqtkktw_tpzqfk/view?usp=sharing (87 MB, ein altes Modell mit weniger geschultem Daten)
Hinweis : VOSK -Modelle sind unter Apache -Lizenz 2.0 lizenziert.
Deepspeech
- DeepSpeech unter Verwendung von Transferlernen aus dem englischen Modell: https://github.com/robinhad/voice-recognition-ua
- v0.5: https://github.com/robinhad/voice-recognition-ua/releases/v0.5 (1230+ Stunden)
- v0.4: https://github.com/robinhad/voice-recognition-ua/releases/v0.4 (1230 Stunden)
- v0.3: https://github.com/robinhad/voice-recognition-ua/releases/v0.3 (751 Stunden)
M-CTC-T
- M-CTC-T-Large: https://huggingface.co/speechbrain/m-ctc-t-large
flüstern
- Offizielles Flüsterung: https://github.com/openai/whisper
- flüstert (klein, gut für Ukrainer): https://github.com/egorsmkv/whisper-ukraainian
- flüstert (groß, feinstimmig für ukrainisch): https://huggingface.co/arampacha/whisper-large-uk-2
- https://huggingface.co/Mitchelldehaven/whisper-medium-uk
- https://huggingface.co/Mitchelldehaven/whisper-large-v2-uk
Taschenlampe
- Taschenlampenkonformer: https://github.com/egorsmkv/flaslight-ukraainian
Benchmarks
Dieser Benchmark verwendet gemeinsame Sprach 10 -Test -Split.
wav2vec2-bert
| Modell | Wer | Cer | Genauigkeit, % | Wer +lm | Cer +lm | Genauigkeit +LM , % |
|---|
| Yehor/W2V-Bert-2.0-UK | 0,0727 | 0,0151 | 92,73% | 0,0655 | 0,0139 | 93,45% |
wav2vec2
| Modell | Wer | Cer | Genauigkeit, % | Wer +lm | Cer +lm | Genauigkeit +LM , % |
|---|
| Yehor/wav2VEC2-XLS-R-1B-UK-with-lm | 0,1807 | 0,0317 | 81,93% | 0,1193 | 0,0218 | 88,07% |
| Yehor/wav2VEC2-XLS-R-1B-UK-with-Binär-News-LM | 0,1807 | 0,0317 | 81,93% | 0,0997 | 0,0191 | 90,03% |
| Yehor/Wav2VEC2-XLS-R-300M-UK-With-LM | 0,2906 | 0,0548 | 70,94% | 0,172 | 0,0355 | 82,8% |
| Yehor/wav2VEC2-XLS-R-300M-UK-with-News-LM | 0,2027 | 0,0365 | 79,73% | 0,0929 | 0,019 | 90,71% |
| Yehor/wav2VEC2-XLS-R-300M-UK-with-wiki-lm | 0,2027 | 0,0365 | 79,73% | 0,1045 | 0,0208 | 89,55% |
| Yehor/wav2VEC2-XLS-R-Base-UK-with-Small-LM | 0,4441 | 0,0975 | 55,59% | 0,2878 | 0,0711 | 71,22% |
| Robinhad/WAV2VEC2-XLS-R-300M-UK | 0,2736 | 0,0537 | 72,64% | - - | - - | - - |
| Arampacha/WAV2VEC2-XLS-R-1B-UK | 0,1652 | 0,0293 | 83,48% | 0,0945 | 0,0175 | 90,55% |
Citrinet
LM-4Gram-500k wird als LM verwendet
| Modell | Wer | Cer | Genauigkeit, % | Wer +lm | Cer +lm | Genauigkeit +LM , % |
|---|
| nvidia/stt_uk_citrinet_1024_gamma_0_25 | 0,0432 | 0,0094 | 95,68% | 0,0352 | 0,0079 | 96,48% |
| Neongeckocom/STT_UK_CITRINET_512_GAMMA_0_25 | 0,0746 | 0,016 | 92,54% | 0,0563 | 0,0128 | 94,37% |
ContextNet
| Modell | Wer | Cer | Genauigkeit, % |
|---|
| theodotus/stt_uk_contextnet_512 | 0,0669 | 0,0145 | 93,31% |
FastConformer P&C
Dieses Modell unterstützt die Interpunktion und Kapitalisierung von Text
| Modell | Wer | Cer | Genauigkeit, % | Wer +p & c | Cer +p & c | Genauigkeit +P & C , % |
|---|
| theodotus/stt_ua_fastconformer_hybrid_large_pc | 0,0400 | 0.0102 | 96,00% | 0,0710 | 0,0167 | 92,90% |
Squeezeformer
LM-4Gram-500k wird als LM verwendet
| Modell | Wer | Cer | Genauigkeit, % | Wer +lm | Cer +lm | Genauigkeit +LM , % |
|---|
| theodotus/stt_uk_squeezeformer_ctc_xs | 0,1078 | 0,0229 | 89,22% | 0,0777 | 0,0174 | 92,23% |
| theodotus/stt_uk_squeezeformer_ctc_sm | 0,082 | 0,0175 | 91,8% | 0,0605 | 0,0142 | 93,95% |
| theodotus/stt_uk_squeezeformer_ctc_ml | 0,0591 | 0,0126 | 94,09% | 0,0451 | 0,0105 | 95,49% |
Flashlight
LM-4Gram-500k wird als LM verwendet
| Modell | Wer | Cer | Genauigkeit, % | Wer +lm | Cer +lm | Genauigkeit +LM , % |
|---|
| Taschenlampenkonformer | 0,1915 | 0,0244 | 80,85% | 0,0907 | 0,0198 | 90,93% |
data2vec
| Modell | Wer | Cer | Genauigkeit, % |
|---|
| Robinhad/Data2VEC-Large-UK | 0,3117 | 0,0731 | 68,83% |
VOSK
| Modell | Wer | Cer | Genauigkeit, % |
|---|
| v3 | 0,5325 | 0,3878 | 46,75% |
m-ctc-t
| Modell | Wer | Cer | Genauigkeit, % |
|---|
| Sprachbrain/M-CTC-T-Large | 0,57 | 0,1094 | 43% |
whisper
| Modell | Wer | Cer | Genauigkeit, % |
|---|
| winzig | 0,6308 | 0,1859 | 36,92% |
| Base | 0,521 | 0,1408 | 47,9% |
| klein | 0,3057 | 0,0764 | 69,43% |
| Medium | 0,1873 | 0,044 | 81,27% |
| groß (v1) | 0,1642 | 0,0393 | 83,58% |
| groß (v2) | 0,1372 | 0,0318 | 86,28% |
Feinabstimmungsversion für Ukrainer:
| Modell | Wer | Cer | Genauigkeit, % |
|---|
| klein | 0,2704 | 0,0565 | 72,96% |
| groß | 0,2482 | 0,055 | 75,18% |
Wenn Sie ein Whisper-Modell für eigene Daten fein abtun möchten, verwenden Sie dieses Repository: https://github.com/egorsmkv/whisper-ukrainian
DeepSpeech
| Modell | Wer | Cer | Genauigkeit, % |
|---|
| v0.5 | 0,7025 | 0,2009 | 29,75% |
Entwicklung
- Wie man ein eigenes Modell mit Kaldi (auf Russisch) trainiert: https://github.com/egorsmkv/speech-recognition-uk/blob/master/vosk-model-creation/instruction.md.md
- So trainieren Sie ein Kenlm-Modell, das auf ukrainischen Wikipedia-Daten basiert: https://github.com/egorsmkv/ukwiki-kenlm
- Exportieren Sie eine verfolgte JIT-Version von WAV2VEC2-Modellen: https://github.com/egorsmkv/wav2vec2-jit
Datensätze
Kompilierter Datensatz aus verschiedenen offenen Quellen + Unternehmen + Community = 188,31 GB / ~ 1200 Stunden?
- Speicherfreigabe von NextCloud: https://nx16725.your-storageshare.de/s/cabcbextdz7zndn (Verwenden Sie WGE, um herunterzuladen, herunterzuladen, in einem Browser hat Geschwindigkeitsbeschränkungen)
- Torrent -Datei: https://academictorrents.com/details/fcf8bb60c59e9eb583df003d54ed61776650beb8 (188.31 GB)
Voice of America (398 Stunden)
- Speicherfreigabe von NextCloud: https://nx16725.your-storageshare.de/s/f4nyhxdew2ykzka
Fleurs
- Ukrainische Untergruppe: https://huggingface.co/datasets/google/fleurs/viewer/uk_ua/train
Yodas2
- Ukrainische Untergruppen:
- https://huggingface.co/datasets/espnet/yodas2/tree/main/data/uk000
- https://huggingface.co/datasets/espnet/yodas2/tree/main/data/uk100
Unternehmen
- Mozilla Common Voice hat den ukrainischen Datensatz: https://commonvoice.mozilla.org/uk/datasets
- M-Sailabs Ukrainischer Korpus ukrainisch: http://www.caito.de/data/training/stt_tts/uk_uk.tgz
- Espreso-TV-Subset: https://blog.gdeltproject.org/visual-explorer-quick-workflow-for-Downloading-Belarussian-russian-ukrainian-transcripts-translations/
Ukrainische Podcasts
- https://huggingface.co/datasets/taras-sereda/uk-pods
Reinigte gemeinsame Stimme 10 (Testset)
- Repository: https://github.com/egorsmkv/cv10-uk-testset-clean
Noised Common Voice 10
- Transkriptionen: https://www.dropbox.com/s/ohj3y2cq8f4207a/transcriptions.zip?dl=0
- Audio -Dateien: https://www.dropbox.com/s/v8crgclt9opbrv1/data.zip?dl=0
Gemeinschaft
- VoxForge Repository: http://www.repository.voxforge1.org/downloads/uk/trunk/
Andere
- ASR Corpus erstellt mit einem Telegramm-Bot für ukrainisch: https://github.com/egorsmkv/asr-tg-bot-corpus
- Sprachdatensatz mit ukrainisch
Verwandte Werke
Sprachmodelle
- Ukrainer LMS: https://huggingface.co/yehor/kenlm-ukraainian
Inverse Textnormalisierung:
- WFST für ukrainische inverse Textnormalisierung: https://github.com/lociko/ukraine_itn_wfst
Textverbesserung
- Interpunktion und Kapitalisierungsmodell: https://huggingface.co/dchaplinsky/punctuation_uk_bert (Demo: https://huggingface.co/spaces/yehor/punctuation-uk)
Aligner
- Aligner für WAV2VEC2-BERT-Modelle: https://github.com/egorsmkv/w2v2-tbert-aligner
- Aligner basierend auf Fasterwhisper (hauptsächlich für TTS): https://github.com/patriotyk/narizaka
- Aligner basierend auf Kaldi: https://github.com/proger/uk
? Text-to-Speech
Testsatz mit Belastungen:
К+ам'ян+ець-Под+ільський - м+істо в Хмельн+ицькій +області Укра+їни, ц+ентр Кам'ян+ець-Под+ільської міськ+ої об'+єднаної територі+альної гром+ади +і Кам'ян+ець-Под+ільського рай+ону.
Ohne Stress:
Кам'янець-Подільський - місто в Хмельницькій області України, центр Кам'янець-Подільської міської об'єднаної територіальної громади і Кам'янець-Подільського району.
? Implementierungen
Styletts2
- Styletts2 Demo & der Code
P-Flow TTS
Audio.mp4
Rad-tts
- Rad-tts, die Stimme "lada"
- Rad-tts mit drei Stimmen, Stimmen von Lada, Tetiana und Mykyta
Demo.mp4
Coqui tts
v1.0.0 Verwenden von M-Sailabs Dataset: https://github.com/robinhad/ukrainian-tts/releass/tag/v1.0.0 (200.000 Schritte)
v2.0.0 Verwenden von mykyta/olena dataset: https://github.com/robinhad/ukrainian-tts/releases/tag/v2.0.0 (140.000 Schritte)
tts_output.mp4
Neon TTS
- Coqui TTS -Modell im Neon Coqui TTS Python Plugin. Eine interaktive Demo ist auf Umarmung erhältlich. Dieses Modell und andere können von Huggingface heruntergeladen werden, und weitere Informationen finden Sie unter neon.ai
neon_ts.mp4
Fastpitch
- Nvidia fastpitch: https://huggingface.co/theodotus/tts_uk_fastpitch
Balacoon TTS
- Balacoon TTS, Stimmen von Lada, Tetiana und Mykyta. Blog -Beitrag zur Modellveröffentlichung.
balacoon_ts.mp4
Datensätze
- Offene Text-to-Speech-Stimmen für ?? Ukrainisch : https://huggingface.co/datasets/yehor/opentts-uk
- Stimme "Lada", weiblich
- Stimme "Tetiana", weiblich
- Stimme "Kateryna", weiblich
- Stimme "mykyta", männlich
- Stimme "Oleksa", männlich
Verwandte Werke
Akzente
- https://github.com/neonbohdan/ukrainian-accentor-transformer
- https://github.com/lang-uk/ukrainian-word-sstress
- https://github.com/egorsmkv/ukrainian-accentor
Miser
- Tool, um einen hochwertigen Text mit Sprach (TTS) aus Audio + Lehrbüchern zu erstellen: https://github.com/patriotyk/narizaka
- Ein Modell zur Normalisierung der Text