speech recognition uk Download - speech recognition uk Quellcode Download

speech recognition uk

AI-Quellcode

1.0.0

Herunterladen

? Spracherkennung und Synthese für ukrainisch

Überblick

Dieses Repository sammelt Links zu Modellen, Datensätzen und Tools für ukrainische Sprach- und Text- und Text-zu-Sprache- Projekte.

Gemeinschaft

Discord : https://bit.ly/discord-uds
Spracherkennung: https://t.me/speech_recognition_uk
Sprachsynthese: https://t.me/speech_synthesis_uk

? Sprache zu Text

? Implementierungen

WAV2VEC2-TERT

600m Params: https://huggingface.co/yehor/w2v-tbert-2.0-uk-v2 (Demo: https://huggingface.co/spaces/yehor/w2v-tbert-2.0-uk-v2-demo)

WAV2VEC2

1B-Parameter (mit Sprachmodell basierend auf einem kleinen Teil der Daten): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-lm
1B Params (mit Sprachmodell basierend auf Nachrichtentexten): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-new-lm
1B-Parameter (mit Binärsprachenmodell basierend auf Nachrichtentexten): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-inary-news-lm
1B Params (mit Sprachmodell: Oscar): https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk
1B Params (mit Sprachmodell: Oscar): https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk-cv
300 m Params (mit Sprachmodell basierend auf einem kleinen Teil der Daten): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-lm
300 m Params (jedoch ohne Sprachmodell): https://huggingface.co/robinhad/wav2vec2-xls-r-300m-uk
300 m Params (mit Sprachmodell basierend auf einem kleinen Teil der Daten): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm
300 m Params (mit Sprachmodell basierend auf einem kleinen Teil der Daten) und nehmen Daten: https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm-noisy
300 m Params (mit Sprachmodell basierend auf Nachrichtentexten): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-new-new-lm
300 m Params (mit Sprachmodell basierend auf Wikipedia-Texten): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-wiki-lm
90 m Params (mit Sprachmodell basierend auf einem kleinen Teil der Daten): https://huggingface.co/yehor/wav2vec2-xls--base-uk-with-small-lm
90 m Params (mit Sprachmodell basierend auf einem kleinen Teil der Daten): https://huggingface.co/yehor/wav2vec2-xls--base-uk-with-cv-lm
ONNX-Modell (1B- und 300-m-Modelle): https://github.com/egorsmkv/ukrainian-onnx-model

Hier können Sie Demos überprüfen: https://github.com/egorsmkv/wav2vec2-uk-demo

Data2Vec

Data2Vec-large: https://huggingface.co/robinhad/data2vec-large-uk

Citrinet

Nvidia Streaming Citrinet 1024 (UK): https://huggingface.co/nvidia/stt_uk_citrinet_1024_gamma_0_25
Nvidia Streaming Citrinet 512 (UK): https://huggingface.co/neongeckocom/stt_uk_citrinet_512_gamma_0_25

Kontextnetz

NVIDIA Streaming ContextNet 512 (UK): https://huggingface.co/theodotus/stt_uk_contextnet_512

Fastconformer

FASTCONFORMER HYBRID TRANSDUCER-CTC Large P & C: https://huggingface.co/theodotus/stt_ua_fastconformer_hybrid_large_pc
- Demo: https://huggingface.co/spaces/theodotus/asr-uk-punctuation-capitalization

Squeezeformer

Squeezeformer-CTC ML: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_ml
- Demo 1: https://huggingface.co/spaces/theodotus/streaming-asr-uk
- Demo 2: https://huggingface.co/spaces/theodotus/buffered-asr-uk
Squeezeformer-ctc SM: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_sm
Squeezeformer-ctc XS: https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_xs

Konformer-CTC

https://huggingface.co/taras-sereda/uk-pods-conformer

Vosk

Vosk v3 nano (mit dynamischem graph): https://drive.google.com/file/d/1pwlxmtz7sppm1dthbpm3u66nh6-dsb1n/view?usp=sharing (73 MB)
Vosk v3 klein (mit dynamischem graph): https://drive.google.com/file/d/1zKambkw2hfplbmmpq2ar04-i7nhyjqtd/view?usp=sharing (133 MB)
Vosk v3 (mit dynamischem Graph): https://drive.google.com/file/d/12advn-ewwejxlznvm0ob-utsnf7nj4q/view?usp=sharing (345 MB)
Vosk v3: https://drive.google.com/file/d/17umtgquvwyuicjxet1oz3kwnfywpjw2/view?usp=sharing (343 MB)
Vosk v2: https://drive.google.com/file/d/1mdln3jwue8bpcr9a0irer-icc1wipgzs/view?usp=sharing (339 MB, Demo-Code: https://github.com/egorsmkv/voskv/voskv/vosk-ukrain
Vosk v1: https://drive.google.com/file/d/1nzpxrd4gtdi0yvxcfyzqtkktw_tpzqfk/view?usp=sharing (87 MB, ein altes Modell mit weniger geschultem Daten)

Hinweis : VOSK -Modelle sind unter Apache -Lizenz 2.0 lizenziert.

Deepspeech

DeepSpeech unter Verwendung von Transferlernen aus dem englischen Modell: https://github.com/robinhad/voice-recognition-ua
- v0.5: https://github.com/robinhad/voice-recognition-ua/releases/v0.5 (1230+ Stunden)
- v0.4: https://github.com/robinhad/voice-recognition-ua/releases/v0.4 (1230 Stunden)
- v0.3: https://github.com/robinhad/voice-recognition-ua/releases/v0.3 (751 Stunden)

M-CTC-T

M-CTC-T-Large: https://huggingface.co/speechbrain/m-ctc-t-large

flüstern

Offizielles Flüsterung: https://github.com/openai/whisper
flüstert (klein, gut für Ukrainer): https://github.com/egorsmkv/whisper-ukraainian
flüstert (groß, feinstimmig für ukrainisch): https://huggingface.co/arampacha/whisper-large-uk-2
https://huggingface.co/Mitchelldehaven/whisper-medium-uk
https://huggingface.co/Mitchelldehaven/whisper-large-v2-uk

Taschenlampe

Taschenlampenkonformer: https://github.com/egorsmkv/flaslight-ukraainian

Benchmarks

Dieser Benchmark verwendet gemeinsame Sprach 10 -Test -Split.

`wav2vec2-bert`

Modell	Wer	Cer	Genauigkeit, %	Wer ^+lm	Cer ^+lm	Genauigkeit ^+LM , %
Yehor/W2V-Bert-2.0-UK	0,0727	0,0151	92,73%	0,0655	0,0139	93,45%

`wav2vec2`

Modell	Wer	Cer	Genauigkeit, %	Wer ^+lm	Cer ^+lm	Genauigkeit ^+LM , %
Yehor/wav2VEC2-XLS-R-1B-UK-with-lm	0,1807	0,0317	81,93%	0,1193	0,0218	88,07%
Yehor/wav2VEC2-XLS-R-1B-UK-with-Binär-News-LM	0,1807	0,0317	81,93%	0,0997	0,0191	90,03%
Yehor/Wav2VEC2-XLS-R-300M-UK-With-LM	0,2906	0,0548	70,94%	0,172	0,0355	82,8%
Yehor/wav2VEC2-XLS-R-300M-UK-with-News-LM	0,2027	0,0365	79,73%	0,0929	0,019	90,71%
Yehor/wav2VEC2-XLS-R-300M-UK-with-wiki-lm	0,2027	0,0365	79,73%	0,1045	0,0208	89,55%
Yehor/wav2VEC2-XLS-R-Base-UK-with-Small-LM	0,4441	0,0975	55,59%	0,2878	0,0711	71,22%
Robinhad/WAV2VEC2-XLS-R-300M-UK	0,2736	0,0537	72,64%	- -	- -	- -
Arampacha/WAV2VEC2-XLS-R-1B-UK	0,1652	0,0293	83,48%	0,0945	0,0175	90,55%

`Citrinet`

LM-4Gram-500k wird als LM verwendet

Modell	Wer	Cer	Genauigkeit, %	Wer ^+lm	Cer ^+lm	Genauigkeit ^+LM , %
nvidia/stt_uk_citrinet_1024_gamma_0_25	0,0432	0,0094	95,68%	0,0352	0,0079	96,48%
Neongeckocom/STT_UK_CITRINET_512_GAMMA_0_25	0,0746	0,016	92,54%	0,0563	0,0128	94,37%

`ContextNet`

Modell	Wer	Cer	Genauigkeit, %
theodotus/stt_uk_contextnet_512	0,0669	0,0145	93,31%

`FastConformer P&C`

Dieses Modell unterstützt die Interpunktion und Kapitalisierung von Text

Modell	Wer	Cer	Genauigkeit, %	Wer ^{+p & c}	Cer ^{+p & c}	Genauigkeit ^{+P & C} , %
theodotus/stt_ua_fastconformer_hybrid_large_pc	0,0400	0.0102	96,00%	0,0710	0,0167	92,90%

`Squeezeformer`

LM-4Gram-500k wird als LM verwendet

Modell	Wer	Cer	Genauigkeit, %	Wer ^+lm	Cer ^+lm	Genauigkeit ^+LM , %
theodotus/stt_uk_squeezeformer_ctc_xs	0,1078	0,0229	89,22%	0,0777	0,0174	92,23%
theodotus/stt_uk_squeezeformer_ctc_sm	0,082	0,0175	91,8%	0,0605	0,0142	93,95%
theodotus/stt_uk_squeezeformer_ctc_ml	0,0591	0,0126	94,09%	0,0451	0,0105	95,49%

`Flashlight`

LM-4Gram-500k wird als LM verwendet

Modell	Wer	Cer	Genauigkeit, %	Wer ^+lm	Cer ^+lm	Genauigkeit ^+LM , %
Taschenlampenkonformer	0,1915	0,0244	80,85%	0,0907	0,0198	90,93%

`data2vec`

Modell	Wer	Cer	Genauigkeit, %
Robinhad/Data2VEC-Large-UK	0,3117	0,0731	68,83%

`VOSK`

Modell	Wer	Cer	Genauigkeit, %
v3	0,5325	0,3878	46,75%

`m-ctc-t`

Modell	Wer	Cer	Genauigkeit, %
Sprachbrain/M-CTC-T-Large	0,57	0,1094	43%

`whisper`

Modell	Wer	Cer	Genauigkeit, %
winzig	0,6308	0,1859	36,92%
Base	0,521	0,1408	47,9%
klein	0,3057	0,0764	69,43%
Medium	0,1873	0,044	81,27%
groß (v1)	0,1642	0,0393	83,58%
groß (v2)	0,1372	0,0318	86,28%

Feinabstimmungsversion für Ukrainer:

Modell	Wer	Cer	Genauigkeit, %
klein	0,2704	0,0565	72,96%
groß	0,2482	0,055	75,18%

Wenn Sie ein Whisper-Modell für eigene Daten fein abtun möchten, verwenden Sie dieses Repository: https://github.com/egorsmkv/whisper-ukrainian

`DeepSpeech`

Modell	Wer	Cer	Genauigkeit, %
v0.5	0,7025	0,2009	29,75%

Entwicklung

Wie man ein eigenes Modell mit Kaldi (auf Russisch) trainiert: https://github.com/egorsmkv/speech-recognition-uk/blob/master/vosk-model-creation/instruction.md.md
So trainieren Sie ein Kenlm-Modell, das auf ukrainischen Wikipedia-Daten basiert: https://github.com/egorsmkv/ukwiki-kenlm
Exportieren Sie eine verfolgte JIT-Version von WAV2VEC2-Modellen: https://github.com/egorsmkv/wav2vec2-jit

Datensätze

Kompilierter Datensatz aus verschiedenen offenen Quellen + Unternehmen + Community = 188,31 GB / ~ 1200 Stunden?

Speicherfreigabe von NextCloud: https://nx16725.your-storageshare.de/s/cabcbextdz7zndn (Verwenden Sie WGE, um herunterzuladen, herunterzuladen, in einem Browser hat Geschwindigkeitsbeschränkungen)
Torrent -Datei: https://academictorrents.com/details/fcf8bb60c59e9eb583df003d54ed61776650beb8 (188.31 GB)

Voice of America (398 Stunden)

Speicherfreigabe von NextCloud: https://nx16725.your-storageshare.de/s/f4nyhxdew2ykzka

Fleurs

Ukrainische Untergruppe: https://huggingface.co/datasets/google/fleurs/viewer/uk_ua/train

Yodas2

Ukrainische Untergruppen:
- https://huggingface.co/datasets/espnet/yodas2/tree/main/data/uk000
- https://huggingface.co/datasets/espnet/yodas2/tree/main/data/uk100

Unternehmen

Mozilla Common Voice hat den ukrainischen Datensatz: https://commonvoice.mozilla.org/uk/datasets
M-Sailabs Ukrainischer Korpus ukrainisch: http://www.caito.de/data/training/stt_tts/uk_uk.tgz
Espreso-TV-Subset: https://blog.gdeltproject.org/visual-explorer-quick-workflow-for-Downloading-Belarussian-russian-ukrainian-transcripts-translations/

Ukrainische Podcasts

https://huggingface.co/datasets/taras-sereda/uk-pods

Reinigte gemeinsame Stimme 10 (Testset)

Repository: https://github.com/egorsmkv/cv10-uk-testset-clean

Noised Common Voice 10

Transkriptionen: https://www.dropbox.com/s/ohj3y2cq8f4207a/transcriptions.zip?dl=0
Audio -Dateien: https://www.dropbox.com/s/v8crgclt9opbrv1/data.zip?dl=0

Gemeinschaft

VoxForge Repository: http://www.repository.voxforge1.org/downloads/uk/trunk/

Andere

ASR Corpus erstellt mit einem Telegramm-Bot für ukrainisch: https://github.com/egorsmkv/asr-tg-bot-corpus
Sprachdatensatz mit ukrainisch

? Text-to-Speech

Testsatz mit Belastungen:

 К+ам'ян+ець-Под+ільський - м+істо в Хмельн+ицькій +області Укра+їни, ц+ентр Кам'ян+ець-Под+ільської міськ+ої об'+єднаної територі+альної гром+ади +і Кам'ян+ець-Под+ільського рай+ону.

Ohne Stress:

 Кам'янець-Подільський - місто в Хмельницькій області України, центр Кам'янець-Подільської міської об'єднаної територіальної громади і Кам'янець-Подільського району.

? Implementierungen

Styletts2

Styletts2 Demo & der Code

P-Flow TTS

P-Flow TTS

Audio.mp4

Rad-tts

Rad-tts, die Stimme "lada"
Rad-tts mit drei Stimmen, Stimmen von Lada, Tetiana und Mykyta

Demo.mp4

Coqui tts

v1.0.0 Verwenden von M-Sailabs Dataset: https://github.com/robinhad/ukrainian-tts/releass/tag/v1.0.0 (200.000 Schritte)
v2.0.0 Verwenden von mykyta/olena dataset: https://github.com/robinhad/ukrainian-tts/releases/tag/v2.0.0 (140.000 Schritte)

tts_output.mp4

Neon TTS

Coqui TTS -Modell im Neon Coqui TTS Python Plugin. Eine interaktive Demo ist auf Umarmung erhältlich. Dieses Modell und andere können von Huggingface heruntergeladen werden, und weitere Informationen finden Sie unter neon.ai

neon_ts.mp4

Fastpitch

Nvidia fastpitch: https://huggingface.co/theodotus/tts_uk_fastpitch

Balacoon TTS

Balacoon TTS, Stimmen von Lada, Tetiana und Mykyta. Blog -Beitrag zur Modellveröffentlichung.

balacoon_ts.mp4

Datensätze

Offene Text-to-Speech-Stimmen für ?? Ukrainisch : https://huggingface.co/datasets/yehor/opentts-uk
- Stimme "Lada", weiblich
- Stimme "Tetiana", weiblich
- Stimme "Kateryna", weiblich
- Stimme "mykyta", männlich
- Stimme "Oleksa", männlich

speech recognition uk

? Spracherkennung und Synthese für ukrainisch

Überblick

Gemeinschaft

? Sprache zu Text

? Implementierungen

Benchmarks

wav2vec2-bert

wav2vec2

Citrinet

ContextNet

FastConformer P&C

Squeezeformer

Flashlight

data2vec

VOSK

m-ctc-t

whisper

DeepSpeech

Entwicklung

Datensätze

Kompilierter Datensatz aus verschiedenen offenen Quellen + Unternehmen + Community = 188,31 GB / ~ 1200 Stunden?

Voice of America (398 Stunden)

Fleurs

Yodas2

Unternehmen

Ukrainische Podcasts

Reinigte gemeinsame Stimme 10 (Testset)

Noised Common Voice 10

Gemeinschaft

Andere

Verwandte Werke

Sprachmodelle

Inverse Textnormalisierung:

Textverbesserung

Aligner

? Text-to-Speech

? Implementierungen

Datensätze

Verwandte Werke

Akzente

Miser

`wav2vec2-bert`

`wav2vec2`

`Citrinet`

`ContextNet`

`FastConformer P&C`

`Squeezeformer`

`Flashlight`

`data2vec`

`VOSK`

`m-ctc-t`

`whisper`

`DeepSpeech`