?? 우크라이나의 음성 인식 및 합성
개요
이 저장소는 우크라이나 연설-텍스트 및 텍스트 음성 프로젝트를위한 모델, 데이터 세트 및 도구에 대한 링크를 수집합니다.
지역 사회
- 불화 : https://bit.ly/discord-uds
- 음성 인식 : https://t.me/speech_recognition_uk
- 음성 합성 : https://t.me/speech_synthesis_uk
? 음성-텍스트
? 구현
WAV2VEC2-BERT
- 600m 매개 변수 : https://huggingface.co/yehor/w2v-bert-2.0-uk-v2 (데모 : https://huggingface.co/spaces/yehor/w2v-bert-2.0-uk-v2-demo)
WAV2VEC2
- 1B 매개 변수 (데이터의 작은 부분을 기반으로 언어 모델 포함) : https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-lm
- 1B 매개 변수 (뉴스 텍스트를 기반으로 언어 모델 포함) : https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-news-lm
- 1B 매개 변수 (뉴스 텍스트를 기반으로하는 이진 언어 모델 포함) : https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-binary-news-lm
- 1B 매개 변수 (언어 모델 : Oscar) : https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk
- 1B 매개 변수 (언어 모델 : 오스카) : https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk-cv
- 300m 매개 변수 (데이터의 작은 부분을 기반으로 언어 모델 포함) : https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-lm
- 300m 매개 변수 (그러나 언어 모델없이) : https://huggingface.co/robinhad/wav2vec2-xls-r-300m-uk
- 300m 매개 변수 (데이터의 작은 부분을 기반으로 언어 모델 포함) : https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm
- 300m Params (데이터의 작은 부분을 기반으로 한 언어 모델 포함) 및 노이드 데이터 : https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm-noisy
- 300m 매개 변수 (뉴스 텍스트를 기반으로 언어 모델 포함) : https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-news-lm
- 300m 매개 변수 (wikipedia 텍스트를 기반으로 언어 모델 포함) : https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-wiki-lm
- 90m 매개 변수 (데이터의 작은 부분을 기반으로 언어 모델 포함) : https://huggingface.co/yehor/wav2vec2-xls-r-base-with-small-lm
- 90m 매개 변수 (데이터의 작은 부분을 기반으로 언어 모델 포함) : https://huggingface.co/yehor/wav2vec2-xls-r-base-with-cv-lm
- ONNX 모델 (1B 및 300m 모델) : https://github.com/egorsmkv/ukrainian-onnx-model
https://github.com/egorsmkv/wav2vec2-uk-demo에서 데모를 확인할 수 있습니다
Data2Vec
- data2vec-large : https://huggingface.co/robinhad/data2vec-large-uk
시트 리넷
- NVIDIA 스트리밍 Citrinet 1024 (영국) : https://huggingface.co/nvidia/stt_uk_citrinet_1024_gamma_0_25
- NVIDIA 스트리밍 Citrinet 512 (영국) : https://huggingface.co/neongeckocom/stt_uk_citrinet_512_gamma_0_25
ContextNet
FastConformer
Squeezeformer
SqueezeFormer-ctc ML : https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_ml
- 데모 1 : https://huggingface.co/spaces/theodotus/streaming-asr-uk
- 데모 2 : https://huggingface.co/spaces/theodotus/buffered-asr-uk
Squeezeformer-ctc SM : https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_sm
SqueezeFormer-ctc XS : https://huggingface.co/theodotus/stt_uk_squeezeformer_ctc_xs
Conformer-CTC
보스크
- vosk v3 나노 (동적 그래프 포함) : https://drive.google.com/file/d/1pwlxmtz7sppm1dthbpm3u66nh6-dsb1n/view?usp=sharing (73 MB)
- vosk v3 small (동적 그래프 포함) : https://drive.google.com/file/d/1zkambkw2hfplbmmpq2ar04-i7nhyjqtd/view?usp=sharing (133 MB)
- vosk v3 (동적 그래프 포함) : https://drive.google.com/file/d/12advn-wwejxlznvm0ob-utsnf7nj4q/view?usp=sharing (345 MB)
- vosk v3 : https://drive.google.com/file/d/17umtgquvvwyuicjxet1oz3kwnfywpjw2/view?usp=sharing (343 MB)
- vosk v2 : https://drive.google.com/file/d/1mdln3jwue8bpcr9a0irer-icc1wipgzs/view?usp=sharing (339 MB, 데모 코드 : https://github.com/egorsmkv/vosk-ukrainian-demo)
- vosk v1 : https://drive.google.com/file/d/1nzpxrd4gtdi0yvxcfyzqtkktw_tpzqfk/view?usp=sharing (87 MB, 훈련 된 데이터가 적은 오래된 모델)
참고 : VOSK 모델은 Apache License 2.0 에 따라 라이센스가 부여됩니다.
심해
- 영어 모델에서 전송 학습을 사용한 DeepSpeech : https://github.com/robinhad/voice-recognition-ua
- v0.5 : https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.5 (1230+ 시간)
- v0.4 : https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.4 (1230 시간)
- v0.3 : https://github.com/robinhad/voice-recognition-ua/releases/tag/v0.3 (751 시간)
M-CTC-T
- M-CTC-T-large : https://huggingface.co/speechbrain/m-ctc-t-large
속삭임
- 공식 속삭임 : https://github.com/openai/whisper
- Whisper (우크라이나를위한 작은 튜닝) : https://github.com/egorsmkv/whisper-ukrainian
- Whisper (우크라이나를 위해 미세 조정) : https://huggingface.co/arampacha/whisper-large-uk-2
- https://huggingface.co/mitchelldehaven/whisper-medium-uk
- https://huggingface.co/mitchelldehaven/whisper-large-v2-uk
플래시
- 손전등 준수기 : https://github.com/egorsmkv/flashlight-ukrainian
벤치 마크
이 벤치 마크는 Common Voice 10 Test Split을 사용합니다.
wav2vec2-bert
| 모델 | wer | 세기 | 정확성, % | Wer +Lm | CER +LM | 정확도 +LM , % |
|---|
| Yehor/W2V-Bert-2.0-UK | 0.0727 | 0.0151 | 92.73% | 0.0655 | 0.0139 | 93.45% |
wav2vec2
| 모델 | wer | 세기 | 정확성, % | Wer +Lm | CER +LM | 정확도 +LM , % |
|---|
| yehor/wav2vec2-xls-r-1b-uk-with-lm | 0.1807 | 0.0317 | 81.93% | 0.1193 | 0.0218 | 88.07% |
| Yehor/WAV2VEC2-XLS-R-1B-UK- 이진 News-LM | 0.1807 | 0.0317 | 81.93% | 0.0997 | 0.0191 | 90.03% |
| Yehor/WAV2VEC2-XLS-R-300M-UK-WITH-LM | 0.2906 | 0.0548 | 70.94% | 0.172 | 0.0355 | 82.8% |
| yehor/wav2Vec2-xls-r-300m-uk-with-news-lm | 0.2027 | 0.0365 | 79.73% | 0.0929 | 0.019 | 90.71% |
| Yehor/WAV2VEC2-XLS-R-300M-UK-WITH-WIKI-LM | 0.2027 | 0.0365 | 79.73% | 0.1045 | 0.0208 | 89.55% |
| Yehor/WAV2VEC2-XLS-R-BASE-UK-WITH-SMALL-LM | 0.4441 | 0.0975 | 55.59% | 0.2878 | 0.0711 | 71.22% |
| Robinhad/WAV2VEC2-XLS-R-300M-UK | 0.2736 | 0.0537 | 72.64% | - | - | - |
| Arampacha/WAV2VEC2-XLS-R-1B-UK | 0.1652 | 0.0293 | 83.48% | 0.0945 | 0.0175 | 90.55% |
Citrinet
LM-4Gram-500K는 LM으로 사용됩니다
| 모델 | wer | 세기 | 정확성, % | Wer +Lm | CER +LM | 정확도 +LM , % |
|---|
| nvidia/stt_uk_citrinet_1024_gamma_0_25 | 0.0432 | 0.0094 | 95.68% | 0.0352 | 0.0079 | 96.48% |
| Neongeckocom/stt_uk_citrinet_512_gamma_0_25 | 0.0746 | 0.016 | 92.54% | 0.0563 | 0.0128 | 94.37% |
ContextNet
| 모델 | wer | 세기 | 정확성, % |
|---|
| Theodotus/stt_uk_contextnet_512 | 0.0669 | 0.0145 | 93.31% |
FastConformer P&C
이 모델은 텍스트 구두점 및 대문자를 지원합니다
| 모델 | wer | 세기 | 정확성, % | Wer +P & C | CER +P & C. | 정확도 +P & C , % |
|---|
| Theodotus/stt_ua_fastconformer_hybrid_large_pc | 0.0400 | 0.0102 | 96.00% | 0.0710 | 0.0167 | 92.90% |
Squeezeformer
LM-4Gram-500K는 LM으로 사용됩니다
| 모델 | wer | 세기 | 정확성, % | Wer +Lm | CER +LM | 정확도 +LM , % |
|---|
| Theodotus/stt_uk_squeezeformer_ctc_xs | 0.1078 | 0.0229 | 89.22% | 0.0777 | 0.0174 | 92.23% |
| Theodotus/stt_uk_squeezeformer_ctc_sm | 0.082 | 0.0175 | 91.8% | 0.0605 | 0.0142 | 93.95% |
| Theodotus/stt_uk_squeezeformer_ctc_ml | 0.0591 | 0.0126 | 94.09% | 0.0451 | 0.0105 | 95.49% |
Flashlight
LM-4Gram-500K는 LM으로 사용됩니다
| 모델 | wer | 세기 | 정확성, % | Wer +Lm | CER +LM | 정확도 +LM , % |
|---|
| 손전등 준수 | 0.1915 | 0.0244 | 80.85% | 0.0907 | 0.0198 | 90.93% |
data2vec
| 모델 | wer | 세기 | 정확성, % |
|---|
| Robinhad/Data2Vec-Large-uk | 0.3117 | 0.0731 | 68.83% |
VOSK
| 모델 | wer | 세기 | 정확성, % |
|---|
| v3 | 0.5325 | 0.3878 | 46.75% |
m-ctc-t
| 모델 | wer | 세기 | 정확성, % |
|---|
| SpeechBrain/M-CTC-T-LARGE | 0.57 | 0.1094 | 43% |
whisper
| 모델 | wer | 세기 | 정확성, % |
|---|
| 매우 작은 | 0.6308 | 0.1859 | 36.92% |
| 베이스 | 0.521 | 0.1408 | 47.9% |
| 작은 | 0.3057 | 0.0764 | 69.43% |
| 중간 | 0.1873 | 0.044 | 81.27% |
| 큰 (v1) | 0.1642 | 0.0393 | 83.58% |
| 큰 (v2) | 0.1372 | 0.0318 | 86.28% |
우크라이나의 미세 조정 버전 :
| 모델 | wer | 세기 | 정확성, % |
|---|
| 작은 | 0.2704 | 0.0565 | 72.96% |
| 크기가 큰 | 0.2482 | 0.055 | 75.18% |
자체 데이터에서 Whisper 모델을 미세 조정하려면이 저장소를 사용하십시오 : https://github.com/egorsmkv/whisper-ukrainian
DeepSpeech
| 모델 | wer | 세기 | 정확성, % |
|---|
| v0.5 | 0.7025 | 0.2009 | 29.75% |
개발
- Kaldi (러시아어)를 사용하여 자체 모델을 훈련시키는 방법 : https://github.com/egorsmkv/speech-recognition-uk/blob/master/vosk-model-creation/instruction.md
- 우크라이나 Wikipedia 데이터를 기반으로 Kenlm 모델을 훈련시키는 방법 : https://github.com/egorsmkv/ukwiki-kenlm
- WAV2VEC2 모델의 추적 JIT 버전을 내보내십시오 : https://github.com/egorsmkv/wav2vec2-jit
데이터 세트
다른 오픈 소스 + 회사 + Community = 188.31GB / ~ 1200 시간의 컴파일 된 데이터 세트?
- Storage 공유 NextCloud : https://nx16725.your-storageshare.de/s/cabcbextdz7zndn (wget을 사용하여 다운로드, 브라우저에서 다운로드하는 속도 제한이 있습니다)
- 토런트 파일 : https://academictorrents.com/details/fcf8bb60c59e9eb583df003d54ed61776650beb8 (188.31 GB)
미국 목소리 (398 시간)
- NextCloud에 의해 구동되는 스토리지 공유 : https://nx16725.your-storageshare.de/s/f4nyhxdew2ykzka
Fleurs
- 우크라이나 서브 세트 : https://huggingface.co/datasets/google/fleurs/viewer/uk_ua/train
요다스 2
- 우크라이나 서브 세트 :
- https://huggingface.co/datasets/espnet/yodas2/tree/main/data/uk000
- https://huggingface.co/datasets/espnet/yodas2/tree/main/data/uk100
회사
- Mozilla Common Voice에는 우크라이나 데이터 세트가 있습니다 : https://commonvoice.mozilla.org/uk/datasets
- M- Aailabs 우크라이나 코퍼스 우크라이나 : http://www.caito.de/data/training/stt_tts/uk_uk.tgz
- Espreso TV 서브 세트 : https://blog.gdeltproject.org/visual-explorer-quick-workflow-for-download-belarusian-russian-ukrainian-transcripts-translations/
우크라이나 팟 캐스트
- https://huggingface.co/datasets/taras-sereda/uk-pods
청소 공통 음성 10 (테스트 세트)
- 저장소 : https://github.com/egorsmkv/cv10-uk-testset-clean
고상한 공통 음성 10
- 전사 : https://www.dropbox.com/s/ohj3y2cq8f4207a/transcriptions.zip?dl=0
- 오디오 파일 : https://www.dropbox.com/s/v8crgclt9opbrv1/data.zip?dl=0
지역 사회
- Voxforge 저장소 : http://www.repository.voxforge1.org/downloads/uk/trunk/
다른
- ASR Corpus는 우크라이나를위한 Telegram Bot을 사용하여 만들어졌습니다 : https://github.com/egorsmkv/asr-tg-bot-corpus
- 우크라이나와의 음성 데이터 세트 : https://www.caito.de/2019/01/the-m-ailabs-speech-dataset/
관련 작품
언어 모델
- 우크라이나 LMS : https://huggingface.co/yehor/kenlm-ukrainian
역 텍스트 정규화 :
- 우크라이나 대리 텍스트 정규화를위한 WFST : https://github.com/lociko/ukraine_itn_wfst
텍스트 향상
- 구두점 및 대문자 모델 : https://huggingface.co/dchaplinsky/punctuation_uk_bert (데모 : https://huggingface.co/spaces/yehor/punceuation-uk)
조정기
- WAV2VEC2-BERT 모델의 조정기 : https://github.com/egorsmkv/w2v2-bert-aligner
- 더 빠른 Whisper (주로 TTS 용)를 기반으로 한 Aligner : https://github.com/patriotyk/narizaka
- Kaldi를 기반으로 한 Aligner : https://github.com/proger/uk
? 텍스트 음성
스트레스로 테스트 문장 :
К+ам'ян+ець-Под+ільський - м+істо в Хмельн+ицькій +області Укра+їни, ц+ентр Кам'ян+ець-Под+ільської міськ+ої об'+єднаної територі+альної гром+ади +і Кам'ян+ець-Под+ільського рай+ону.
스트레스없이 :
Кам'янець-Подільський - місто в Хмельницькій області України, центр Кам'янець-Подільської міської об'єднаної територіальної громади і Кам'янець-Подільського району.
? 구현
Styletts2
P- 플로우 TTS
오디오 .mp4
rad-tts
- rad-tts, The Voice "Lada"
- 세 가지 목소리, Lada, Tetiana 및 Mykyta의 목소리가있는 rad-tts
데모 .mp4
coqui tts
v1.0.0 M-Aailabs Dataset 사용 : https://github.com/robinhad/ukrainian-tts/releases/tag/v1.0.0 (200,000 단계)
v2.0.0 mykyta/olena 데이터 세트 사용 : https://github.com/robinhad/ukrainian-tts/releases/tag/v2.0.0 (140,000 단계)
tts_output.mp4
네온 TTS
- Neon Coqui TTS Python 플러그인에서 구현 된 Coqui TTS 모델. Huggingface에서는 대화식 데모를 사용할 수 있습니다. 이 모델과 다른 모델은 Huggingface에서 다운로드 할 수 있으며 자세한 정보는 Neon.ai에서 찾을 수 있습니다.
neon_tts.mp4
금식
- nvidia fastpitch : https://huggingface.co/theodotus/tts_uk_fastpitch
Balacoon tts
- Balacoon tts, Lada, Tetiana 및 Mykyta의 목소리. 모델 릴리스에 블로그 게시물.
Balacoon_tts.mp4
데이터 세트
- 열린 텍스트 음성 음성 목소리 ?? 우크라이나 : https://huggingface.co/datasets/yehor/opentts-uk
- 음성 "Lada", 여성
- 음성 "Tetiana", 여성
- 음성 "Kateryna", 여성
- 음성 "Mykyta", 남성
- 음성 "Oleksa", 남성
관련 작품
악센트
- https://github.com/neonbohdan/ukrainian-accentor-transformer
- https://github.com/lang-uk/ukrainian-word-strast
- https://github.com/egorsmkv/ukrainian-accentor
기타
- 오디오 + 교과서에서 고품질 텍스트로 연설 (TTS) 코퍼스를 만드는 도구 : https://github.com/patriotyk/narizaka
- 텍스트 정규화를 수행하는 모델 : https://huggingface.co/skypro1111/mbart-large-50-verbalization