؟ التعرف على الكلام وتوليف للأوكرانية
ملخص
يجمع هذا المستودع روابط إلى النماذج ومجموعات البيانات وأدوات لمشاريع الكلام إلى النص الأوكراني والنص إلى نص .
مجتمع
- Discord : https://bit.ly/discord-uds
- التعرف على الكلام: https://t.me/speech_recognition_uk
- توليف الكلام: https://t.me/speade_synthesis_uk
؟ الكلام إلى النص
؟ التطبيقات
WAV2VEC2-BERT
- 600m params: https://huggingface.co/yehor/w2v-bert-2.0-uk-v2 (Demo: https://huggingface.co/spaces/yehor/w2v-bert-2.0-uk-v2-demo)
WAV2VEC2
- 1B Params (مع نموذج اللغة على أساس جزء صغير من البيانات): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-lm
- 1B Params (مع نموذج اللغة على أساس نصوص الأخبار): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-news-lm
- 1B Params (مع نموذج اللغة الثنائية على أساس النصوص الأخبار): https://huggingface.co/yehor/wav2vec2-xls-r-1b-uk-with-news-news-lm
- 1B Params (مع نموذج اللغة: Oscar): https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk
- 1B Params (مع نموذج اللغة: Oscar): https://huggingface.co/arampacha/wav2vec2-xls-r-1b-uk-cv
- 300m params (مع نموذج اللغة يعتمد على جزء صغير من البيانات): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-lm
- 300m params (ولكن بدون نموذج لغة): https://huggingface.co/Robinhad/wav2vec2-xls-r-300m-uk
- 300m params (مع نموذج اللغة يعتمد على جزء صغير من البيانات): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm
- 300m params (مع نموذج اللغة على أساس جزء صغير من البيانات) والبيانات noised: https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-small-lm-noisy
- 300m params (مع نموذج اللغة على أساس نصوص الأخبار): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-news-lm
- 300m params (مع نموذج اللغة القائم على نصوص ويكيبيديا): https://huggingface.co/yehor/wav2vec2-xls-r-300m-uk-with-wiki-lm
- 90m المعاملات (مع نموذج اللغة على أساس جزء صغير من البيانات): https://huggingface.co/yehor/wav2vec2-xls-base-uk-with-small
- 90m المعاملات (مع نموذج اللغة على أساس جزء صغير من البيانات): https://huggingface.co/yehor/wav2vec2-xls-base-uk-with-cv-lm
- نموذج ONNX (طرز 1B و 300M): https://github.com/egorsmkv/ukrainian-onnx-model
يمكنك التحقق من العروض التوضيحية هنا: https://github.com/egorsmkv/wav2vec2-uk-demo
Data2vec
- Data2Vec-large: https://huggingface.co/Robinhad/data2vec-large-uk
Citrinet
- Nvidia Streaming Citrinet 1024 (المملكة المتحدة): https://huggingface.co/nvidia/stt_uk_citrinet_1024_gamma_0_25
- Nvidia Streaming Citrinet 512 (المملكة المتحدة): https://huggingface.co/neongeckocom/stt_uk_citrinet_512_gamma_0_25
سياق
FastConformer
squizeformer
SequezeFormer-CTC ML: https://huggingface.co/theodotus/stt_uk_squeziffformer_ctc_ml
- العرض التوضيحي 1: https://huggingface.co/spaces/theodotus/streaming-asr-uk
- العرض التوضيحي 2: https://huggingface.co/spaces/theodotus/buffered-asr-uk
SequezeFormer-CTC SM: https://huggingface.co/theodotus/stt_uk_squezformer_ctc_sm
Squeezformer-CTC XS: https://huggingface.co/theodotus/stt_uk_squezyphformer_ctc_xs
concormer-CTC
فوسك
- vosk v3 nano (مع رسم بياني ديناميكي): https://drive.google.com/file/d/1pwlxmtz7sppm1dthbpm3u6nh6-dsb1n/view؟usp=sharing (73 mb)
- Vosk V3 صغير (مع رسم بياني ديناميكي): https://drive.google.com/file/d/1zkambkw2hfplbmmpq2ar04-i7nhyjqtd/view؟usp=sharing (133 ميغابايت)
- Vosk V3 (مع الرسم البياني الديناميكي): https://drive.google.com/file/d/12advn-ewfwejxlznvm0ob-utsnf7nj4q/view؟usp=sharing (345 Mb)
- vosk v3: https://drive.google.com/file/d/17umtgquvwyuicjxet1oz3kwnfywpjw2/view؟usp=sharing (343 mb)
- vosk v2: https://drive.google.com/file/d/1mdln3jwue8bpcr9a0irer-icc1wipgzs/view؟usp=sharing (339 Mb ، رمز تجريبي: https://github.com/gitsmkv/voskv.
- vosk v1: https://drive.google.com/file/d/1nzpxrd4gtdi0yvxcfyzqtktw_tpzqfk/view؟usp=sharing (87 ميغابايت ، نموذج قديم مع بيانات أقل تدريبًا)
ملاحظة : تم ترخيص نماذج Vosk بموجب ترخيص Apache 2.0 .
Deepspeech
- Deepspeech باستخدام التعلم النقل من النموذج الإنجليزي: https://github.com/robinhad/voice-recognition-ua
- v0.5: https://github.com/robinhad/voice-recognition-ua/release/tag/v0.5 (1230+ ساعة)
- v0.4: https://github.com/robinhad/voice-recognition-ua/release/tag/v0.4 (1230 ساعة)
- v0.3: https://github.com/robinhad/voice-recognition-ua/release/tag/v0.3 (751 ساعة)
M-CTC-T
- M-CTC-T-LARGE: https://huggingface.co/SPEESHBRAIN/M-CTC-T-LARGE
يهمس
- الهمس الرسمي: https://github.com/openai/whisper
- Whisper (صغير ، تم ضبطه للأوكرانية): https://github.com/egorsmkv/whisper-ukrainian
- Whisper (كبير ، تم ضبطه للأوكرانية): https://huggingface.co/arampacha/whisper-large-uk-2
- https://huggingface.co/MitchellDehaven/whisper-medium-uk
- https://huggingface.co/MitchellDehaven/whisper-large-v2-uk
مصباح يدوي
- Flashlight Concormer: https://github.com/egorsmkv/flashlight-ukrainian
المعايير
يستخدم هذا المعيار تقسيم الاختبار الصوتي 10 المشترك.
wav2vec2-bert
| نموذج | وير | سير | دقة، ٪ | WER +LM | CER +LM | الدقة +LM ، ٪ |
|---|
| Yehor/W2V-Bert-2.0-UK | 0.0727 | 0.0151 | 92.73 ٪ | 0.0655 | 0.0139 | 93.45 ٪ |
wav2vec2
| نموذج | وير | سير | دقة، ٪ | WER +LM | CER +LM | الدقة +LM ، ٪ |
|---|
| yehor/wav2vec2-xls-r-1b-uk-with-lm | 0.1807 | 0.0317 | 81.93 ٪ | 0.1193 | 0.0218 | 88.07 ٪ |
| Yehor/WAV2VEC2-XLS-R-1B-UK-With-Binary-News-LM | 0.1807 | 0.0317 | 81.93 ٪ | 0.0997 | 0.0191 | 90.03 ٪ |
| Yehor/WAV2VEC2-XLS-R-300M-UK-WITH-LM | 0.2906 | 0.0548 | 70.94 ٪ | 0.172 | 0.0355 | 82.8 ٪ |
| Yehor/WAV2VEC2-XLS-R-300M-UK-WITH-NEWS-LM | 0.2027 | 0.0365 | 79.73 ٪ | 0.0929 | 0.019 | 90.71 ٪ |
| Yehor/WAV2VEC2-XLS-R-300M-UK-WITH-WIKI-LM | 0.2027 | 0.0365 | 79.73 ٪ | 0.1045 | 0.0208 | 89.55 ٪ |
| yehor/wav2vec2-xls-base-uk-with-small-lm | 0.4441 | 0.0975 | 55.59 ٪ | 0.2878 | 0.0711 | 71.22 ٪ |
| Robinhad/Wav2Vec2-XLS-R-300M-UK | 0.2736 | 0.0537 | 72.64 ٪ | - | - | - |
| arampacha/wav2vec2-xls-r-1b-uk | 0.1652 | 0.0293 | 83.48 ٪ | 0.0945 | 0.0175 | 90.55 ٪ |
Citrinet
يتم استخدام LM-4GRAM-500K كـ LM
| نموذج | وير | سير | دقة، ٪ | WER +LM | CER +LM | الدقة +LM ، ٪ |
|---|
| nvidia/stt_uk_citrinet_1024_gamma_0_25 | 0.0432 | 0.0094 | 95.68 ٪ | 0.0352 | 0.0079 | 96.48 ٪ |
| neongeckocom/stt_uk_citrinet_512_gamma_0_25 | 0.0746 | 0.016 | 92.54 ٪ | 0.0563 | 0.0128 | 94.37 ٪ |
ContextNet
| نموذج | وير | سير | دقة، ٪ |
|---|
| Theodotus/stt_uk_contextnet_512 | 0.0669 | 0.0145 | 93.31 ٪ |
FastConformer P&C
يدعم هذا النموذج علامات ترقيم النص والرسملة
| نموذج | وير | سير | دقة، ٪ | WER +P & C. | CER +P & C. | الدقة +P&C ، ٪ |
|---|
| Theodotus/stt_ua_fastconformer_hybrid_large_pc | 0.0400 | 0.0102 | 96.00 ٪ | 0.0710 | 0.0167 | 92.90 ٪ |
Squeezeformer
يتم استخدام LM-4GRAM-500K كـ LM
| نموذج | وير | سير | دقة، ٪ | WER +LM | CER +LM | الدقة +LM ، ٪ |
|---|
| theodotus/stt_uk_squeziforer_ctc_xs | 0.1078 | 0.0229 | 89.22 ٪ | 0.0777 | 0.0174 | 92.23 ٪ |
| theodotus/stt_uk_squeziforer_ctc_sm | 0.082 | 0.0175 | 91.8 ٪ | 0.0605 | 0.0142 | 93.95 ٪ |
| theodotus/stt_uk_squeziforer_ctc_ml | 0.0591 | 0.0126 | 94.09 ٪ | 0.0451 | 0.0105 | 95.49 ٪ |
Flashlight
يتم استخدام LM-4GRAM-500K كـ LM
| نموذج | وير | سير | دقة، ٪ | WER +LM | CER +LM | الدقة +LM ، ٪ |
|---|
| مصباح يدوي | 0.1915 | 0.0244 | 80.85 ٪ | 0.0907 | 0.0198 | 90.93 ٪ |
data2vec
| نموذج | وير | سير | دقة، ٪ |
|---|
| robinhad/data2vec-large-uk | 0.3117 | 0.0731 | 68.83 ٪ |
VOSK
| نموذج | وير | سير | دقة، ٪ |
|---|
| V3 | 0.5325 | 0.3878 | 46.75 ٪ |
m-ctc-t
| نموذج | وير | سير | دقة، ٪ |
|---|
| الكلام/M-CTC-T-LARGE | 0.57 | 0.1094 | 43 ٪ |
whisper
| نموذج | وير | سير | دقة، ٪ |
|---|
| صغير الحجم | 0.6308 | 0.1859 | 36.92 ٪ |
| قاعدة | 0.521 | 0.1408 | 47.9 ٪ |
| صغير | 0.3057 | 0.0764 | 69.43 ٪ |
| واسطة | 0.1873 | 0.044 | 81.27 ٪ |
| كبير (V1) | 0.1642 | 0.0393 | 83.58 ٪ |
| كبير (V2) | 0.1372 | 0.0318 | 86.28 ٪ |
النسخة المضبوطة للأوكرانية:
| نموذج | وير | سير | دقة، ٪ |
|---|
| صغير | 0.2704 | 0.0565 | 72.96 ٪ |
| كبير | 0.2482 | 0.055 | 75.18 ٪ |
إذا كنت ترغب في ضبط نموذج الهمس على البيانات الخاصة ، فاستخدم هذا المستودع: https://github.com/egorsmkv/whisper-ukrainian
DeepSpeech
| نموذج | وير | سير | دقة، ٪ |
|---|
| v0.5 | 0.7025 | 0.2009 | 29.75 ٪ |
تطوير
- كيفية تدريب النموذج الخاص باستخدام Kaldi (باللغة الروسية): https://github.com/egorsmkv/speesh-recognition-uk/blob/master/vosk-model-creation/instruction.md
- كيفية تدريب نموذج Kenlm على أساس بيانات ويكيبيديا الأوكرانية: https://github.com/egorsmkv/ukwiki-kenlm
- تصدير إصدار JIT تتبع من نماذج WAV2VEC2: https://github.com/egorsmkv/wav2vec2-jit
مجموعات البيانات
مجموعة البيانات المترجمة من مصادر مفتوحة مختلفة + الشركات + المجتمع = 188.31 جيجابايت / ~ 1200 ساعة؟
- حصة التخزين مدعوم من NextCloud: https://nx16725.our-storageshare.de/s/cabcbextdz7zndn (استخدم Wget للتنزيل ، والتنزيل في متصفح لديه قيود السرعة)
- ملف التورنت: https://academictorrents.com/details/fcf8bb60c59e9eb583df003d54ed6177650beb8 (188.31 جيجابايت)
صوت أمريكا (398 ساعة)
- حصة التخزين مدعوم من NextCloud: https://nx16725
فلور
- المجموعة الفرعية الأوكرانية: https://huggingface.co/Datasets/Google/fleurs/viewer/uk_ua/train
yodas2
- مجموعات فرعية الأوكرانية:
- https://huggingface.co/Datasets/espnet/yodas2/tree/main/data/uk000
- https://huggingface.co/Datasets/espnet/yodas2/tree/main/data/uk100
شركات
- Mozilla Common Voice لديه مجموعة البيانات الأوكرانية: https://commonvoice.mozilla.org/uk/datasets
- m-ilabs كوربوس الأوكراني: http://www.caito.de/data/training/stt_tts/uk_uk.tgz
- Espreso TV Subset: https://blog.gdeltproject.org/visual-explorer-quick-workflow-for-downloading-belarusian-russian-krainian-transcripts-translations/
البودكاست الأوكرانية
- https://huggingface.co/Datasets/Taras-Sereda/uk-pods
تم تنظيف الصوت المشترك 10 (مجموعة الاختبار)
- المستودع: https://github.com/egorsmkv/cv10-uk-testset clean
صوت مشترك noiss 10
- النسخ: https://www.dropbox.com/s/ohj3y2cq8f4207a/transcriptions.zip؟dl=0
- ملفات الصوت: https://www.dropbox.com/s/v8crgclt9opbrv1/data.zip؟dl=0
مجتمع
- مستودع Voxforge: http://www.repository.voxforge1.org/downloads/uk/trunk/
آخر
- ASR Corpus تم إنشاؤه باستخدام روبوت Telegram لـ الأوكراني: https://github.com/egorsmkv/asr-tg-bot-corpus
- مجموعة بيانات الكلام مع الأوكراني: https://www.caito.de/2019/01/the-ailabs-spheade-dataset/
الأعمال ذات الصلة
نماذج اللغة
- LMS الأوكرانية: https://huggingface.co/Yehor/kenlm-ukrainian
تطبيع النص العكسي:
- WFST لتطبيع النص العكسي الأوكراني: https://github.com/lociko/ukraine_itn_wfst
تحسين النص
- نموذج علامات الترقيم والرسملة: https://huggingface.co/Dchaplinsky/Punctuation_uk_bert (Demo: https://huggingface.co/spaces/yehor/punctuation-uk)
محاذاة
- aligner لنماذج WAV2VEC2-BERT: https://github.com/egorsmkv/w2v2-bert-aligner
- Aligner على أساس FasterWhisper (في الغالب من أجل TTS): https://github.com/patriotyk/narizaka
- Aligner على أساس Kaldi: https://github.com/proger/uk
؟ نص إلى كلام
اختبار الجملة مع الضغوط:
К+ам'ян+ець-Под+ільський - м+істо в Хмельн+ицькій +області Укра+їни, ц+ентр Кам'ян+ець-Под+ільської міськ+ої об'+єднаної територі+альної гром+ади +і Кам'ян+ець-Под+ільського рай+ону.
بدون ضغوط:
Кам'янець-Подільський - місто в Хмельницькій області України, центр Кам'янець-Подільської міської об'єднаної територіальної громади і Кам'янець-Подільського району.
؟ التطبيقات
styletts2
P-Flow TTS
Audio.mp4
RAD-TTS
- RAD-TTS ، صوت "لادا"
- RAD-TTS مع ثلاثة أصوات وأصوات لادا وتيتيانا وميكيتا
DEMO.MP4
Coqui TTS
v1.0.0 باستخدام مجموعة بيانات M-ilabs: https://github.com/robinhad/ukrainian-tts/release/tag/v1.0.0 (200،000 خطوة)
v2.0.0 باستخدام مجموعة بيانات mykyta/olena: https://github.com/robinhad/ukrainian-tts/release/tag/v2.0.0 (140،000 خطوة)
tts_output.mp4
نيون TTS
- تم تنفيذ نموذج Coqui TTS في المكون الإضافي Neon Coqui TTS Python. يتوفر عرض تفاعلي على Luggingface. يمكن تنزيل هذا النموذج وغيرها من Huggingface ويمكن العثور على مزيد من المعلومات في neon.ai
neon_tts.mp4
fastpitch
- nvidia fastpitch: https://huggingface.co/theodotus/tts_uk_fastpitch
بالاكون TTS
- بالاكون TTS ، أصوات لادا ، تيتيانا وميكيتا. مدونة منشور على إصدار النموذج.
balacoon_tts.mp4
مجموعات البيانات
- فتح أصوات النص إلى الكلام ؟؟ الأوكراني : https://huggingface.co/Datasets/yehor/opentts-uk
- صوت "لادا" ، أنثى
- صوت "Tetiana" ، أنثى
- صوت "kateryna" ، أنثى
- صوت "mykyta" ، ذكر
- صوت "Oleksa" ، ذكر
الأعمال ذات الصلة
المهملات
- https://github.com/neonbohdan/ukrainian-accentor-transformer
- https://github.com/lang-uk/ukrainian-word-stist
- https://github.com/egorsmkv/ukrainian-accentor
متفرقات
- أداة لجعل نص عالي الجودة إلى الكلام (TTS) Corpus من الصوت + الكتب المدرسية: https://github.com/patriotyk/narizaka
- نموذج للقيام بتطبيع النص: https://huggingface.co/Skypro1111/mbart-large-50-verbalization