Python Hindi TTS
Это конкатенативная система текста в речь, реализованная в Python.
Мы начали этот проект в октябре 2021 года в качестве проекта курса по обработке естественного языка .
Конкатенативная система текста в речь создает аудио представление текста, вставляя вместе кучу небольших аудиофайлов, чтобы сформировать весь вывод.
Есть три шага, в том числе:
- Текст до слов , где необработанный ввод текст токенизируется в список слов. Это также обычно включает в себя преобразование численных цифр в их эквиваленты слова (пример: превратить «5» в «пять»).
- Слова к фонеям , где массив слов преобразуется в фонемы. Фонемы - это индивидуальные звуки на языке. Поскольку хинди имеет очень обширный фонетический жанр, алфавитное произношение на хинди может изменять изменение произношения всего слова. Система уже нанесла на карту фонетические звуки хинди со своими алфавитами, поэтому всякий раз, когда обнаруживается алфавит, система просто отображает свой аудиофайл и возвращает его номер. Вывод - это список чисел, которые каждый соответствует одной из 44 фонем хинди.
- Фонемы к звучанию , где каждая фонема сочетается с аудиофайлом. Это тот момент, когда фактический звук сшивается вместе. Также будет выбран правильный голос для звука, предполагая, что поддерживаются несколько голосов.
Сведите на Synthme, если хотите, чтобы внедрить английский. Это был действительно вдохновляющий и полезный ресурс для нас.
Будущая работа
Прямо сейчас у системы есть только один голос, это мой, а мой проект Бадди @Sarthaksavasil. Мы хотели бы добавить еще несколько голосов. Кроме того, база данных Phoneme ограничена только 44 аудиофайлами (в то время, когда я пишу это), охватывающей все основные и часто используемые алфавиты хинди. Таким образом, нам нужно построить большую фонетическую голосовую базу данных.
Сделайте вклад в это, если можете. Это действительно поможет нам и заставит этот проект расти.
Зависимости
Этот проект полагается на
- Python 3x.
- re (для токенизации)
- волна и ОС (для объединения аудиофайлов)
Установка
Следуйте шагам ниже, чтобы попробовать синтезатор речи.
- Убедитесь, что все зависимости установлены.
- Откройте терминал и перейдите к клонированному каталогу.
- Запустить:
pip install -r requirements.txt - Запустите команду
**python3 SpeechSynthesis.py** - Вам будет предложено ввести сообщение. Введите то, что вы хотите, чтобы система сказала вам!
- Программа будет генерировать выход как файл .wav и конец. Open output.wav, чтобы услышать результат.