Многоязычная речь к речи (STS) переводчик-первая в истории кодовая, смешанная с кодом, англо-арабская речь в Bangla-Arabic Speert Translator
Этот репозиторий содержит работу нашей первой в истории переводчика по английско-арабской речи Bangla-Arabic речи к речи (STS). Эта реализация делает Bangla переводящими пророком Muhammed (S), которую мы сначала собрали здесь: https://www.youtube.com/playlistristslistristslist? лекции в Бангла.
Загрузите все видео на YouTube из этого плейлиста: https://www.youtube.com/playlist?list=plaea99d24ca2f9a8f и преобразование видео в Audios (.mp4 в. https://github.com/mobassir94/multingual speech-to-speech-translator/blob/main/step1_make_youtube_audio_playlist.py)
Запустите Multyringual Multivual STT STT (речь в текстовое) модель Openai, чтобы получить многоязычный текст каждой видео-лекции (используя этот скрипт: https://github.com/mobassir94/multingual-peech-to-peech-translator/blob/main/step2_run_multililingual_stt.py)
Преобразовать каждый текстовый файл из английского арабского в Bangla Arabic с использованием модели Banglanmt (модель переводчика нейронной машины, которая может переводить тексты с английского на Bangla с высокой эффективностью) (используя этот код: https://github.com/mobassir94/multilingual-speech-to-pleach-translator/main/step3_crosslarslator.presspure_transpure_transpure_transpure_transpure_transpure_transpual.
Запустите многоязычную (Bangla-Arabic) System TTS (текст к речи), чтобы получить аудио версию переведенной Bangla Seerah от доктора Ясира Кадхи (используя этот код: https://github.com/mobassir94/multingualual-peech-typeech-translator/blob/main/step4_multilul
Преобразовать звуки с помощью одноизображения видео с использованием FFMPEG (используя эту ноутбук: https://github.com/mobassir94/multingual-speech-to-peech-translator/blob/main/audio_to_video_maker.ipynb)
E2e_single_sample_demo_of_multililingual_speech_to_speech_translation-> https://github.com/mobassir94/multilingual-peech-topeech-translator/blob/main/e2e_single_sample_demo_of_multiling_speech_speech_trans.
Использование этой единственной ноутбуки-> https://github.com/mobassir94/multingual-peech-topeech-translator/blob/main/e2e-multingualing%20speech%20to%20Speech%20Translator.ipynb, наша конверт, может быть с легкостью выполнить шаг.
Мы обнаружили одно важное ограничение шепота во время работы над этим многоязычным проектом речи к речевым переводу. Первоначальная лекция Seerah, которую мы пытались преобразовать из английского арабского в бангла-арабский формат, насчитывает более 10 лет. Возможно, шепотом не работает не очень хорошо работает над таким старым содержимым, но прекрасно работает с последним содержанием? Мы видели, что Whisper очень сильно потерпел неудачу в таком старом содержании (10+ годах видео), но при работе над последними или недавними самыми видео Whisper работала так же, как и ожидалось. Например, проверьте вывод последней кодовой ячейки из этого ноутбука-> https://github.com/mobassir94/multingual-peech-topeech-translator/blob/main/e2e_single_sample_demo_of_multilingualual_speech_to_speech Бангла-арабская лекция.
Чтобы прочитать эту серию лекций Seerah в Бангла, мы откинули набор данных из этого очень надежного источника: https://arqadhi.blogspot.com/, а затем следовали шагу 3-5. Тем не менее, наш многоязычный трубопровод для перевода речи должен работать с последними или не слишком старыми аудиоными звуками, содержащими английские арабические лекции, как показано в E2E_SINGLE_SAMEL_DEMO_OF_MULTILILINGUAL_SPEECH_TO_SPEECH_TRANSLATION.IPYNB Notebook, если он не пытается найти лучшую замену Whisper.
[Транскрибирован Br. Safwan Khan, Faizan & Zohra] [email protected] [переоценен Мухаммед Абдул Рахман, апрель 2021 г.]
Этот канал -> https://www.youtube.com/playlist?list=plshvxzxnumvpsbuqcl8oswoxcppz2a3ht охватывает все лекции Bangla -Translated Seerah of Prophet Muhammed (pbuh), которые мы собрали здесь. в Бангла с использованием мощного переводчика нейронной машины. Эта система клонирования нейронного голоса пытается прочитать одну из самых популярных лекций Bangla Serah of Prophet Muhammed (Pbuh), как читатель -аудиокниг с минимальным количеством ошибок. Он пытается свободно читать и Бангла, и арабский язык. Поскольку читатель здесь является роботом (который использует клонированный голос человека), а не настоящий человек, так что он иногда делает ошибки. Мы старались снизить частоту ошибок как можно больше. Требуется много времени и усилий, чтобы люди прочитали гигантские книги за линейностью и выпустили эти чтения в качестве аудиокниг. Это также очень сложный процесс, особенно для многоязычных книг. Наша главная цель состояла в том, чтобы заставить ИИ читать гигантские книги с меньшим частотой ошибок, потому что никто не выполнял эту работу раньше для Бангла, в результате чего многие бенгальские люди не могли читать большие важные книги из Бангла, такие как тафсирские книги, хадис -книги и книги по псевдонимам в режиме аудиокниги. Это наш первый шаг к этому исследованию. Чтобы узнать больше о нашей нейронной речи, синтезированной многоязычной (Bangla+Arabic) читателя, проверьте это репо-> https://github.com/mobassir94/comprehness-bangla-tts
GitHub автоматически устраняет HTML -подобные теги из кода Python, записанного в Notebook Jupyter, проверьте этот выпуск № 1
APSIS Solutions Ltd.
Бенгальский