El traductor de discurso a discurso multilingüe (STS) es el primer discurso árabe-árabe mezclado con código a Bangla-arabic Speech Translator
Este repositorio contiene el trabajo de nuestro primer discurso inglés-árabe mezclado con código al traductor de discurso multilingüe a discurso (STS). Esta implementación hace que Bangla traduciera a Seerah de Profet Muhammed (S) que primero nos recopilamos: https:/wwww.youtube.com/playlist?list?list=Plaea99d24a Conferencias inglesas en Bangla.
Descargue todos los videos de YouTube de esta lista de reproducción: https://www.youtube.com/playlist?list=plaea99d24ca2f9a8f y convierta videos en audios (.mp4 a .wav conversion) (usando este script: https://github.com/mobassir94/multilingual-spech-to-speech-translator/blob/main/step1_make_youtube_audio_playlist.py)
Ejecute el modelo multilingüe de STT (discurso a texto) basado en Openai para obtener el texto multilingüe de cada conferencia de video (usando este script: https://github.com/mobassir94/multilingual-speech-to-ponech-translator/blob/main/step2_run_multilingual_stt.py)
Convierta cada archivo de texto del inglés-árabe al árabe de Bangla utilizando el modelo Banglanmt (un modelo de traductor automático neural que puede traducir textos del inglés al bangla con alta eficiencia) (usando este código: https://github.com/mobassir94/multilingual-speech-to-peech-translator/blob/Main/step3_crosslingual_tretranslater.py.py.py.py.py.py)
Ejecute el sistema multilingüe (bangla-arabic) TTS (texto a discurso) para obtener la versión de audio de Bangla Seerah traducida por el Dr. Yasir Qadhi (usando este código: https://github.com/mobassir94/multilingual-speech-to-speech-seveech-sepech-sevlator/blob/step4_multilingual_tts.py)
Convertir audios con videos basados en imágenes únicas usando ffmpeg (usando este cuaderno: https://github.com/mobassir94/multilingual-speech-to-sepeech-translator/blob/main/audio_to_video_maker.ipynb)
E2e_single_sample_demo_of_multilingüe_speech_to_speech_translation-> https://github.com/mobassir94/multilingualspeech-to-ponech-translator/blob/main/e2e_single_sample_demo_multilingual_speech_to_speech_spech_spech_spech_spech_spech_spech_spech
Usando este solo cuaderno-> https://github.com/mobassir94/multilingual-speech-to-speech-translator/blob/main/e2e-multilingual%20speech%20To%20speech%20Translator.ipynb nuestra tubería de extremo a extremo se puede ejecutar paso a paso con facilidad.
Hemos descubierto una limitación crucial de Whisper durante el trabajo en este proyecto de traducción de discurso multilingüe a discurso. La conferencia original de Seerah que intentamos convertir de inglés-árabe a formato bangla-árabe tiene más de 10 años. ¿Quizás Whisper no funciona bien en tan antiguos contenidos pero funciona bien con los últimos contenidos? Hemos visto que Whisper falló muy mal en los contenidos tan antiguos (videos de más de 10 años), pero cuando trabajaba en los últimos o recientes videos, Whisper funcionó tan bien como se esperaba. Por ejemplo, verifique la salida de la celda del último código de este cuaderno-> https://github.com/mobassir94/multilingualspeech-peech-to-sepeech-sepech-translator/blob/main/e2e_single_sample_demo_of_multilingual_speech_to_speech_translation.ipynb y lo hará buen trabajo para traducir ese inglés-argumento Conferencia.
Para leer esa serie de conferencias de Seerah en Bangla, desechamos el conjunto de datos de esta fuente altamente confiable: https://arqadhi.blogspot.com/ y luego seguimos el paso 3-5. Sin embargo, nuestra tubería de traducción de discurso multilingüe a voz debería funcionar bien con audios más recientes o no demasiado antiguos que contienen conferencias árabes en inglés como se muestra en E2E_Single_Sample_Demo_Of_Multilingual_Speech_To_Spech_Translation.IPYNB Notebook, si no intenta encontrar un mejor reemplazo de susurro.
[Transcrito por BR. Safwan Khan, Faizan & Zohra] [email protected] [Revisado por Muhammad Abdul Rahman, abril de 2021]
Este canal -> https://www.youtube.com/playlist?list=plshvxzxnumvpsbuqcl8oswoxcppz2a3ht cubre todas las conferencias de la seerah de Bangla -Translated de Profet MUHAMMED (PBUH) que recopilamos aquí: https://arqadhi. Conferencias en Bangla utilizando un poderoso traductor automático neuronal. Este sistema de clonación de voz neuronal trata de leer una de las conferencias más populares de Bangla Seerah del Profeta Muhammed (PBUH) como un lector de audiolibros humanos con una cantidad mínima de tasa de error. Intenta leer tanto bengalí como árabe con fluidez. Como el lector aquí es un robot (que usa la voz clonada de los humanos) y no un humano real, por lo que comete errores ocasionalmente. Intentamos reducir la tasa de error tanto como podemos. Se necesita mucho tiempo y esfuerzo para hacer que los humanos lean Gigantic Books Line by Line y lanzar esas lecturas como audiolibros. También es un proceso muy complicado, especialmente para libros multilingües. Nuestro objetivo principal era hacer que AI leyera libros gigantescos con menos tasa de error porque nadie ha hecho ese trabajo antes para Bangla, como resultado, muchas personas bengalíes no pudieron leer libros importantes de Bangla como libros de Tafsir, libros de hadices y libros de Seerah en el modo de audiolibro. Este es nuestro primer paso para bebés hacia esta dirección de investigación. Para obtener más información sobre nuestro lector multilingüe (bangla+árabe) sintetizado en el habla neural, consulte este repositorio-> https://github.com/mobassir94/Comprehensive-Bangla-TTS
GitHub elimina automáticamente HTML como etiquetas del código Python escrito en el cuaderno Jupyter, consulte este problema #1
APSIS Solutions Ltd.
bengalí.ai