Le traducteur de la parole multilingue à la parole (STS) est le tout premier traducteur de la parole anglaise-arabique mélangée à Bangla-arabic
Ce référentiel contient le travail de notre tout premier traducteur de la parole multilingue (STS). Conférences dans Bangla.
Téléchargez toutes les vidéos YouTube à partir de cette playlist: https://www.youtube.com/playlist?list=plaea99d24ca2f9a8f et convertissez des vidéos en audios (.mp4 vers .wav Conversion) (en utilisant ce script: https://github.com/mobassir94/muliling-speech-t-speech-translator/blob/main/step1_make_youtube_audio_playlist.py)
Exécutez le modèle STT Multantial STT (Speech to Text) d'Openai pour obtenir du texte multilingue de chaque conférence vidéo (en utilisant ce script: https://github.com/mobassir94/mulsilingals-speech-t-speech-translator/blob/main/step2_run_multilingal_stt.py)
Convertissez chaque fichier texte de l'anglais-arabique en arabe bangla en utilisant le modèle Banglanmt (un modèle de traducteur de machine neuronal qui peut traduire des textes de l'anglais à Bangla avec une grande efficacité) (en utilisant ce code: https://github.com/mobassir94/mullingling-speech-t-speech-translateur)
Exécutez le système TTS (Text à la parole multilingue (Bangla-Arabic) pour obtenir la version audio de Bangla Seerah traduit par le Dr Yasir Qadhi (en utilisant ce code: https://github.com/mobassir94/mulsiling-steech-t-peech-translator/blob/main/step4_mullingal_tts.py)
Convertir des audios avec des vidéos d'image uniques à l'aide de FFMPEG (en utilisant ce cahier: https://github.com/mobassir94/multilatual-speech-t-speech-translator/blob/main/audio_to_video_maker.ipynb)
E2e_single_sample_demo_of_mullingual_speech_to_speech_translation -> https://github.com/mobassir94/mullingal-steech-st-speech-translator/blob/main/e2e_single_sample_demo_of_multual_speech_to_speech_translation
L'utilisation de ce seul ordinateur portable -> https://github.com/mobassir94/multilingal-speech-t-speech-translator/blob/main/e2e-Multilingal%20Speech%20to%20Speech%20Translator.Ipynb Notre pipeline d'extrémité à bout peut être exécuté avec une étape passante.
Nous avons découvert une limitation cruciale de Whisper lors de la travail sur ce projet de traduction de la parole multilingue à la parole. La conférence originale de Seerah que nous avons essayé de convertir du format anglais-arabique en Bangla-arabique a plus de 10 ans. Peut-être que Whisper ne fonctionne pas bien sur un tel contenu, mais fonctionne bien avec le dernier contenu? Nous avons vu que Whisper a échoué très mal à un tel contenu (vidéos de plus de 10 ans), mais lorsque vous travaillez sur la plupart des vidéos les plus récentes ou récentes, Whisper a travaillé aussi bien que prévu. Par exemple, vérifiez la sortie de la cellule du dernier code de ce carnet -> https://github.com/mobassir94/multilingal-speech-t-speech-translator/blob/main/e2e_single_sample_demo_of_multilingal_speech_to_speech_translation.ipyb et vous verrez qu'il a fait le bon travail pour traduire ce travail en anglais - ARCH Bangla-arabic Lecture.
Afin de lire que la série de conférences Seerah à Bangla, nous avons supprimé l'ensemble de données de cette source très fiable à la place: https://arqadhi.blogspot.com/ puis a suivi l'étape 3-5. Cependant, notre pipeline multilingue de la parole de la parole devrait fonctionner très bien avec des audios les plus récents ou pas trop anciens contenant des conférences anglaises-arabiques comme indiqué dans e2e_single_sample_demo_of_mulsilingal_speech_to_speech_translation.ipynb cabier, si cela ne tente pas de trouver un meilleur remplacement de Whisper.
[Transcrit par Br. Safwan Khan, Faizan & Zohra] [email protected] [Rerevisé par Muhammad Abdul Rahman, avril 2021]
Cette chaîne -> https://www.youtube.com/playlist?list=PSHVXZXNUMVPSBUQCL8OSWOXCPPZ2A3HT COUVERT TOUTES LES CONFÉRENCES DE LA BANGLA TRANSLADE SEERAH DU PROPHET MUHAMMED (PBUH) que nous avons collecté ici: Https://arqadhi.blogspot.com/ et nous avons ensuite traduit de l'anglais: et alors et alors CHETLACEM Conférences dans Bangla à l'aide d'un puissant traducteur de machine neuronale. Ce système de clonage vocal neural essaie de lire l'une des conférences les plus populaires de Bangla Seerah du Prophète Muhammed (PSL) comme un lecteur audio humain avec une quantité minimale de taux d'erreur. Il essaie de lire couramment le Bangla et l'arabe. En tant que lecteur, voici un robot (qui utilise la voix clonée de l'homme) et non un véritable humain, il fait des erreurs de temps en temps. Nous avons essayé de réduire le taux d'erreur autant que possible. Il faut beaucoup de temps et d'efforts pour faire en sorte que les humains lisent des livres gigantesques ligne par ligne et publient ces lectures comme des livres audio. C'est également un processus très compliqué, en particulier pour les livres multilingues. Notre objectif principal était de faire lire des livres gigantesques avec un taux d'erreur moins parce que personne n'a fait ce travail auparavant pour Bangla, en conséquence, de nombreux Bengali ne pouvaient pas lire de grands livres importants de Bangla comme les livres de Tafsir, les livres de hadith et Seerah en mode audiob. C'est notre premier pas de bébé vers cette direction de recherche. Afin d'en savoir plus sur notre lecteur multilingue synthétisé (Bangla + Arabic), consultez ce repo -> https://github.com/mobassir94/compehensive-bangla-tts
GitHub élimine automatiquement les balises HTML comme le code Python écrit dans Jupyter Notebook, veuillez vérifier ce problème n ° 1
APSIS Solutions Ltd.
Bengali.ai