多言語スピーチからスピーチ(STS)翻訳者は、バングラアラビックスピーチ翻訳者への史上初のコードミックスされた英語とアラビアのスピーチです
このリポジトリには、バングラとアラビアの多言語スピーチ(STS)翻訳者への最初のコードミックスされた英語とアラビア語のスピーチの作品が含まれています。この実装により、バングラは最初にここから収集した預言者ムハンメドのシーラになります:https://www.youtube.com/playlist?list?list = plaist = play9d24caバングラへのこれらの英語の講義。
このプレイリストからすべてのYouTubeビデオをダウンロード:https://www.youtube.com/playlist?list=plaea9d24ca2ff9a8fをオーディオ(.mp4からwav変換)に変換します(このスクリプトを使用してください。 https://github.com/mobassir94/multilingualsepeech-toeech-translator/blob/main/step1_make_youtube_audio_playlist.py)
OpenaiのWhisperベースの多言語STT(テキストへのスピーチ)モデルを実行して、各ビデオ講義の多言語テキストを取得します(このスクリプトを使用して:https://github.com/mobassir94/multingual-sepeech-topeech-translator/blob/main/step2_run_multingual_tt.py)
各テキストファイルを英語からアラビッチからバングラアラビア語に変換しますBanglanMTモデル(英語からバングラにテキストを高効率で翻訳できるニューラルマシン翻訳モデル)(このコードを使用して)を使用してください:https://github.com/mobassir94/multilingual-sepeech-oto-seech-translator/blob/main/Step3_crosslingual_trator.
Multilingual(Bangla-Arabic)TTS(テキストからスピーチへ)システムを実行して、Yasir Qadhi博士による翻訳されたBangla Seerahのオーディオバージョンを取得します(このコードを使用して:https://github.com/mobassir94/multingual-sepeech-to-speech-translator/blob/main/Step4_Multilingual
ffmpegを使用してオーディオを単一の画像ベースのビデオで変換します(このノートを使用:https://github.com/mobassir94/multilingual-sepeech-peech-translator/blob/main/audio_to_video_maker.ipynb)
e2e_single_sample_demo_of_multilingual_speech_to_speech_translation-> https://github.com/mobassir94/multingual-sepeech-toeech-translator/blob/main/e2e_single_sample_demo_of_multilingual_speepe_teepeepeepeepeed
この単一のノートブックを使用 - > https://github.com/mobassir94/multingual-sepeech-topeech-translator/blob/main/e2e-multingual%20peech%20to %20peech%20 translator.ipynb全体の最後までピペラインは一歩先を行くことができます。
この多言語の音声翻訳プロジェクトに取り組んでいる際に、ささやきの重要な制限を1つ発見しました。私たちが英語とバングラ・アラビア語の形式に変換しようとした最初のシーラの講義は、10年以上前のものです。おそらく、ささやきはそのような古いコンテンツではうまく機能しませんが、最新のコンテンツでうまく機能しますか? Whisperがこのような古いコンテンツ(10年以上前のビデオ)で非常にひどく失敗したことがわかりましたが、最新または最近のほとんどのビデオで作業するとき、Whisperは期待どおりに機能しました。たとえば、このノートブックからの最終コードセルの出力を確認 - > https://github.com/mobassir94/multilingualsepeech-topeech-translator/blob/main/e2e_single_sample_demo_of_multilingual_speech_to_speeh_translation.ipynbは翻訳しました。バングラアラビック講義。
バングラのSeerah講義シリーズを読むために、代わりにこの信頼できるソースからデータセットを廃棄しました:https://arqadhi.blogspot.com/ただし、e2e_single_sample_demo_of_multilingual_speech_to_speech_speech_speech_speech_speech_speech.ipynbノートブックに示すように、音声翻訳パイプラインへの多言語の音声翻訳パイプラインは、英語とアラビッチの講義を含む最新またはあまりにも古くないオーディオで正常に機能するはずです。
[BRによって転写されました。 Safwan Khan、Faizan&Zohra] [email protected] [2021年4月、Muhammad Abdul Rahmanによって再復活]
このチャネル - > https://www.youtube.com/playlist?list = plshvxzxnumvpsbuqcl8oswoxcppz2a3htは、ここに収集されたhttps:https:https:https:https:https:https:https:https:https:https:https:https:https:https:https:https:https:https:強力なニューラルマシン翻訳者を使用してバングラへの講義。このニューラル音声クローニングシステムは、最小限のエラー率で人間のオーディオブックリーダーのように、預言者ムハンマド(PBUH)のバングラシーラの最も人気のある講義の1つを読み込もうとします。バングラとアラビア語の両方を流fluentに読み込もうとします。ここの読者はロボット(人間のクローン声を使用する)であり、実際の人間ではないので、時々間違いを犯します。できる限りエラー率を下げようとしました。人間に巨大な本をラインごとに読んで、それらの測定値をオーディオブックとしてリリースさせるには、多くの時間と労力がかかります。また、特に多言語の本にとって、非常に複雑なプロセスです。私たちの主な目的は、AIがバングラのために以前にその仕事をしていなかったため、エラー率の少ない巨大な本を読むことでした。私たちのニューラル音声合成された多言語(バングラ+アラビア語)リーダーの詳細については、このレポをチェックしてください - > https://github.com/mobassir94/comprehing-bangla-tts
Githubは、Jupyterノートに記載されているPythonコードからHTMLのようなタグを自動的に排除します。この号を確認してください#1
Apsis Solutions Ltd.
bengali.ai