Sebuah program untuk menjuluki media multi-bahasa dan anime menggunakan sintesis ucapan AI modern, diarisasi, identifikasi bahasa, dan kloning suara.

Anda dapat mencoba versi biner pertama yang memiliki akses ke fitur dubbing dasar dengan pustaka non-AI untuk Windows dan Linux. Ini adalah cara yang baik untuk mencoba program dan Anda masih dapat melakukan dubbing dasar dengan suara sistem. Jika Anda ingin menggunakan fitur canggih 'Anda harus mencoba fitur canggih seperti yang dijelaskan dalam tutorial pengaturan.
Saya membuat video ini untuk memamerkan cara menggunakan semua fitur dan semua yang bisa dilakukan oleh perangkat lunak saat ini

Banyak pertunjukan, film, segmen berita, wawancara, dan video tidak akan pernah menerima dub yang tepat untuk bahasa lain, dan dubbing sesuatu dari awal bisa menjadi usaha yang sangat besar. Ini menyajikan rintangan aksesibilitas yang sama bagi orang -orang dengan kebutaan, disleksia, ketidakmampuan belajar, atau hanya orang -orang yang tidak menikmati membaca subtitle. Program ini bertujuan untuk menciptakan alternatif yang menyenangkan bagi orang -orang yang menghadapi perjuangan ini.
Perangkat lunak ini adalah produk perang. Kakak saya mengubah saya menjadi anime komedi favorit saya "The Dastrous Life of Saiki K." Tapi Netflix tidak pernah memesan DUB untuk musim ke -2. Saya buta dan tidak bisa dan tidak akan pernah bisa membaca subtitle, tetapi saya harus tahu bagaimana cerita itu berkembang! Netflix telah memaksa tangan saya dan saya akan membawa anime yang dijuluki AI ke buta!
Proyek ini bergantung pada beberapa menampar belum sempurna dari beberapa teknologi canggih. Ini menggunakan banyak perpustakaan dan teknik pemrosesan audio untuk menganalisis dan mensintesis pidato yang mencoba untuk tetap sejalan dengan file video sumber. Ini terutama bergantung pada FFMPEG dan PYDUB untuk pengeditan audio dan video, coqui tts untuk sintesis bicara, PidatoBrain untuk identifikasi bahasa, dan pyannote.Audio untuk Diarization Speaker.
Anda memiliki opsi untuk menjuluki setiap subtitle dalam video, mengatur S Tart dan End Time, hanya menyulap konten bahasa asing, atau dubbing multi-speaker penuh dengan tingkat berbicara dan pencocokan volume.
Proyek ini saat ini adalah apa yang beberapa orang sebut di Alpha. Fungsi utama, inti sudah ada, dan dimungkinkan untuk digunakan dengan mengkloning repo, tetapi hanya mulai siap untuk rilis pertama. Ada banyak optimasi, UX, dan refactoring yang perlu dilakukan sebelum saya menyebutnya selesai. Nantikan pembaruan rutin, dan jangan ragu untuk mengulurkan tangan dengan kontribusi, pengujian, atau saran jika ini adalah sesuatu yang Anda minati.
Saya punya ide untuk menyebut perangkat lunak WeeAblind sebagai portmanteaux dari weeaboo (seseorang yang terlalu terobsesi dengan anime), dan buta. Saya mungkin mengubahnya menjadi sesuatu yang lain di masa depan seperti Blindtaku, Dubhub, atau yang serupa dan lebih menarik karena perangkat lunak dapat digunakan untuk lebih dari sekadar anime.
Saat ini tidak ada biner prebuilt untuk diunduh, ini adalah sesuatu yang saya cari, tetapi banyak dari ketergantungan ini tidak mudah untuk bundel dengan sesuatu seperti pyinstaller
Program ini bekerja paling baik di Linux, tetapi juga akan berjalan di Windows.
Anda perlu menginstal FFMPEG di sistem Anda dan memastikan itu dapat dipanggil dari terminal atau di jalur sistem Anda
Untuk menggunakan coqui tts, Anda juga akan memerlukan espeak-ng yang bisa Anda dapatkan dari manajer paket Anda di Linux atau di sini di windows
Di Windows, PIP membutuhkan alat pembuatan MSVC untuk membangun Coqui. Anda dapat menginstalnya di sini: https://visualstudio.microsoft.com/visual-cpp-build-tools/
COQUI TTS dan Diarization Pyannote juga akan berkinerja lebih baik jika Anda telah mengatur CUDA di sistem Anda untuk menggunakan GPU Anda. Ini harus bekerja di luar kotak di Linux tetapi mengaturnya di Windows membutuhkan beberapa. Posting blog ini harus memandu Anda melalui prosesnya. Jika Anda tidak bisa membuatnya berfungsi, jangan khawatir, Anda masih bisa menggunakannya di CPU Anda.
Versi terbaru Python bekerja di Linux, tetapi Spleeter hanya berfungsi pada 3.10 dan Pyannote juga bisa rewel dengan itu. 3.10 tampaknya bekerja paling baik di windows. Anda bisa mendapatkannya dari Microsoft Store.
Untuk menggunakan proyek ini, Anda harus mengkloning repositori dan menginstal dependensi dalam lingkungan virtual.
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
Proyek ini memiliki banyak ketergantungan, dan Pip dapat berjuang dengan konflik, jadi yang terbaik adalah menginstal dari file kunci seperti ini:
pip install -r requirements-win-310.txt --no-deps
Anda dapat mencoba dari file persyaratan reguler, tetapi kadang -kadang bisa memakan waktu yang lama dan kadang -kadang membutuhkan beberapa rejiggering.
Memasang dependensi dapat memakan waktu panas dan menggunakan banyak ruang (~ 8 GB).
Jika Anda tidak memerlukan fitur tertentu misalnya, pemfilteran bahasa, Anda dapat menghilangkan pidato brain dari readme.
Setelah ini selesai, Anda dapat menjalankan program dengan
python weeablind.py
Mulailah dengan memilih video dari komputer Anda atau menempelkan tautan ke video YT dan menekan Enter. Itu harus mengunduh video dan banyak kapal selam dan audio.
Setelah video dimuat, Anda dapat melihat pratinjau subtitle yang akan dijuluki. Jika bahasa yang salah dimuat, atau aliran audio yang salah, beralih ke tab Streams dan pilih yang benar.
Anda dapat menentukan waktu mulai dan akhir jika Anda hanya perlu menjuluki bagian video, misalnya untuk melewatkan tema pembukaan dan kredit pertunjukan. Gunakan sintaks kode waktu seperti 2:17 dan tekan ENTER.
Secara default, suara "sampel" harus diinisialisasi. Anda dapat bermain -main dengan konfigurasi yang berbeda dan menguji suara sebelum diusir dengan tombol "Sampel Suara" di tab "Configure Voices". Ketika Anda memiliki parameter yang Anda sukai, mengklik "Perbarui Suara" akan mengikat kembali ke slot itu. Jika Anda memilih mesin TTS System, program ini akan menggunakan narrorator SAPI5 Windows atau suara Espeak Linux secara default. Ini sangat cepat tetapi terdengar sangat robot. Memilih Coqui memberi Anda banyak opsi untuk dimainkan, tetapi Anda akan diminta untuk mengunduh model TTS yang sering sangat berat. VCTK/Vits adalah model favorit saya untuk dijuluki karena sangat cepat, bahkan di CPU, dan ada ratusan pembicara untuk dipilih. Itu dimuat secara default. Jika Anda memiliki Diarization RAN, Anda dapat memilih berbagai suara dari ListBox dan mengubah propertinya juga.
Di tab Subtitle, Anda memfilter subtitle untuk mengecualikan garis yang diucapkan dalam bahasa yang Anda pilih sehingga hanya bahasa asing yang dijuluki. Ini berguna untuk video multi-bahasa, tetapi bukan video semua dalam satu bahasa.
Menjalankan Diarization akan berusaha untuk menetapkan speaker yang benar untuk semua subtitle dan menghasilkan suara acak untuk jumlah total speaker yang terdeteksi. Di futre, Anda dapat menentukan pipa diarization dan jumlah pembicara jika Anda tahu sebelumnya. Diarization hanya berguna untuk video dengan banyak speaker dan akurasinya dapat dengan sangat besar.
Di tab "Streams", Anda dapat menjalankan isolasi vokal yang akan mencoba menghapus vokal dari trek video sumber Anda tetapi mempertahankan latar belakang. Jika Anda menggunakan video multi-bahasa dan menjalankan penyaringan bahasa juga, Anda harus menjalankannya terlebih dahulu untuk menjaga bahasa Inggris (atau vokal bahasa sumber apa pun).
Setelah Anda mengonfigurasi hal -hal yang Anda sukai, Anda dapat menekan tombol dubbing yang besar dan berair. Ini bisa memakan waktu untuk lari. Setelah selesai, Anda harus memiliki sesuatu seperti "myvideo-dubbed.mkv" di direktori output . Ini adalah video Anda yang sudah selesai!