Unduh WeeaBlind - Unduh Kode Sumber WeeaBlind

WeeaBlind

Kode Sumber AI

WeeaBlind 1.0 -

Unduh

Weeblind

Sebuah program untuk menjuluki media multi-bahasa dan anime menggunakan sintesis ucapan AI modern, diarisasi, identifikasi bahasa, dan kloning suara.

Gadis anime buta dengan bentuk gelombang audio untuk mata. Dia memiliki rambut hijau dan ungu dan sweater hijau yang nyaman dan burting ungu. Ini di atas kata-kata buta weea. Gambar dihasilkan oleh Dall-e Ai

Unduh Rilis 1.0

Anda dapat mencoba versi biner pertama yang memiliki akses ke fitur dubbing dasar dengan pustaka non-AI untuk Windows dan Linux. Ini adalah cara yang baik untuk mencoba program dan Anda masih dapat melakukan dubbing dasar dengan suara sistem. Jika Anda ingin menggunakan fitur canggih 'Anda harus mencoba fitur canggih seperti yang dijelaskan dalam tutorial pengaturan.

Demo dan tutorial langsung

Saya membuat video ini untuk memamerkan cara menggunakan semua fitur dan semua yang bisa dilakukan oleh perangkat lunak saat ini

Tautan youtube ke video tentang perangkat lunak

Mengapa

Banyak pertunjukan, film, segmen berita, wawancara, dan video tidak akan pernah menerima dub yang tepat untuk bahasa lain, dan dubbing sesuatu dari awal bisa menjadi usaha yang sangat besar. Ini menyajikan rintangan aksesibilitas yang sama bagi orang -orang dengan kebutaan, disleksia, ketidakmampuan belajar, atau hanya orang -orang yang tidak menikmati membaca subtitle. Program ini bertujuan untuk menciptakan alternatif yang menyenangkan bagi orang -orang yang menghadapi perjuangan ini.

Perangkat lunak ini adalah produk perang. Kakak saya mengubah saya menjadi anime komedi favorit saya "The Dastrous Life of Saiki K." Tapi Netflix tidak pernah memesan DUB untuk musim ke -2. Saya buta dan tidak bisa dan tidak akan pernah bisa membaca subtitle, tetapi saya harus tahu bagaimana cerita itu berkembang! Netflix telah memaksa tangan saya dan saya akan membawa anime yang dijuluki AI ke buta!

Bagaimana

Proyek ini bergantung pada beberapa menampar belum sempurna dari beberapa teknologi canggih. Ini menggunakan banyak perpustakaan dan teknik pemrosesan audio untuk menganalisis dan mensintesis pidato yang mencoba untuk tetap sejalan dengan file video sumber. Ini terutama bergantung pada FFMPEG dan PYDUB untuk pengeditan audio dan video, coqui tts untuk sintesis bicara, PidatoBrain untuk identifikasi bahasa, dan pyannote.Audio untuk Diarization Speaker.

Anda memiliki opsi untuk menjuluki setiap subtitle dalam video, mengatur S Tart dan End Time, hanya menyulap konten bahasa asing, atau dubbing multi-speaker penuh dengan tingkat berbicara dan pencocokan volume.

Kapan?

Proyek ini saat ini adalah apa yang beberapa orang sebut di Alpha. Fungsi utama, inti sudah ada, dan dimungkinkan untuk digunakan dengan mengkloning repo, tetapi hanya mulai siap untuk rilis pertama. Ada banyak optimasi, UX, dan refactoring yang perlu dilakukan sebelum saya menyebutnya selesai. Nantikan pembaruan rutin, dan jangan ragu untuk mengulurkan tangan dengan kontribusi, pengujian, atau saran jika ini adalah sesuatu yang Anda minati.

Namanya

Saya punya ide untuk menyebut perangkat lunak WeeAblind sebagai portmanteaux dari weeaboo (seseorang yang terlalu terobsesi dengan anime), dan buta. Saya mungkin mengubahnya menjadi sesuatu yang lain di masa depan seperti Blindtaku, Dubhub, atau yang serupa dan lebih menarik karena perangkat lunak dapat digunakan untuk lebih dari sekadar anime.

Pengaturan

Saat ini tidak ada biner prebuilt untuk diunduh, ini adalah sesuatu yang saya cari, tetapi banyak dari ketergantungan ini tidak mudah untuk bundel dengan sesuatu seperti pyinstaller

Program ini bekerja paling baik di Linux, tetapi juga akan berjalan di Windows.

Prasyarat sistem

Anda perlu menginstal FFMPEG di sistem Anda dan memastikan itu dapat dipanggil dari terminal atau di jalur sistem Anda

Untuk menggunakan coqui tts, Anda juga akan memerlukan espeak-ng yang bisa Anda dapatkan dari manajer paket Anda di Linux atau di sini di windows

Di Windows, PIP membutuhkan alat pembuatan MSVC untuk membangun Coqui. Anda dapat menginstalnya di sini: https://visualstudio.microsoft.com/visual-cpp-build-tools/

COQUI TTS dan Diarization Pyannote juga akan berkinerja lebih baik jika Anda telah mengatur CUDA di sistem Anda untuk menggunakan GPU Anda. Ini harus bekerja di luar kotak di Linux tetapi mengaturnya di Windows membutuhkan beberapa. Posting blog ini harus memandu Anda melalui prosesnya. Jika Anda tidak bisa membuatnya berfungsi, jangan khawatir, Anda masih bisa menggunakannya di CPU Anda.

Versi terbaru Python bekerja di Linux, tetapi Spleeter hanya berfungsi pada 3.10 dan Pyannote juga bisa rewel dengan itu. 3.10 tampaknya bekerja paling baik di windows. Anda bisa mendapatkannya dari Microsoft Store.

Pengaturan dari Sumber

Untuk menggunakan proyek ini, Anda harus mengkloning repositori dan menginstal dependensi dalam lingkungan virtual.

 git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate

Proyek ini memiliki banyak ketergantungan, dan Pip dapat berjuang dengan konflik, jadi yang terbaik adalah menginstal dari file kunci seperti ini:

 pip install -r requirements-win-310.txt --no-deps

Anda dapat mencoba dari file persyaratan reguler, tetapi kadang -kadang bisa memakan waktu yang lama dan kadang -kadang membutuhkan beberapa rejiggering.

Memasang dependensi dapat memakan waktu panas dan menggunakan banyak ruang (~ 8 GB).

Jika Anda tidak memerlukan fitur tertentu misalnya, pemfilteran bahasa, Anda dapat menghilangkan pidato brain dari readme.

Setelah ini selesai, Anda dapat menjalankan program dengan

 python weeablind.py

Penggunaan

Mulailah dengan memilih video dari komputer Anda atau menempelkan tautan ke video YT dan menekan Enter. Itu harus mengunduh video dan banyak kapal selam dan audio.

Memuat video

Setelah video dimuat, Anda dapat melihat pratinjau subtitle yang akan dijuluki. Jika bahasa yang salah dimuat, atau aliran audio yang salah, beralih ke tab Streams dan pilih yang benar.

Pemangkasan

Anda dapat menentukan waktu mulai dan akhir jika Anda hanya perlu menjuluki bagian video, misalnya untuk melewatkan tema pembukaan dan kredit pertunjukan. Gunakan sintaks kode waktu seperti 2:17 dan tekan ENTER.

Mengkonfigurasi Suara

Secara default, suara "sampel" harus diinisialisasi. Anda dapat bermain -main dengan konfigurasi yang berbeda dan menguji suara sebelum diusir dengan tombol "Sampel Suara" di tab "Configure Voices". Ketika Anda memiliki parameter yang Anda sukai, mengklik "Perbarui Suara" akan mengikat kembali ke slot itu. Jika Anda memilih mesin TTS System, program ini akan menggunakan narrorator SAPI5 Windows atau suara Espeak Linux secara default. Ini sangat cepat tetapi terdengar sangat robot. Memilih Coqui memberi Anda banyak opsi untuk dimainkan, tetapi Anda akan diminta untuk mengunduh model TTS yang sering sangat berat. VCTK/Vits adalah model favorit saya untuk dijuluki karena sangat cepat, bahkan di CPU, dan ada ratusan pembicara untuk dipilih. Itu dimuat secara default. Jika Anda memiliki Diarization RAN, Anda dapat memilih berbagai suara dari ListBox dan mengubah propertinya juga.

Penyaringan bahasa

Di tab Subtitle, Anda memfilter subtitle untuk mengecualikan garis yang diucapkan dalam bahasa yang Anda pilih sehingga hanya bahasa asing yang dijuluki. Ini berguna untuk video multi-bahasa, tetapi bukan video semua dalam satu bahasa.

Diarisasi

Menjalankan Diarization akan berusaha untuk menetapkan speaker yang benar untuk semua subtitle dan menghasilkan suara acak untuk jumlah total speaker yang terdeteksi. Di futre, Anda dapat menentukan pipa diarization dan jumlah pembicara jika Anda tahu sebelumnya. Diarization hanya berguna untuk video dengan banyak speaker dan akurasinya dapat dengan sangat besar.

Isolasi latar belakang

Di tab "Streams", Anda dapat menjalankan isolasi vokal yang akan mencoba menghapus vokal dari trek video sumber Anda tetapi mempertahankan latar belakang. Jika Anda menggunakan video multi-bahasa dan menjalankan penyaringan bahasa juga, Anda harus menjalankannya terlebih dahulu untuk menjaga bahasa Inggris (atau vokal bahasa sumber apa pun).

Dubbing

Setelah Anda mengonfigurasi hal -hal yang Anda sukai, Anda dapat menekan tombol dubbing yang besar dan berair. Ini bisa memakan waktu untuk lari. Setelah selesai, Anda harus memiliki sesuatu seperti "myvideo-dubbed.mkv" di direktori output . Ini adalah video Anda yang sudah selesai!

Hal -hal yang harus dilakukan

~~Sistem penyaringan yang lebih baik untuk deteksi bahasa. Mungkin inklusif dan eksklusif atau kepercayaan diri~~
Temukan beberapa konten multi-bahasa / non-Inggris yang kurang dilindungi hak cipta untuk menampilkan demo secara publik
~~de-anglicanisasi sehingga pengguna dapat memilih bahasa target mereka, bukan hanya bahasa Inggris~~
Perbaiki distorsi array bodoh PyDub sehingga kami tidak harus melakukan 5 operasi IO per dub !!!
~~Jalankan isolasi / penghapus vokal pada audio sumber untuk menghapus / mengurangi speaker asli?~~
~~Panduan pengaturan yang tepat untuk semua platform~~
~~Hapus atau perbaiki implementasi Espeak yang rusak menjadi cross-platform~~
~~Tidak diinisialisasi, singleton untuk model berat saat startup (misalnya hanya mengintalionisasi pipa pyannote/speechbrain saat dibutuhkan)~~
Abstraksi untuk singleton suara coqui menggunakan model yang sama untuk mengurangi jejak memori
~~Tab GUI untuk daftar dan pilih stream audio / subtitle w / ffmpeg~~
~~Pindahkan tab ke kelas mereka sendiri~~
~~Tambahkan label dan landmark pembaca layar ke semua kontrol~~
~~Sakelar kontrol speaker tunggal atau multi speaker~~
~~Unduh Video YouTube dengan Keterangan Tertutup~~
~~GUI untuk memilih Mulai dan Akhir Waktu untuk Dubbing~~
Muntah server Flask di situs web saya sehingga Anda dapat mencobanya dengan fitur minimal.
~~Gunakan OCR untuk menghasilkan subtitle untuk video yang tidak memiliki sub stream~~
~~Gunakan OCR untuk subtitle berbasis non-teks~~
~~Membuat logo yang keren?~~
~~Pelajari cara mengemas program Python sebagai binari untuk membuat rilis~~
~~Hapus konten yang dilindungi hak cipta dari repo ini (maaf tidak menyesal TV Tokyo)~~
~~Dukungan untuk semua format subtitle~~
Mungkin menampar perpustakaan ASR untuk video tanpa subtitle?
Mungkin dukungan untuk URL magnet atau arrlib ke media bajak laut (siapa tahu ???)

Diarisasi

Subtitle Filter dengan suara yang dipilih dari ListBox
Pilih dari beberapa model diarization / saluran pipa
Optimalkan Audio TRAKCS untuk Diarizaiton dengan mengisolasi jalur pidato berdasarkan timing subtitle
Selidiki Diart?

Tts

~~Kerjakan ulang kontrol kecepatan untuk menggunakan pydub untuk mempercepat audio.~~
~~Cocokkan volume speaker dengan TTS~~
Kotak centang untuk menghapus entri subtitle berurutan dan entri yang kecil, misalnya "nom" "nom" "nom" "nom" ~~
~~menyelidiki konversi suara?~~
Membangun antrian operasi yang tidak sinkron untuk melakukan
~~GUI asinkron untuk unduhan model coqui~~
Tambahkan dukungan untuk Mycroft Mimic 3
Tambahkan dukungan untuk Pipertts

Kloning

~~Buat mode kloning untuk memilih subtitle dan mengekspornya ke dataset atau kompilasi wav untuk coqui xtts~~
Gunakan buku harian dan subtitle untuk mengisolasi dan membangun kumpulan data pelatihan
Bangun alat untuk merampingkan pembuatan manual dari kumpulan data