Voxnovel

? Ringkasan
Voxnovel adalah program inovatif yang memanfaatkan kemampuan BookNLP untuk menganalisis literatur, mengaitkan kutipan dengan karakter tertentu, dan menghasilkan buku audio yang disesuaikan di mana setiap karakter memiliki suara yang berbeda melalui coqui tts. Ini tidak hanya memberikan pengalaman buku audio yang mendalam tetapi juga menghidupkan setiap karakter dengan suara yang unik, membuat pengalaman mendengarkan jauh lebih menarik.
Termasuk model TTS
Semua model coqui- (Tacotron, Tacotron2, Glow-TTS, Speedy-Speech, Align-TTS, Fastpitch, Fastspeech, Fastspeech2, SC-Glowtts, Capacitron, Overflow, Neural Hmm TTS, TT yang menyenangkan, ⓧtts, Vits,? Yourtts,? Tortoise,?
?? ️ Aksen yang dapat Anda berikan kepada setiap karakter dengan model kloning default (XTTS)
- Mereka juga memungkinkan mereka untuk berbicara bahasa -bahasa ini, tetapi atribusi kutipan tidak akan mengidentifikasi dengan benar untuk apa pun yang bukan bahasa Inggris. Bahasa Inggris (en), Spanyol (ES), Prancis (FR), Jerman (DE), Italia (IT), Portugis (PT), Polandia (PL), Turki (TR), Rusia (RU), Belanda (NL), Ceko (CS), Arab (AR), Cina (ZH-CN), Jepang (JA), Hongaria (HU), Cina), Korean), Jepang (JA), Hongaria (Hu), Cina), Korean), Jepang (JA), Hongaria (Hu), Korean), Korean), Jepang (JA), Hongaria (HU), Korean), Korean), Jepang), Hongaria (HU) Output sebagai M4B dengan semua metadata dan bab buku, contoh file output di aplikasi AudioBook Player

(serta folder file chatper mp4 individual dengan gambar ebook yang tertanam di dalamnya jika Anda menginginkannya)
? Demo
Demo xtts v2 berkualitas tinggi
Guardians_of_ga.hoole_10._lasky._kathryn _-_ coming_of_hoole_chapter_4.mp4
?? Lebih banyak file audio demo :)
Demo kura -kura berkualitas tinggi
272463996-C4F8DFDF-C5BD-4771-AB1A-6131C22A67B2.MP4
Demo Audio Balacoon yang sangat cepat
271878548-53B694A9-5DDD-4174-82BC-07AFF22D2330.mp4
271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4
** Pengujian kualitas super tinggi dengan model yang disetel halus **
Audio_5811.mp4
Anda dapat menyempurnakan model XTTS Anda sendiri dengan sekitar 6+ menit audio secara gratis dengan colab ini https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah-
Sunting: bahwa Colab tidak berfungsi lagi: Gunakan versi saya yang menyediakan perbaikan: https://colab.research.google.com/drive/1sqqqzupo2pdjggkrbm60su6sbfyo3su ?usp=sharing
? Voxnovel headless google colab
Jelajahi dan jalankan versi interaktif dari Proyek Voxnovel tanpa kepala langsung di Google Colab! Mulailah di sini.
GUI

GUI Bagian 1 (prosesor booknlp) Info/fitur
-Tombol "Proses File": Klik dan itu akan meminta Anda untuk memilih file ebook. 
Alat Koreksi Penugasan Pembicara Manual (GUI 1.5)
GUI ini untuk koreksi manual penugasan pembicara jika kutipan salah ditugaskan oleh booknlp. Ini membaca file buku.csv yang berisi buku -buku yang diekstraksi kutipan dan informasi pembicara, dan memungkinkan Anda untuk memeriksa dan memodifikasi penugasan speaker secara visual sesuai kebutuhan sebelum diteruskan ke langkah TTS berikutnya.
Fitur Utama:
- Tampilan teks yang dapat digulir: Memungkinkan pengguna untuk melihat teks buku dengan tugas speaker berkode warna.
- Pemilihan Speaker: Pengguna dapat memilih speaker baru dari menu dropdown untuk menugaskan kembali baris tertentu.
- Kutipan yang dapat diperiksa: Baris dari buku ini ditampilkan dengan kotak centang, memungkinkan pemilihan beberapa baris untuk penugasan ulang speaker.
- Pengkodean Warna Speaker: Setiap speaker diberi warna yang unik untuk identifikasi yang mudah.
- Tombol untuk Tindakan:
- Perbarui Speaker yang Dipilih: Terapkan speaker yang dipilih ke semua baris yang diperiksa.
- Buang semua: Hapus centang semua baris yang dipilih.
- Lanjutkan: Simpan perubahan dan keluar dari alat.
Bagaimana menggunakan:
- Pilih baris: Centang kotak di sebelah baris yang ingin Anda ubah.
- Pilih Speaker: Pilih speaker yang diinginkan dari menu dropdown.
- Terapkan Perubahan: Klik "Perbarui speaker yang dipilih" untuk menerapkan perubahan.
- Ulasan: Teks akan diperbarui untuk mencerminkan perubahan.
- Deselect: Klik "Batalkan Pilih Semua" untuk menghapus pilihan Anda.
- Selesai: Setelah puas dengan koreksi, klik "Lanjutkan" untuk menyimpan dan keluar.

GUI Bagian 2 (Coqui tts GUI) Info/fitur
- Pilih TTS Model Dropdown: Ini memilih model TTS yang akan digunakan untuk kloning suara.
- Sertakan kotak model suara cepat: (Hasilkan cepat dengan biaya kualitas audio) Klik ini untuk dapat melihat setiap model dan suara tunggal yang didukung oleh coqui tts.
- Ini akan memperbarui dropdown "Select TTS Model" untuk model kloning suara juga termasuk (daftar nilai yang akan ditambahkan).
- Ini akan memperbarui dropdown untuk suara untuk memilih untuk setiap karakter juga termasuk (daftar nilai yang akan ditambahkan).
- Buat semua audio menghasilkan dengan kotak centang narator: Ini akan membuat audio setiap karakter dihasilkan dengan suara yang telah Anda pilih untuk narator saat Anda mengklik tombol "Generate Audio".
- Klon Tombol Suara Baru: Klik ini untuk menambahkan suara baru yang dapat Anda klon (pastikan Anda memiliki file audio referensi di tangan).
- Tambahkan model XTTS yang disempurnakan ke tombol aktor suara: Jika Anda memiliki folder yang berisi semua parameter model XTTS yang disesuaikan dengan suara tertentu, maka Anda dapat mengklik ini untuk membuat klon aktor suara dengan model XTT yang disesuaikan dengan baik, untuk memberikan hasil kloning suara yang jauh lebih baik.
- Dropdown Suara Karakter: Ini adalah dropdown untuk memilih aktor suara (dan aksen masing -masing karakter jika menggunakan XTT).
- (1): Aktor suara yang tersedia untuk dipilih dari karakter ini. (Nilai default dipilih audio berdasarkan jenis kelamin yang disimpulkan adalah: "f, m, lainnya").
- Saat Anda memilih suara, itu akan memainkan sampel audio dari suara itu, jika itu adalah suara model suara cepat dan audio refrence tidak ada, maka itu akan menghasilkan satu untuk dimainkan.
- (2): Aksen yang tersedia untuk dipilih dari karakter ini. (Opsional, default adalah bahasa Inggris).
- Bab Pembatas Bab: Akan Mengubah Pembatas Bab Default (String yang digunakan untuk mengidentifikasi bab).
- Durasi keheningan di bidang milidetik (MS): Ini akan mengubah jumlah milidetik di antara setiap bagian gabungan audio.
- Pilih TTS Bahasa Dropdown: Ini akan memungkinkan Anda memilih aksen default yang digunakan untuk setiap karakter yang belum memiliki aksen yang dipilih secara manual.
- Loading Bar: Akan memberikan perkiraan waktu tersisa. (Perkirakan, Anda mungkin tidak akan melihat prediksi yang akurat sampai berjalan selama 5 menit).
- Blok Pratinjau Buku Beranotasi: Ini akan menunjukkan keseluruhan buku dengan kode warna masing-masing karakter.
- Anda dapat mengklik garis saat buku audio sedang dihasilkan untuk mendengar seperti apa garis yang dihasilkan itu. Tetapi hanya jika garis telah memiliki audio yang dihasilkan untuk itu; Jika tidak, itu tidak akan memainkan apa pun.
- Load Book Button: Mengklik ini akan memuat ulang tampilan buku beranotasi kode warna, itu hanya akan mengacak warna yang dipilih untuk setiap baris karakter.
- Hasilkan Tombol Audio: Akan mulai menghasilkan buku audio lengkap.
- Kotak centang SELECT Acak (hanya akan terlihat jika kotak centang "Include Fast Voice Models" diperiksa): Akan memilih suara model cepat yang ditayangkan secara otomatis untuk setiap karakter kecuali untuk suara narator.

GUI Bagian 3 (Penampil Buku) Info/Fitur
-Sulit untuk menjelaskan lebih dari taman bermain jika Anda mengacaukannya maka Anda harus mendapatkan cara kerjanya. Tapi itu dapat digunakan untuk menyempurnakan buku audio -close di luar jendela saat Anda selesai dengan itu. ? Pengaturan Instal
? Voxnovel headless google colab
Jelajahi dan jalankan versi interaktif dari Proyek Voxnovel tanpa kepala langsung di Google Colab! Mulailah di sini.
? Docker (suara belum berfungsi di GUI)
? Docker tanpa kepala
Docker Headless M1? Mac
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2
Docker tanpa kepala? Linux/Intel? Mac
Untuk docker tanpa kepala hanya pada CPU
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless
Untuk Docker tanpa kepala dengan speedup GPU jika Anda memiliki GPU NVIDA
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless
Jendela Docker tanpa kepala
Instalasi dan Pengaturan di Windows (PowerShell)
Ikuti langkah -langkah ini untuk mengatur proyek Voxnovel pada sistem Windows menggunakan PowerShell:
Arahkan ke direktori profil pengguna Anda:
Klon Repositori Voxnovel dari GitHub:
git clone https: // github.com / DrewThomasson / VoxNovel.git
Menjalankan Voxnovel di Docker
Untuk operasi tanpa kepala di CPU
Untuk menjalankan aplikasi Voxnovel dalam wadah Docker di CPU Anda:
docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headlessUntuk operasi tanpa kepala dengan NVIDIA GPU Speedup
Jika Anda memiliki GPU NVIDIA dan ingin mempercepat pemrosesan, gunakan perintah berikut:
docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless ? GUI Docker (suara belum berfungsi di GUI)
? Linux Docker
1. `CD ~`-
git clone https://github.com/DrewThomasson/VoxNovel.git -
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest
? Mac Docker
Menyiapkan aplikasi GUI dengan Docker di MacOS
Panduan ini memberikan instruksi tentang cara menjalankan wadah Docker dengan antarmuka pengguna grafis pada macOS menggunakan Xquartz untuk penerusan X11 dan pemasangan volume.
Instal xquartz
- Unduh dan instal Xquartz dari situs web Xquartz.
- Buka Xquartz.
- Pergi ke
XQuartz -> Preferences . - Di tab
Security , aktifkan koneksi dari klien jaringan . - Restart xquartz untuk menerapkan pengaturan ini.
Konfigurasikan dan jalankan wadah Docker
Izinkan Docker untuk terhubung ke xquartz
Buka terminal dan jalankan perintah berikut untuk memungkinkan koneksi dari mesin lokal Anda ke xquartz:
xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')
Mulai wadah Docker
Jalankan perintah berikut untuk memulai wadah Docker Anda. Perintah ini mengkonfigurasi GUI untuk ditampilkan di host Anda dan memasang direktori yang diperlukan:
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0
-v /tmp/.X11-unix:/tmp/.X11-unix
-v "/Users/$(whoami)/VoxNovel:/VoxNovel"
athomasson2/voxnovel:latest
Catatan
- Konfigurasi Xquartz : Pastikan Xquartz dikonfigurasi untuk memungkinkan klien jaringan sebelum mencoba untuk terhubung.
- Keberadaan Direktori : Verifikasi bahwa direktori
/Users/$(whoami)/VoxNovel ada di Mac Anda. Jika tidak, buat atau sesuaikan jalur pemasangan volume dalam perintah Docker sesuai kebutuhan. - Firewall and Security : Jika Anda menghadapi masalah konektivitas, periksa pengaturan firewall dan preferensi keamanan yang mungkin memblokir koneksi.
? Windows Docker
Instal VCXSRV:
- Pertama instal VCXSRV dan konfigurasikan untuk memungkinkan koneksi.
Cara mengatur vcxsrv
Setelah menginstal VCXSRV, biasanya diluncurkan secara otomatis. Anda dapat mengonfirmasi berjalan dengan memeriksa ikonnya di baki sistem, biasanya terletak di dekat jam di bilah tugas. Ini juga dapat dimulai secara otomatis saat Anda masuk ke sistem Anda.
Untuk memastikan itu dikonfigurasi untuk memungkinkan koneksi dari wadah Docker, ikuti langkah -langkah ini:
- Klik kanan pada ikon VCXSRV di baki sistem.
- Pilih "XLAunch" untuk membuka wizard konfigurasi.
- Di wizard konfigurasi, pilih "Multiple Windows" dan lanjutkan ke langkah berikutnya.
- Pilih pengaturan pilihan Anda untuk nomor tampilan dan layar.
- Di jendela "Pengaturan Ekstra", pastikan untuk mencentang kotak berlabel "Nonaktifkan Kontrol Akses" untuk memungkinkan koneksi dari wadah Docker.
- Lengkapi konfigurasi dengan mengklik "Selesai" dan kemudian "Simpan Konfigurasi" saat diminta.
Dengan pengaturan ini, VCXSRV harus berjalan dan dikonfigurasi untuk memungkinkan koneksi dari wadah Docker. Anda sekarang dapat melanjutkan dengan menjalankan perintah Docker Anda yang membutuhkan dukungan GUI.
Ubah ke direktori rumah Anda:
Klon Repositori:
git clone https://github.com/DrewThomasson/VoxNovel.git
Jalankan wadah Docker:
docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest
? Linux
Instalasi ubuntu perintah tunggal
(Jangan gunakan jika Anda sudah menginstal miniconda.)
Untuk menginstal Voxnovel di Ubuntu, Anda dapat menggunakan perintah tunggal berikut:
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
Pintasan desktop
-That skrip instalasi tunggal di atas juga harus membuat jalan pintas untuk aplikasi juga.
Opsi peluncuran manual
Atau Anda dapat secara manual meluncurkan aplikasi di terminal dengan perintah berikut:
cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py
atau instalasi manual:
-
sudo apt-get install calibre -
sudo apt-get install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install bs4 -
pip install styletts2 -
pip install tts==0.21.3 -
pip install booknlp==1.0.7.1 -
pip install -r Ubuntu_requirements.txt -
python -m spacy download en_core_web_sm
? Untuk Dukungan TTS Bahasa Non Latin (Opsional)
Instal Mecab untuk (dukungan TTS Bahasa Non Latin) (Opsional):
- Ubuntu:
sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8
(Untuk Bahasa Non Latin Dukungan TTS) (Opsional)
python -m unidic download
pip install mecab mecab-python3 unidic
? Steam Deck) (x86_64 Arch Linux)
Untuk menginstal voxnovel di dek uap Anda, buka terminal dan jalankan perintah tunggal berikut:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )
- Sekarang Anda harus memiliki pintasan desktop untuk Voxnovel di akhir skrip ini!
? Intel Mac
Instal di Intel Mac:
Unduh Intel Voxnovel Installer
Atau jalankan perintah berikut di terminal Anda:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )
Setelah selesai, Anda harus memiliki pintasan desktop untuk Voxnovel.
? Hapus instalan di Intel Mac:
Untuk menghapus instalasi, jalankan perintah berikut di terminal Anda:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )
(Depricated jangan gunakan) Intel Mac Manual-Install
Jalankan dalam urutan ini:-
brew install calibre -
brew install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install styletts2 -
pip install tts==0.21.3 -
pip install booknlp==1.0.7.1 9. pip install -r MAC-requirements.txt -
pip install spacy 11. python -m spacy download en_core_web_sm
? Untuk Dukungan TTS Bahasa Non Latin (Opsional)
Instal Mecab untuk (dukungan TTS Bahasa Non Latin) (Opsional):
- MacOS:
brew install mecab , brew install mecab-ipadic
(Untuk Bahasa Non Latin Dukungan TTS) (Opsional)
python -m unidic download
pip install mecab mecab-python3 unidic
? Apple Silicon Mac (diuji pada 2020 M1 Pro 8GB RAM)
Instal di Apple Silicon Mac:
Unduh Apple Silicon Voxnovel Installer
Atau jalankan perintah berikut di terminal Anda:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )
Setelah selesai, Anda harus memiliki pintasan desktop untuk Voxnovel.
? Hapus instalan pada apel silikon mac:
Untuk menghapus instalasi, jalankan perintah berikut di terminal Anda:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )
(Depricated Jangan gunakan) Instalasi Manual Apple Silicon
Jalankan dalam urutan ini:
-
brew install calibre (Anda mungkin juga harus menginstalnya secara manual dari situs mereka jika ini tidak berhasil) -
brew install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install tensorflow-macos (juga opsional pip install tensorflow-metal tetapi sejauh ini saya belum mendapatkan speedup GPU -
pip install styletts2 -
pip install tts==0.21.3 -
pip install --no-dependencies booknlp==1.0.7.1 -
pip install transformers==4.30.0 -
pip install tensorflow -
pip install -r MAC-requirements.txt -
pip install ebooklib bs4 epub2txt pygame moviepy spacy -
python -m spacy download en_core_web_sm
? Untuk Dukungan TTS Bahasa Non Latin (Opsional)
Instal Mecab untuk (dukungan TTS Bahasa Non Latin) (Opsional):
- MacOS:
brew install mecab , brew install mecab-ipadic (Untuk Bahasa Non Latin Dukungan TTS) (Opsional)
python -m unidic download
pip install mecab mecab-python3 unidic
? Windows 11
Karena masalah windows booknlp, semua ini akan dijalankan di WSL (jangan khawatir, masih mudah).
? Tonton video instalasi di sini
Di PowerShell Anda, Tempel:
untuk menginstal WSL. (Anda mungkin diminta oleh sistem Anda untuk mengaktifkan virtualisasi di BIOS Anda jika tersedia, karena diperlukan untuk menjalankan WSL pada Windows.)
Setelah mengatur nama pengguna dan kata sandi Anda, buka WSL dan tempel perintah ini untuk satu perintah instalasi:
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
(Opsional hanya untuk kartu grafis NVIDA jangan menjalankan perintah ini jika Anda tidak memiliki kartu grafis NVIDIA) Instal NVIDIA CUDA Toolkit (diperlukan untuk akselerasi GPU NVIDIA):
sudo apt install nvidia-cuda-toolkit
Pastikan Anda berada di lingkungan Voxnovel Conda: (jika 'conda: perintah tidak ditemukan' yaitu conda tidak dipandang sebagai perintah kemudian coba tutup keluar dari jendela PowerShell saat ini dan meluncurkan kembali WSL dengan [wsl -d ubuntu]
Arahkan ke folder Voxnovel (jika belum ada di sana):
Sekarang jalankan salah satu dari dua program yang ditunjukkan di bawah ini
Untuk menjalankan program
Atau menjalankan kepala tanpa kepala
python headless_voxnovel.py
Akses file wsl ubuntu dari windows
Anda dapat mengakses file WSL Ubuntu Anda secara langsung di Windows File Explorer dengan memasukkan jalur berikut di bilah alamat:
File buku audio output akan ditempatkan di bawah VoxNoveloutput_audiobooks di wsl env
Untuk membuat jalan pintas desktop Windows voxnovel
Jalankan perintah ini di PowerShell
Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content
? ️ menghapus instalasi:
Untuk menghapus semuanya, jalankan perintah berikut di PowerShell:
Ini benar -benar akan menghapus lingkungan Ubuntu di mana aplikasi disimpan. ?
Pemecahan masalah WSL
Jika Anda memiliki masalah dengan lingkungan WSL:
Daftar semua lingkungan WSL:
Hapus lingkungan WSL tertentu (misalnya, Ubuntu):
wsl --unregister < distro_name >
Pasang kembali WSL:
Untuk meluncurkan WSL kapan saja Anda perlu menjalankan program ini, Anda dapat menggunakan bilah pencarian di Windows untuk menemukan dan meluncurkan "WSL" atau menjalankan:
? Untuk Dukungan TTS Bahasa Non Latin (Opsional)
Instal Mecab untuk (dukungan TTS Bahasa Non Latin) (Opsional):
-
sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8
(Untuk Bahasa Non Latin Dukungan TTS) (Opsional)
python -m unidic download
pip install mecab mecab-python3 unidic
Untuk menjalankan program
Atau menjalankan kepala tanpa kepala
python headless_voxnovel.py
Berlari dengan VRAM rendah (4 GB)
Modifikasi
- Ternyata setelah Anda mengatur perangkat itu tetap seperti itu untuk program lengkap.
- Jadi, saya telah membagi program menjadi dua program Python: satu CPU dan satu GPU. Saya telah menguji ini pada (4GB VRAM GPU) dan solusi ini berfungsi. Setidaknya di pihak saya, saya sangat berharap itu berhasil di pihak Anda.
Untuk menjalankan perbaikan yang telah saya buat dibuat khusus untuk situasi GPU VRAM yang rendah:
Untuk menjalankan skrip yang disediakan di sistem Anda, ikuti langkah -langkah ini secara berurutan:
Pemrosesan Buku (hanya CPU):
- Script: 1CPU_BOOK_PROCESSING.PY
- Skrip ini menangani tugas hanya memproses buku menggunakan booknlp, secara khusus memaksanya untuk berjalan di CPU.
- Jalankan dengan
python 1CPU_Book_processing.py
Generasi audio (hanya GPU):
- Skrip: 2GPU_AUDIO_GENERATION.PY
- Skrip ini didedikasikan untuk hanya menghasilkan audio dengan GPU dan harus dijalankan setelah menyelesaikan pemrosesan buku dengan
1CPU_Book_processing.py . - Jalankan dengan
python 2GPU_Audio_generation.py
Hasil kinerja
Setelah menjalankan tes mini dengan file EPUB menggunakan pengaturan di atas, metrik kinerja berikut diamati:
Hasil kinerja
Pengujian Selesai dengan File Epub Mini Terletak di contoh_working_files.zip
| Tugas | Konfigurasi | Waktu (detik) |
|---|
| Pemrosesan buku | GPU saja (GeForce GTX 980), 4GB VRAM, 32GB RAM, Intel I7-8700K | 2.922 |
| Generasi audio | GPU saja (GeForce GTX 980), 4GB VRAM, 32GB RAM, Intel I7-8700K | 128.48 |
| Pemrosesan buku | CPU saja, 32GB RAM, Intel I7-8700K | 4.964 |
| Generasi audio | CPU saja, 32GB RAM, Intel I7-8700K | 391.4227 |
Untuk menjalankan program mobil
Ini berarti yang Anda lakukan adalah memilih buku dan semua suara akan ditetapkan secara otomatis dan dihasilkan untuk Anda. python auto_noGui_run.py
Akses file audio yang dihasilkan
Anda dapat mengakses file buku audio yang dihasilkan di folder Voxnovel di lokasi
VoxNovel/output_audiobooks
Jenis file ebook yang didukung:
.epub, .pdf, .mobi, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .snb, .cbc, .rb, dan .tcr,
- (Hasil terbaik adalah dari menggunakan Epub atau Mobi untuk deteksi bab otomatis)
Folder
Folder yang digunakan oleh program ini
/Final_combined_output_audio: Di sinilah semua file audio bab Anda akan dimasukkan ke dalam urutan Bab Num
/output_audioBooks: Di sinilah semua file audiobook m4b Anda akan disimpan
/Working_files: Menyimpan semua file kerja yang digunakan oleh program saat berjalan secara aktif.
- /Working_files/temp_ebook: memegang semua file txt bab yang diekstraksi dari ebook.
/Tortoise: Menghidupkan semua file suara sampel
Fungsi GUI
GUI Bagian 1 (prosesor booknlp)
-Tombol "Proses File": Klik dan itu akan meminta Anda untuk memilih file ebook. GUI Bagian 2 (Coqui tts GUI)
- Pilih TTS Model Dropdown: Ini memilih model TTS yang akan digunakan untuk kloning suara.
- Sertakan kotak model suara cepat: (Hasilkan cepat dengan biaya kualitas audio) Klik ini untuk dapat melihat setiap model dan suara tunggal yang didukung oleh coqui tts.
- Ini akan memperbarui dropdown "Select TTS Model" untuk model kloning suara juga termasuk (daftar nilai yang akan ditambahkan).
- Ini akan memperbarui dropdown untuk suara untuk memilih untuk setiap karakter juga termasuk (daftar nilai yang akan ditambahkan).
- Buat semua audio menghasilkan dengan kotak centang narator: Ini akan membuat audio setiap karakter dihasilkan dengan suara yang telah Anda pilih untuk narator saat Anda mengklik tombol "Generate Audio".
- Klon Tombol Suara Baru: Klik ini untuk menambahkan suara baru yang dapat Anda klon (pastikan Anda memiliki file audio referensi di tangan).
- Tambahkan model XTTS yang disempurnakan ke tombol aktor suara: Jika Anda memiliki folder yang berisi semua parameter model XTTS yang disesuaikan dengan suara tertentu, maka Anda dapat mengklik ini untuk membuat klon aktor suara dengan model XTT yang disesuaikan dengan baik, untuk memberikan hasil kloning suara yang jauh lebih baik.
- Dropdown Suara Karakter: Ini adalah dropdown untuk memilih aktor suara (dan aksen masing -masing karakter jika menggunakan XTT).
- (1): Aktor suara yang tersedia untuk dipilih dari karakter ini. (Nilai default dipilih audio berdasarkan jenis kelamin yang disimpulkan adalah: "f, m, lainnya").
- Saat Anda memilih suara, itu akan memainkan sampel audio dari suara itu, jika itu adalah suara model suara cepat dan audio refrence tidak ada, maka itu akan menghasilkan satu untuk dimainkan.
- (2): Aksen yang tersedia untuk dipilih dari karakter ini. (Opsional, default adalah bahasa Inggris).
- Bab Pembatas Bab: Akan Mengubah Pembatas Bab Default (String yang digunakan untuk mengidentifikasi bab).
- Durasi keheningan di bidang milidetik (MS): Ini akan mengubah jumlah milidetik di antara setiap bagian gabungan audio.
- Pilih TTS Bahasa Dropdown: Ini akan memungkinkan Anda memilih aksen default yang digunakan untuk setiap karakter yang belum memiliki aksen yang dipilih secara manual.
- Loading Bar: Akan memberikan perkiraan waktu tersisa. (Perkirakan, Anda mungkin tidak akan melihat prediksi yang akurat sampai berjalan selama 5 menit).
- Blok Pratinjau Buku Beranotasi: Ini akan menunjukkan keseluruhan buku dengan kode warna masing-masing karakter.
- Anda dapat mengklik garis saat buku audio sedang dihasilkan untuk mendengar seperti apa garis yang dihasilkan itu. Tetapi hanya jika garis telah memiliki audio yang dihasilkan untuk itu; Jika tidak, itu tidak akan memainkan apa pun.
- Load Book Button: Mengklik ini akan memuat ulang tampilan buku beranotasi kode warna, itu hanya akan mengacak warna yang dipilih untuk setiap baris karakter.
- Hasilkan Tombol Audio: Akan mulai menghasilkan buku audio lengkap.
- Kotak centang SELECT Acak (hanya akan terlihat jika kotak centang "Include Fast Voice Models" diperiksa): Akan memilih suara model cepat yang ditayangkan secara otomatis untuk setiap karakter kecuali untuk suara narator.
GUI Bagian 3 (Penampil Buku)
-Sulit untuk menjelaskan lebih dari taman bermain jika Anda mengacaukannya maka Anda harus mendapatkan cara kerjanya. Tapi itu dapat digunakan untuk menyempurnakan buku audio -close di luar jendela saat Anda selesai dengan itu. ? Fitur
Fitur yang direncanakan masuk
Terima kasih khusus kepada:
-@Sidharthrarisam (untuk instalasi styletts2 pip yang dia buat, saya tidak bisa menambahkan styletts2 tanpa dia. :)) (https://github.com/sidharthrajaram/styletts2)