Unduh VoxNovel - Unduh Kode Sumber VoxNovel

VoxNovel

Kode sumber lainnya

vel: 1.5

Unduh

Voxnovel

Voxnovel_logo

? Ringkasan

Voxnovel adalah program inovatif yang memanfaatkan kemampuan BookNLP untuk menganalisis literatur, mengaitkan kutipan dengan karakter tertentu, dan menghasilkan buku audio yang disesuaikan di mana setiap karakter memiliki suara yang berbeda melalui coqui tts. Ini tidak hanya memberikan pengalaman buku audio yang mendalam tetapi juga menghidupkan setiap karakter dengan suara yang unik, membuat pengalaman mendengarkan jauh lebih menarik.

Termasuk model TTS

Semua model coqui- (Tacotron, Tacotron2, Glow-TTS, Speedy-Speech, Align-TTS, Fastpitch, Fastspeech, Fastspeech2, SC-Glowtts, Capacitron, Overflow, Neural Hmm TTS, TT yang menyenangkan, ⓧtts, Vits,? Yourtts,? Tortoise,?

?? ️ Aksen yang dapat Anda berikan kepada setiap karakter dengan model kloning default (XTTS)

- Mereka juga memungkinkan mereka untuk berbicara bahasa -bahasa ini, tetapi atribusi kutipan tidak akan mengidentifikasi dengan benar untuk apa pun yang bukan bahasa Inggris. Bahasa Inggris (en), Spanyol (ES), Prancis (FR), Jerman (DE), Italia (IT), Portugis (PT), Polandia (PL), Turki (TR), Rusia (RU), Belanda (NL), Ceko (CS), Arab (AR), Cina (ZH-CN), Jepang (JA), Hongaria (HU), Cina), Korean), Jepang (JA), Hongaria (Hu), Cina), Korean), Jepang (JA), Hongaria (Hu), Korean), Korean), Jepang (JA), Hongaria (HU), Korean), Korean), Jepang), Hongaria (HU)

Output sebagai M4B dengan semua metadata dan bab buku, contoh file output di aplikasi AudioBook Player

Example_of_output_in_audiobook_program

(serta folder file chatper mp4 individual dengan gambar ebook yang tertanam di dalamnya jika Anda menginginkannya)

? Demo

Demo xtts v2 berkualitas tinggi

Guardians_of_ga.hoole_10._lasky._kathryn _-_ coming_of_hoole_chapter_4.mp4

?? Lebih banyak file audio demo :)

Demo kura -kura berkualitas tinggi

272463996-C4F8DFDF-C5BD-4771-AB1A-6131C22A67B2.MP4

Demo Audio Balacoon yang sangat cepat

271878548-53B694A9-5DDD-4174-82BC-07AFF22D2330.mp4

271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4

** Pengujian kualitas super tinggi dengan model yang disetel halus **

Audio_5811.mp4

Anda dapat menyempurnakan model XTTS Anda sendiri dengan sekitar 6+ menit audio secara gratis dengan colab ini ~~https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah-~~

Sunting: bahwa Colab tidak berfungsi lagi: Gunakan versi saya yang menyediakan perbaikan: https://colab.research.google.com/drive/1sqqqzupo2pdjggkrbm60su6sbfyo3su ?usp=sharing

? Voxnovel headless google colab

Jelajahi dan jalankan versi interaktif dari Proyek Voxnovel tanpa kepala langsung di Google Colab! Mulailah di sini.

GUI

GUI_1_SELECT_FILE

GUI Bagian 1 (prosesor booknlp) Info/fitur

-Tombol "Proses File": Klik dan itu akan meminta Anda untuk memilih file ebook.

GUI_2_FINETUNE

Alat Koreksi Penugasan Pembicara Manual (GUI 1.5)

GUI ini untuk koreksi manual penugasan pembicara jika kutipan salah ditugaskan oleh booknlp. Ini membaca file buku.csv yang berisi buku -buku yang diekstraksi kutipan dan informasi pembicara, dan memungkinkan Anda untuk memeriksa dan memodifikasi penugasan speaker secara visual sesuai kebutuhan sebelum diteruskan ke langkah TTS berikutnya.

Fitur Utama:

Tampilan teks yang dapat digulir: Memungkinkan pengguna untuk melihat teks buku dengan tugas speaker berkode warna.
Pemilihan Speaker: Pengguna dapat memilih speaker baru dari menu dropdown untuk menugaskan kembali baris tertentu.
Kutipan yang dapat diperiksa: Baris dari buku ini ditampilkan dengan kotak centang, memungkinkan pemilihan beberapa baris untuk penugasan ulang speaker.
Pengkodean Warna Speaker: Setiap speaker diberi warna yang unik untuk identifikasi yang mudah.
Tombol untuk Tindakan:
- Perbarui Speaker yang Dipilih: Terapkan speaker yang dipilih ke semua baris yang diperiksa.
- Buang semua: Hapus centang semua baris yang dipilih.
- Lanjutkan: Simpan perubahan dan keluar dari alat.

Bagaimana menggunakan:

Pilih baris: Centang kotak di sebelah baris yang ingin Anda ubah.
Pilih Speaker: Pilih speaker yang diinginkan dari menu dropdown.
Terapkan Perubahan: Klik "Perbarui speaker yang dipilih" untuk menerapkan perubahan.
Ulasan: Teks akan diperbarui untuk mencerminkan perubahan.
Deselect: Klik "Batalkan Pilih Semua" untuk menghapus pilihan Anda.
Selesai: Setelah puas dengan koreksi, klik "Lanjutkan" untuk menyimpan dan keluar.

GUI_2_FINETUNE

GUI Bagian 2 (Coqui tts GUI) Info/fitur

Pilih TTS Model Dropdown: Ini memilih model TTS yang akan digunakan untuk kloning suara.
Sertakan kotak model suara cepat: (Hasilkan cepat dengan biaya kualitas audio) Klik ini untuk dapat melihat setiap model dan suara tunggal yang didukung oleh coqui tts.
- Ini akan memperbarui dropdown "Select TTS Model" untuk model kloning suara juga termasuk (daftar nilai yang akan ditambahkan).
- Ini akan memperbarui dropdown untuk suara untuk memilih untuk setiap karakter juga termasuk (daftar nilai yang akan ditambahkan).
Buat semua audio menghasilkan dengan kotak centang narator: Ini akan membuat audio setiap karakter dihasilkan dengan suara yang telah Anda pilih untuk narator saat Anda mengklik tombol "Generate Audio".
Klon Tombol Suara Baru: Klik ini untuk menambahkan suara baru yang dapat Anda klon (pastikan Anda memiliki file audio referensi di tangan).
Tambahkan model XTTS yang disempurnakan ke tombol aktor suara: Jika Anda memiliki folder yang berisi semua parameter model XTTS yang disesuaikan dengan suara tertentu, maka Anda dapat mengklik ini untuk membuat klon aktor suara dengan model XTT yang disesuaikan dengan baik, untuk memberikan hasil kloning suara yang jauh lebih baik.
Dropdown Suara Karakter: Ini adalah dropdown untuk memilih aktor suara (dan aksen masing -masing karakter jika menggunakan XTT).
- (1): Aktor suara yang tersedia untuk dipilih dari karakter ini. (Nilai default dipilih audio berdasarkan jenis kelamin yang disimpulkan adalah: "f, m, lainnya").
  - Saat Anda memilih suara, itu akan memainkan sampel audio dari suara itu, jika itu adalah suara model suara cepat dan audio refrence tidak ada, maka itu akan menghasilkan satu untuk dimainkan.
- (2): Aksen yang tersedia untuk dipilih dari karakter ini. (Opsional, default adalah bahasa Inggris).
Bab Pembatas Bab: Akan Mengubah Pembatas Bab Default (String yang digunakan untuk mengidentifikasi bab).
Durasi keheningan di bidang milidetik (MS): Ini akan mengubah jumlah milidetik di antara setiap bagian gabungan audio.
Pilih TTS Bahasa Dropdown: Ini akan memungkinkan Anda memilih aksen default yang digunakan untuk setiap karakter yang belum memiliki aksen yang dipilih secara manual.
Loading Bar: Akan memberikan perkiraan waktu tersisa. (Perkirakan, Anda mungkin tidak akan melihat prediksi yang akurat sampai berjalan selama 5 menit).
Blok Pratinjau Buku Beranotasi: Ini akan menunjukkan keseluruhan buku dengan kode warna masing-masing karakter.
- Anda dapat mengklik garis saat buku audio sedang dihasilkan untuk mendengar seperti apa garis yang dihasilkan itu. Tetapi hanya jika garis telah memiliki audio yang dihasilkan untuk itu; Jika tidak, itu tidak akan memainkan apa pun.
Load Book Button: Mengklik ini akan memuat ulang tampilan buku beranotasi kode warna, itu hanya akan mengacak warna yang dipilih untuk setiap baris karakter.
Hasilkan Tombol Audio: Akan mulai menghasilkan buku audio lengkap.
Kotak centang SELECT Acak (hanya akan terlihat jika kotak centang "Include Fast Voice Models" diperiksa): Akan memilih suara model cepat yang ditayangkan secara otomatis untuk setiap karakter kecuali untuk suara narator.

GUI_3_RUN

GUI Bagian 3 (Penampil Buku) Info/Fitur

-Sulit untuk menjelaskan lebih dari taman bermain jika Anda mengacaukannya maka Anda harus mendapatkan cara kerjanya. Tapi itu dapat digunakan untuk menyempurnakan buku audio -close di luar jendela saat Anda selesai dengan itu.

? Pengaturan Instal

? Voxnovel headless google colab

Jelajahi dan jalankan versi interaktif dari Proyek Voxnovel tanpa kepala langsung di Google Colab! Mulailah di sini.

? Docker (suara belum berfungsi di GUI)

? Docker tanpa kepala

Docker Headless M1? Mac

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2

Docker tanpa kepala? Linux/Intel? Mac

Untuk docker tanpa kepala hanya pada CPU

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

Untuk Docker tanpa kepala dengan speedup GPU jika Anda memiliki GPU NVIDA

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

Jendela Docker tanpa kepala

Instalasi dan Pengaturan di Windows (PowerShell)

Ikuti langkah -langkah ini untuk mengatur proyek Voxnovel pada sistem Windows menggunakan PowerShell:

Arahkan ke direktori profil pengguna Anda:
```
cd $ env: USERPROFILE
```

Klon Repositori Voxnovel dari GitHub:

git clone https: // github.com / DrewThomasson / VoxNovel.git

Menjalankan Voxnovel di Docker

Untuk operasi tanpa kepala di CPU

Untuk menjalankan aplikasi Voxnovel dalam wadah Docker di CPU Anda:

docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

Untuk operasi tanpa kepala dengan NVIDIA GPU Speedup

Jika Anda memiliki GPU NVIDIA dan ingin mempercepat pemrosesan, gunakan perintah berikut:

docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

? GUI Docker (suara belum berfungsi di GUI)

? Linux Docker

1. `CD ~`

git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest

? Mac Docker

Menyiapkan aplikasi GUI dengan Docker di MacOS

Panduan ini memberikan instruksi tentang cara menjalankan wadah Docker dengan antarmuka pengguna grafis pada macOS menggunakan Xquartz untuk penerusan X11 dan pemasangan volume.

Instal xquartz

Unduh dan instal Xquartz dari situs web Xquartz.
Buka Xquartz.
Pergi ke XQuartz -> Preferences .
Di tab Security , aktifkan koneksi dari klien jaringan .
Restart xquartz untuk menerapkan pengaturan ini.

Konfigurasikan dan jalankan wadah Docker

Izinkan Docker untuk terhubung ke xquartz

Buka terminal dan jalankan perintah berikut untuk memungkinkan koneksi dari mesin lokal Anda ke xquartz:

 xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')

Mulai wadah Docker

Jalankan perintah berikut untuk memulai wadah Docker Anda. Perintah ini mengkonfigurasi GUI untuk ditampilkan di host Anda dan memasang direktori yang diperlukan:

 cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0 
           -v /tmp/.X11-unix:/tmp/.X11-unix 
           -v "/Users/$(whoami)/VoxNovel:/VoxNovel" 
           athomasson2/voxnovel:latest

Catatan

Konfigurasi Xquartz : Pastikan Xquartz dikonfigurasi untuk memungkinkan klien jaringan sebelum mencoba untuk terhubung.
Keberadaan Direktori : Verifikasi bahwa direktori /Users/$(whoami)/VoxNovel ada di Mac Anda. Jika tidak, buat atau sesuaikan jalur pemasangan volume dalam perintah Docker sesuai kebutuhan.
Firewall and Security : Jika Anda menghadapi masalah konektivitas, periksa pengaturan firewall dan preferensi keamanan yang mungkin memblokir koneksi.

? Windows Docker

Instal VCXSRV:
```
choco install vcxsrv
```
- Pertama instal VCXSRV dan konfigurasikan untuk memungkinkan koneksi.
Cara mengatur vcxsrv
Setelah menginstal VCXSRV, biasanya diluncurkan secara otomatis. Anda dapat mengonfirmasi berjalan dengan memeriksa ikonnya di baki sistem, biasanya terletak di dekat jam di bilah tugas. Ini juga dapat dimulai secara otomatis saat Anda masuk ke sistem Anda.
Untuk memastikan itu dikonfigurasi untuk memungkinkan koneksi dari wadah Docker, ikuti langkah -langkah ini:
1. Klik kanan pada ikon VCXSRV di baki sistem.
2. Pilih "XLAunch" untuk membuka wizard konfigurasi.
3. Di wizard konfigurasi, pilih "Multiple Windows" dan lanjutkan ke langkah berikutnya.
4. Pilih pengaturan pilihan Anda untuk nomor tampilan dan layar.
5. Di jendela "Pengaturan Ekstra", pastikan untuk mencentang kotak berlabel "Nonaktifkan Kontrol Akses" untuk memungkinkan koneksi dari wadah Docker.
6. Lengkapi konfigurasi dengan mengklik "Selesai" dan kemudian "Simpan Konfigurasi" saat diminta.
Dengan pengaturan ini, VCXSRV harus berjalan dan dikonfigurasi untuk memungkinkan koneksi dari wadah Docker. Anda sekarang dapat melanjutkan dengan menjalankan perintah Docker Anda yang membutuhkan dukungan GUI.
Ubah ke direktori rumah Anda:
```
 cd $HOME
```

Klon Repositori:

git clone https://github.com/DrewThomasson/VoxNovel.git

Jalankan wadah Docker:

docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest

? Linux

Instalasi ubuntu perintah tunggal

(Jangan gunakan jika Anda sudah menginstal miniconda.)

Untuk menginstal Voxnovel di Ubuntu, Anda dapat menggunakan perintah tunggal berikut:

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

Pintasan desktop

-That skrip instalasi tunggal di atas juga harus membuat jalan pintas untuk aplikasi juga.

Opsi peluncuran manual

Atau Anda dapat secara manual meluncurkan aplikasi di terminal dengan perintah berikut:

 cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py

atau instalasi manual:

sudo apt-get install calibre
sudo apt-get install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install bs4
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1
pip install -r Ubuntu_requirements.txt
python -m spacy download en_core_web_sm

? Untuk Dukungan TTS Bahasa Non Latin (Opsional)

Instal Mecab untuk (dukungan TTS Bahasa Non Latin) (Opsional):

Ubuntu: sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(Untuk Bahasa Non Latin Dukungan TTS) (Opsional)
python -m unidic download

pip install mecab mecab-python3 unidic

? Steam Deck) (x86_64 Arch Linux)

Untuk menginstal voxnovel di dek uap Anda, buka terminal dan jalankan perintah tunggal berikut:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )

Sekarang Anda harus memiliki pintasan desktop untuk Voxnovel di akhir skrip ini!

? Intel Mac

Instal di Intel Mac:

Unduh Intel Voxnovel Installer

Atau jalankan perintah berikut di terminal Anda:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )

Setelah selesai, Anda harus memiliki pintasan desktop untuk Voxnovel.

? Hapus instalan di Intel Mac:

Untuk menghapus instalasi, jalankan perintah berikut di terminal Anda:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(Depricated jangan gunakan) Intel Mac Manual-Install

Jalankan dalam urutan ini:

brew install calibre
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1 9. pip install -r MAC-requirements.txt
pip install spacy 11. python -m spacy download en_core_web_sm

? Untuk Dukungan TTS Bahasa Non Latin (Opsional)

Instal Mecab untuk (dukungan TTS Bahasa Non Latin) (Opsional):

MacOS: brew install mecab , brew install mecab-ipadic

(Untuk Bahasa Non Latin Dukungan TTS) (Opsional)
python -m unidic download

pip install mecab mecab-python3 unidic

? Apple Silicon Mac (diuji pada 2020 M1 Pro 8GB RAM)

Instal di Apple Silicon Mac:

Unduh Apple Silicon Voxnovel Installer

Atau jalankan perintah berikut di terminal Anda:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )

Setelah selesai, Anda harus memiliki pintasan desktop untuk Voxnovel.

? Hapus instalan pada apel silikon mac:

Untuk menghapus instalasi, jalankan perintah berikut di terminal Anda:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(Depricated Jangan gunakan) Instalasi Manual Apple Silicon

Jalankan dalam urutan ini:

brew install calibre (Anda mungkin juga harus menginstalnya secara manual dari situs mereka jika ini tidak berhasil)
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install tensorflow-macos (juga opsional pip install tensorflow-metal tetapi sejauh ini saya belum mendapatkan speedup GPU
pip install styletts2
pip install tts==0.21.3
pip install --no-dependencies booknlp==1.0.7.1
pip install transformers==4.30.0
pip install tensorflow
pip install -r MAC-requirements.txt
pip install ebooklib bs4 epub2txt pygame moviepy spacy
python -m spacy download en_core_web_sm

? Untuk Dukungan TTS Bahasa Non Latin (Opsional)

Instal Mecab untuk (dukungan TTS Bahasa Non Latin) (Opsional):

MacOS: brew install mecab , brew install mecab-ipadic (Untuk Bahasa Non Latin Dukungan TTS) (Opsional)
python -m unidic download

pip install mecab mecab-python3 unidic

? Windows 11

Karena masalah windows booknlp, semua ini akan dijalankan di WSL (jangan khawatir, masih mudah).

? Tonton video instalasi di sini

Di PowerShell Anda, Tempel:
```
wsl --install
```
untuk menginstal WSL. (Anda mungkin diminta oleh sistem Anda untuk mengaktifkan virtualisasi di BIOS Anda jika tersedia, karena diperlukan untuk menjalankan WSL pada Windows.)

Setelah mengatur nama pengguna dan kata sandi Anda, buka WSL dan tempel perintah ini untuk satu perintah instalasi:

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

(Opsional hanya untuk kartu grafis NVIDA jangan menjalankan perintah ini jika Anda tidak memiliki kartu grafis NVIDIA) Instal NVIDIA CUDA Toolkit (diperlukan untuk akselerasi GPU NVIDIA):
```
sudo apt install nvidia-cuda-toolkit
```
Pastikan Anda berada di lingkungan Voxnovel Conda: (jika 'conda: perintah tidak ditemukan' yaitu conda tidak dipandang sebagai perintah kemudian coba tutup keluar dari jendela PowerShell saat ini dan meluncurkan kembali WSL dengan [wsl -d ubuntu]
```
conda activate VoxNovel
```
Arahkan ke folder Voxnovel (jika belum ada di sana):
```
 cd ~ && cd VoxNovel
```
Sekarang jalankan salah satu dari dua program yang ditunjukkan di bawah ini

Untuk menjalankan program

python gui_run.py

Atau menjalankan kepala tanpa kepala

python headless_voxnovel.py

Akses file wsl ubuntu dari windows

Anda dapat mengakses file WSL Ubuntu Anda secara langsung di Windows File Explorer dengan memasukkan jalur berikut di bilah alamat:

 \wsl.localhostUbuntuhome

File buku audio output akan ditempatkan di bawah VoxNoveloutput_audiobooks di wsl env

Untuk membuat jalan pintas desktop Windows voxnovel

Jalankan perintah ini di PowerShell

Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content

? ️ menghapus instalasi:

Untuk menghapus semuanya, jalankan perintah berikut di PowerShell:

wsl --unregister Ubuntu

Ini benar -benar akan menghapus lingkungan Ubuntu di mana aplikasi disimpan. ?

Pemecahan masalah WSL

Jika Anda memiliki masalah dengan lingkungan WSL:

Daftar semua lingkungan WSL:
```
wsl --list --verbose
```
Hapus lingkungan WSL tertentu (misalnya, Ubuntu):
```
wsl --unregister < distro_name >
```
Pasang kembali WSL:
```
wsl --install
```

Untuk meluncurkan WSL kapan saja Anda perlu menjalankan program ini, Anda dapat menggunakan bilah pencarian di Windows untuk menemukan dan meluncurkan "WSL" atau menjalankan:

wsl

? Untuk Dukungan TTS Bahasa Non Latin (Opsional)

Instal Mecab untuk (dukungan TTS Bahasa Non Latin) (Opsional):

sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(Untuk Bahasa Non Latin Dukungan TTS) (Opsional)
python -m unidic download

pip install mecab mecab-python3 unidic

Untuk menjalankan program

python gui_run.py

Atau menjalankan kepala tanpa kepala

python headless_voxnovel.py

Berlari dengan VRAM rendah (4 GB)

Modifikasi

Ternyata setelah Anda mengatur perangkat itu tetap seperti itu untuk program lengkap.
Jadi, saya telah membagi program menjadi dua program Python: satu CPU dan satu GPU. Saya telah menguji ini pada (4GB VRAM GPU) dan solusi ini berfungsi. Setidaknya di pihak saya, saya sangat berharap itu berhasil di pihak Anda.

Untuk menjalankan perbaikan yang telah saya buat dibuat khusus untuk situasi GPU VRAM yang rendah:

Untuk menjalankan skrip yang disediakan di sistem Anda, ikuti langkah -langkah ini secara berurutan:

Pemrosesan Buku (hanya CPU):
- Script: 1CPU_BOOK_PROCESSING.PY
- Skrip ini menangani tugas hanya memproses buku menggunakan booknlp, secara khusus memaksanya untuk berjalan di CPU.
- Jalankan dengan python 1CPU_Book_processing.py
Generasi audio (hanya GPU):
- Skrip: 2GPU_AUDIO_GENERATION.PY
- Skrip ini didedikasikan untuk hanya menghasilkan audio dengan GPU dan harus dijalankan setelah menyelesaikan pemrosesan buku dengan 1CPU_Book_processing.py .
- Jalankan dengan python 2GPU_Audio_generation.py

Hasil kinerja

Setelah menjalankan tes mini dengan file EPUB menggunakan pengaturan di atas, metrik kinerja berikut diamati:

Hasil kinerja

Pengujian Selesai dengan File Epub Mini Terletak di contoh_working_files.zip

Tugas	Konfigurasi	Waktu (detik)
Pemrosesan buku	GPU saja (GeForce GTX 980), 4GB VRAM, 32GB RAM, Intel I7-8700K	2.922
Generasi audio	GPU saja (GeForce GTX 980), 4GB VRAM, 32GB RAM, Intel I7-8700K	128.48
Pemrosesan buku	CPU saja, 32GB RAM, Intel I7-8700K	4.964
Generasi audio	CPU saja, 32GB RAM, Intel I7-8700K	391.4227

Untuk menjalankan program mobil

Ini berarti yang Anda lakukan adalah memilih buku dan semua suara akan ditetapkan secara otomatis dan dihasilkan untuk Anda.

python auto_noGui_run.py

Akses file audio yang dihasilkan

Anda dapat mengakses file buku audio yang dihasilkan di folder Voxnovel di lokasi

 VoxNovel/output_audiobooks

Jenis file ebook yang didukung:

.epub, .pdf, .mobi, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .snb, .cbc, .rb, dan .tcr,

(Hasil terbaik adalah dari menggunakan Epub atau Mobi untuk deteksi bab otomatis)

Folder

Folder yang digunakan oleh program ini

/Final_combined_output_audio: Di sinilah semua file audio bab Anda akan dimasukkan ke dalam urutan Bab Num

/output_audioBooks: Di sinilah semua file audiobook m4b Anda akan disimpan

/Working_files: Menyimpan semua file kerja yang digunakan oleh program saat berjalan secara aktif.

/Working_files/temp_ebook: memegang semua file txt bab yang diekstraksi dari ebook.

/Tortoise: Menghidupkan semua file suara sampel

Fungsi GUI

GUI Bagian 1 (prosesor booknlp)

-Tombol "Proses File": Klik dan itu akan meminta Anda untuk memilih file ebook.

GUI Bagian 2 (Coqui tts GUI)

Pilih TTS Model Dropdown: Ini memilih model TTS yang akan digunakan untuk kloning suara.
Sertakan kotak model suara cepat: (Hasilkan cepat dengan biaya kualitas audio) Klik ini untuk dapat melihat setiap model dan suara tunggal yang didukung oleh coqui tts.
- Ini akan memperbarui dropdown "Select TTS Model" untuk model kloning suara juga termasuk (daftar nilai yang akan ditambahkan).
- Ini akan memperbarui dropdown untuk suara untuk memilih untuk setiap karakter juga termasuk (daftar nilai yang akan ditambahkan).
Buat semua audio menghasilkan dengan kotak centang narator: Ini akan membuat audio setiap karakter dihasilkan dengan suara yang telah Anda pilih untuk narator saat Anda mengklik tombol "Generate Audio".
Klon Tombol Suara Baru: Klik ini untuk menambahkan suara baru yang dapat Anda klon (pastikan Anda memiliki file audio referensi di tangan).
Tambahkan model XTTS yang disempurnakan ke tombol aktor suara: Jika Anda memiliki folder yang berisi semua parameter model XTTS yang disesuaikan dengan suara tertentu, maka Anda dapat mengklik ini untuk membuat klon aktor suara dengan model XTT yang disesuaikan dengan baik, untuk memberikan hasil kloning suara yang jauh lebih baik.
Dropdown Suara Karakter: Ini adalah dropdown untuk memilih aktor suara (dan aksen masing -masing karakter jika menggunakan XTT).
- (1): Aktor suara yang tersedia untuk dipilih dari karakter ini. (Nilai default dipilih audio berdasarkan jenis kelamin yang disimpulkan adalah: "f, m, lainnya").
  - Saat Anda memilih suara, itu akan memainkan sampel audio dari suara itu, jika itu adalah suara model suara cepat dan audio refrence tidak ada, maka itu akan menghasilkan satu untuk dimainkan.
- (2): Aksen yang tersedia untuk dipilih dari karakter ini. (Opsional, default adalah bahasa Inggris).
Bab Pembatas Bab: Akan Mengubah Pembatas Bab Default (String yang digunakan untuk mengidentifikasi bab).
Durasi keheningan di bidang milidetik (MS): Ini akan mengubah jumlah milidetik di antara setiap bagian gabungan audio.
Pilih TTS Bahasa Dropdown: Ini akan memungkinkan Anda memilih aksen default yang digunakan untuk setiap karakter yang belum memiliki aksen yang dipilih secara manual.
Loading Bar: Akan memberikan perkiraan waktu tersisa. (Perkirakan, Anda mungkin tidak akan melihat prediksi yang akurat sampai berjalan selama 5 menit).
Blok Pratinjau Buku Beranotasi: Ini akan menunjukkan keseluruhan buku dengan kode warna masing-masing karakter.
- Anda dapat mengklik garis saat buku audio sedang dihasilkan untuk mendengar seperti apa garis yang dihasilkan itu. Tetapi hanya jika garis telah memiliki audio yang dihasilkan untuk itu; Jika tidak, itu tidak akan memainkan apa pun.
Load Book Button: Mengklik ini akan memuat ulang tampilan buku beranotasi kode warna, itu hanya akan mengacak warna yang dipilih untuk setiap baris karakter.
Hasilkan Tombol Audio: Akan mulai menghasilkan buku audio lengkap.
Kotak centang SELECT Acak (hanya akan terlihat jika kotak centang "Include Fast Voice Models" diperiksa): Akan memilih suara model cepat yang ditayangkan secara otomatis untuk setiap karakter kecuali untuk suara narator.

GUI Bagian 3 (Penampil Buku)

-Sulit untuk menjelaskan lebih dari taman bermain jika Anda mengacaukannya maka Anda harus mendapatkan cara kerjanya. Tapi itu dapat digunakan untuk menyempurnakan buku audio -close di luar jendela saat Anda selesai dengan itu.

? Fitur

Fitur yang direncanakan masuk

Jadikan sehingga semua suara dan model yang disertakan sudah memiliki suara demo premade mereka sendiri
Jadikan sehingga audio demo untuk suara yang dikloning bukan audio referensi mereka tetapi seperti apa suara mereka yang dihasilkan
Menggunakan transkripsi bisikan untuk memotong halusinasi dari audio yang dihasilkan
Menggabungkan model lokal untuk menghasilkan efek suara saat sebuah buku menguraikan lokasi atau efek suara
Menambahkan Simpan File Functional

Terima kasih khusus kepada:

-@Sidharthrarisam (untuk instalasi styletts2 pip yang dia buat, saya tidak bisa menambahkan styletts2 tanpa dia. :)) (https://github.com/sidharthrajaram/styletts2)

Memperluas

Informasi Tambahan

Versi vel: 1.5
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-08
ukuran 70.96MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua