VoxNovel 다운로드 VoxNovel 소스 코드 다운로드

VoxNovel

기타 소스코드

vel: 1.5

다운로드

Voxnovel

voxnovel_logo

? 개요

Voxnovel은 BookNLP의 기능을 활용하여 문헌을 분석하고, 특정 캐릭터에 대한 인용문을 제시하며, 각 캐릭터가 Coqui TT를 통해 독특한 목소리를 가진 맞춤형 오디오 북을 생성하는 혁신적인 프로그램입니다. 이것은 몰입 형 오디오 북 경험을 제공 할뿐만 아니라 독특한 목소리로 각 캐릭터에 생명을 불어 넣어 청취 경험을 훨씬 더 매력적으로 만듭니다.

TTS 모델이 포함되어 있습니다

모든 coqui tts 모델-(타코트론, 타코 트론 2, 글로우 -TTS, 빠른 연사, 정렬 TT, Fastpitch, FastSpeech, FastSpeech2, SC-Glowtts, Capacitron, Overflow, Neural Hmm TTS, 유쾌한 TTS, ⓧtts, Vits,? Yourtts,? Tortoise,?

?? ️ 각 문자를 기본 클로닝 모델 (XTTS)으로 제공 할 수 있습니다.

- 그들은 또한 그들이이 언어를 말할 수있게하지만 인용 속성은 영어가 아닌 것을 올바르게 식별하지 않습니다. 영어 (en), 스페인어 (ES), 프랑스어 (FR), 독일어 (DE), 이탈리아 (IT), 포르투갈어 (PT), 폴란드어 (PL), 터키 (TR), 러시아어 (RU), 네덜란드 (NL), 체코 (CS), 아랍어 (AR), 중국어 (ZH-CN), 일본 (JA), 헝가리 (HU), 한국 (KO).

모든 책 메타 데이터 및 챕터가있는 M4B로 출력, 오디오 북 플레이어 앱의 출력 파일 예제

example_of_output_in_audiobook_program

(원하는 경우 eBook 이미지가 포함 된 개별 MP4 Chatper 파일의 폴더뿐만 아니라

? 시민

고품질 XTTS V2 데모

Guardians_of_ga.hoole_10._lasky._kathryn _- _ coming_of_hoole_chapter_4.mp4

?? 더 많은 데모 오디오 파일 :)

고품질 거북이 데모

272463996-C4F8DFDF-C5BD-4771-AB1A-6131C22A67B2.mp4

매우 빠른 오디오 Balacoon 데모

271878548-53B694A9-5DDD-4174-82BC-07AFF222330.mp4

271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4

** 미세 조정 모델로 슈퍼 고품질 테스트 **

Audio_5811.mp4

약 6 분 이상의 오디오로 자신의 XTTS 모델을 미세 조정할 수 있습니다. ~~https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah-~~

편집 : Colab은 더 이상 작동하지 않습니다 : https://colab.research.google.com/drive/1sqqqzupo2pdjgggkrbm60su6sbfyo3su?usp=sharing

? 헤드리스 Voxnovel Google Colab

Google Colab에서 직접 헤드리스 Voxnovel 프로젝트의 대화식 버전을 탐색하고 실행하십시오! 여기서 시작하십시오.

구이

gui_1_select_file

GUI Part 1 (BookNlp 프로세서) 정보/기능

-"프로세스 파일"버튼 : 클릭하면 eBook 파일을 선택하도록 요청합니다.

GUI_2_FINETUNE

수동 스피커 할당 수정 도구 (GUI 1.5)

이 GUI는 BookNLP에 의해 따옴표가 잘못 지정된 경우 스피커 할당의 수동 수정을위한 것입니다. 책이 추출 된 인용문 및 스피커 정보가 포함 된 Book.csv 파일을 읽고 다음 TTS 단계로 전달되기 전에 필요에 따라 스피커 할당을 시각적으로 검사하고 수정할 수 있습니다.

주요 기능 :

스크롤 가능한 텍스트 디스플레이 : 사용자는 색상으로 코딩 된 스피커 할당으로 책의 텍스트를 볼 수 있습니다.
스피커 선택 : 사용자는 드롭 다운 메뉴에서 새 스피커를 선택하여 특정 줄을 재 할 수 있습니다.
확인 할 수있는 따옴표 : 책의 줄은 확인란으로 표시되어 스피커 재 할당을위한 여러 줄을 선택할 수 있습니다.
스피커 컬러 코딩 : 각 스피커에는 쉽게 식별 할 수 있도록 고유 한 색상이 할당됩니다.
작업용 버튼 :
- 선택된 스피커 업데이트 : 선택한 스피커를 모든 확인 된 라인에 적용하십시오.
- 선택 사항을 선택 해제하십시오 : 선택한 모든 선을 선택 취소하십시오.
- 계속 : 변경 사항을 저장하고 도구를 종료하십시오.

사용 방법 :

줄 선택 : 변경하려는 줄 옆에있는 상자를 확인하십시오.
스피커 선택 : 드롭 다운 메뉴에서 원하는 스피커를 선택하십시오.
변경 사항 적용 : "선택된 스피커 업데이트"를 클릭하여 변경 사항을 적용하십시오.
검토 : 텍스트가 변경 사항을 반영하도록 업데이트됩니다.
선택 사항 : 선택을 지우려면 "모두 선택 해제"를 클릭하십시오.
마무리 : 수정에 만족하면 "계속"을 클릭하여 저장 및 종료하십시오.

GUI_2_FINETUNE

GUI Part 2 (Coqui Tts GUI) 정보/기능

TTS 모델 드롭 다운 선택 : 음성 복제에 사용될 TTS 모델을 선택합니다.
빠른 음성 모델 포함 확인란 : (오디오 품질의 비용으로 빠른 생성) Coqui TTS에서 지원하는 다른 모든 모델과 단일 음성을 볼 수 있도록 이것을 클릭하십시오.
- 음성 복제 모델에 대한 "TTS 모델 선택"드롭 다운을 업데이트 할 것입니다 (추가 할 값 목록).
- 각 문자가 포함하도록 음성을 선택할 수있는 드롭 다운을 업데이트합니다 (추가 할 값 목록).
내레이터 음성 확인란으로 모든 오디오 생성을 만듭니다. 이렇게하면 "오디오 생성"버튼을 클릭 할 때 내레이터에 대해 선택한 음성으로 모든 캐릭터의 오디오가 생성됩니다.
복제 새 음성 버튼 : 이 클릭하여 복제 할 수있는 새로운 음성을 추가하려면 (참조 오디오 파일이 있는지 확인하십시오).
음성 행위자 버튼에 미세 조정 된 XTTS 모델 추가 : 특정 음성의 미세 조정 된 XTTS 모델의 모든 매개 변수가 포함 된 폴더가있는 경우,이를 클릭하여 성우가 미세 조정 된 XTTS 모델로 복제하여 훨씬 더 나은 음성 복제 결과를 제공 할 수 있습니다.
캐릭터 음성 드롭 다운 : 이들은 성우를 선택하기위한 드롭 다운입니다 (및 XTTS를 사용하는 경우 각 문자의 악센트).
- (1) :이 캐릭터에서 선택할 수있는 성우. (기본 값은 "F, M, Other"라는 유추 된 성격의 성별에 따라 오디오를 선택합니다).
  - 음성을 선택하면 해당 음성의 오디오 샘플이 재생됩니다. 빠른 음성 모델 음성이고 굴절 오디오가 존재하지 않으면 재생할 수 있습니다.
- (2) :이 캐릭터에서 선택할 수있는 악센트. (선택 사항, 기본값은 영어입니다).
챕터 구분기 필드 : 기본 장의 구분 기호 (챕터를 식별하는 데 사용되는 문자열)를 변경합니다.
밀리 초 (MS) 필드의 침묵 지속 시간 : 각 결합 된 오디오 덩어리 사이에서 밀리 초 양이 변경됩니다.
TTS 언어 드롭 다운 선택 : 수동으로 선택한 악센트가없는 모든 문자에 사용되는 기본 악센트를 선택할 수 있습니다.
로딩 바 : 대략적인 시간이 남아 있습니다. (추정, 당신은 아마도 5 분 동안 실행될 때까지 정확한 예측을 보지 못할 것입니다).
주석이 달린 책 미리보기 블록 : 이것은 각 캐릭터의 선이 색상으로 코딩 된 책 전체를 보여줍니다.
- 오디오 북이 생성되는 동안 줄을 클릭하여 생성 된 라인의 소리를들을 수 있습니다. 그러나 라인에 이미 오디오가 생성 된 경우에만; 그렇지 않다면 아무것도 재생하지 않습니다.
장부 버튼 : 이 클릭하면 색상으로 코딩 된 주석이 달린 장부보기가 다시로드되면 각 문자 라인에 대해 선택한 색상을 무작위로 표시합니다.
오디오 생성 버튼 : 전체 오디오 북을 생성하기 시작합니다.
임의의 음성 버튼을 선택하십시오 ( "빠른 음성 모델 포함"확인란이 확인 된 경우에만 표시됩니다) : 내레이터의 음성을 제외한 모든 문자에 대해 자동 성별에 인재하는 빠른 모델 음성을 선택합니다.

GUI_3_RUN

GUI Part 3 (도서관) 정보/기능

-당신이 그것을 엉망으로 만들면 더 많은 놀이터를 설명하기가 어렵다. 그러나 그것은 당신이 그것을 완료 할 때 오디오 북 -Close를 창 밖으로 미세 조정하는 데 사용될 수 있습니다.

? 설정 설치

? 헤드리스 Voxnovel Google Colab

Google Colab에서 직접 헤드리스 Voxnovel 프로젝트의 대화식 버전을 탐색하고 실행하십시오! 여기서 시작하십시오.

? Docker (아직 GUI에서 작동하지 않음)

? 헤드리스 도커

Docker Headless M1? Mac

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2

헤드리스 도커? Linux/Intel? Mac

CPU에만 헤드리스 도커의 경우

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

NVIDA GPU가있는 경우 GPU 속도를 가진 Headless Docker의 경우

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

헤드리스 Docker Windows

Windows (PowerShell)에 설치 및 설정

다음 단계에 따라 PowerShell을 사용하여 Windows 시스템에서 Voxnovel 프로젝트를 설정하십시오.

사용자 프로필 디렉토리로 이동하십시오.
```
cd $ env: USERPROFILE
```

Github에서 Voxnovel 저장소를 복제하십시오.

git clone https: // github.com / DrewThomasson / VoxNovel.git

Docker에서 Voxnovel을 실행합니다

CPU에서 헤드리스 작업

CPU의 Docker 컨테이너에서 Voxnovel 응용 프로그램을 실행하려면 :

docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

NVIDIA GPU 속도 업과의 헤드리스 작동

NVIDIA GPU가 있고 처리를 가속화하려면 다음 명령을 사용하십시오.

docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

? GUI DOCKER (GUI에서는 아직 작동하지 않음)

? Linux Docker

1.`CD ~`

git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest

? Mac Docker

MacOS에서 Docker와 함께 GUI 응용 프로그램 설정

이 안내서는 x11 전달 및 볼륨 장착 용 Xquartz를 사용하여 MacOS에서 그래픽 사용자 인터페이스를 사용하여 Docker 컨테이너를 실행하는 방법에 대한 지침을 제공합니다.

Xquartz를 설치하십시오

Xquartz 웹 사이트에서 Xquartz를 다운로드하여 설치하십시오.
Xquartz를 열었습니다.
XQuartz > Preferences 로 이동하십시오.
Security 탭에서 네트워크 클라이언트에서 연결할 수 있습니다.
Xquartz를 다시 시작하여 이러한 설정을 적용하십시오.

Docker 컨테이너를 구성하고 실행하십시오

Docker가 Xquartz에 연결하도록 허용하십시오

터미널을 열고 다음 명령을 실행하여 로컬 컴퓨터에서 Xquartz로 연결할 수 있습니다.

 xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')

Docker 컨테이너를 시작하십시오

Docker 컨테이너를 시작하려면 다음 명령을 실행하십시오. 이 명령은 GUI가 호스트에 표시되도록 구성하고 필요한 디렉토리를 마운트합니다.

 cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0 
           -v /tmp/.X11-unix:/tmp/.X11-unix 
           -v "/Users/$(whoami)/VoxNovel:/VoxNovel" 
           athomasson2/voxnovel:latest

메모

Xquartz 구성 : Xquartz가 연결을 시도하기 전에 네트워크 클라이언트를 허용하도록 구성되어 있는지 확인하십시오.
디렉토리 존재 : Mac에 디렉토리 /Users/$(whoami)/VoxNovel 존재하는지 확인하십시오. 그렇지 않은 경우 필요에 따라 Docker 명령에서 볼륨 마운트 경로를 작성하거나 조정하십시오.
방화벽 및 보안 : 연결 문제에 직면하면 연결을 차단할 수있는 방화벽 설정 및 보안 환경 설정을 확인하십시오.

? Windows Docker

vcxsrv 설치 :
```
choco install vcxsrv
```
- 먼저 VCXSRV를 설치하고 연결을 허용하도록 구성하십시오.
VCXSRV를 설정하는 방법
VCXSRV를 설치 한 후 일반적으로 자동으로 시작됩니다. 일반적으로 작업 표시 줄의 시계 근처에 위치한 시스템 트레이에서 아이콘을 확인하여 실행 중인지 확인할 수 있습니다. 시스템에 로그인하면 자동으로 시작될 수 있습니다.
Docker 컨테이너의 연결을 허용하도록 구성되도록 다음 단계를 따르십시오.
1. 시스템 트레이에서 VCXSRV 아이콘을 마우스 오른쪽 버튼으로 클릭하십시오.
2. "xlaunch"를 선택하여 구성 마법사를 엽니 다.
3. 구성 마법사에서 "다중 창"을 선택하고 다음 단계로 진행하십시오.
4. 디스플레이 번호 및 화면에 대한 선호하는 설정을 선택하십시오.
5. "추가 설정"창에서 Docker 컨테이너에서 연결할 수 있도록 "액세스 제어 비활성화"라는 상자를 확인하십시오.
6. "완료"를 클릭하여 구성을 완료 한 다음 프롬프트되면 "구성 저장"을 완료하십시오.
이러한 설정을 사용하면 Docker 컨테이너의 연결을 허용하도록 VCXSRV를 실행하고 구성해야합니다. 이제 GUI 지원이 필요한 Docker 명령을 실행할 수 있습니다.
홈 디렉토리로 변경 :
```
 cd $HOME
```

저장소 복제 :

git clone https://github.com/DrewThomasson/VoxNovel.git

Docker 컨테이너를 실행하십시오.

docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest

? 리눅스

단일 명령 우분투 설치

(미니콘다가 이미 설치되어있는 경우 사용하지 마십시오.)

Ubuntu에 Voxnovel을 설치하려면 다음 단일 명령을 사용할 수 있습니다.

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

데스크탑 단축키

-위의 단일 설치 스크립트는 응용 프로그램의 바로 가기도 생성해야합니다.

수동 시작 옵션

또는 다음 명령으로 터미널에서 응용 프로그램을 수동으로 시작할 수 있습니다.

 cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py

또는 수동 설치 :

sudo apt-get install calibre
sudo apt-get install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install bs4
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1
pip install -r Ubuntu_requirements.txt
python -m spacy download en_core_web_sm

? 비 라틴 기반 언어의 경우 TTS 지원 (선택 사항)

(라틴어 기반 언어 TTS 지원) (선택 사항)에 대한 Mecab을 설치하십시오.

Ubuntu : sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(비 라틴 기반 언어 TTS 지원) (선택 사항)
python -m unidic download

pip install mecab mecab-python3 unidic

? 스팀 데크) (x86_64 아치 리눅스)

스팀 데크에 Voxnovel을 설치하려면 터미널을 열고 다음 단일 명령을 실행하십시오.

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )

이제이 스크립트 끝에 Voxnovel을위한 데스크탑 단축키가 있어야합니다!

? 인텔 맥

Intel Mac에 설치 :

Intel Voxnovel Installer를 다운로드하십시오

또는 터미널에서 다음 명령을 실행하십시오.

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )

완료되면 Voxnovel을위한 데스크탑 단축키가 있어야합니다.

? Intel Mac에서 제거 :

제거하려면 터미널에서 다음 명령을 실행하십시오.

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(부패한 사용) Intel Mac Manual Install

이 순서로 실행하십시오.

brew install calibre
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1 9. pip install -r MAC-requirements.txt
pip install spacy 11. python -m spacy download en_core_web_sm

? 비 라틴 기반 언어의 경우 TTS 지원 (선택 사항)

(라틴어 기반 언어 TTS 지원) (선택 사항)에 대한 Mecab을 설치하십시오.

MACOS : brew install mecab , brew install mecab-ipadic

(비 라틴 기반 언어 TTS 지원) (선택 사항)
python -m unidic download

pip install mecab mecab-python3 unidic

? Apple Silicon Mac (2020 M1 Pro 8GB RAM에서 테스트)

Apple Silicon Mac에 설치 :

Apple Silicon Voxnovel 설치 프로그램을 다운로드하십시오

또는 터미널에서 다음 명령을 실행하십시오.

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )

완료되면 Voxnovel을위한 데스크탑 단축키가 있어야합니다.

? Apple Silicon Mac에서 제거 :

제거하려면 터미널에서 다음 명령을 실행하십시오.

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(핑계는 사용하지 않습니다) Apple Silicon Manual Install

이 순서로 실행하십시오.

brew install calibre (작동하지 않으면 사이트에서 수동으로 설치해야 할 수도 있습니다).
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install tensorflow-macos (또한 옵션 pip install tensorflow-metal 지금까지는 아직 GPU 속도를 얻지 못했습니다.
pip install styletts2
pip install tts==0.21.3
pip install --no-dependencies booknlp==1.0.7.1
pip install transformers==4.30.0
pip install tensorflow
pip install -r MAC-requirements.txt
pip install ebooklib bs4 epub2txt pygame moviepy spacy
python -m spacy download en_core_web_sm

? 비 라틴 기반 언어의 경우 TTS 지원 (선택 사항)

(라틴어 기반 언어 TTS 지원) (선택 사항)에 대한 Mecab을 설치하십시오.

MACOS : brew install mecab , brew install mecab-ipadic (비 라틴어 기반 언어 TTS 지원) (선택 사항)
python -m unidic download

pip install mecab mecab-python3 unidic

? Windows 11

BookNLP Windows 문제로 인해이 모든 것이 WSL에서 실행됩니다 (걱정하지 마십시오. 여전히 쉽습니다).

? 여기에서 설치 비디오를보십시오

PowerShell에서 붙여 넣기 :
```
wsl --install
```
WSL을 설치하려면. (Windows에서 WSL을 실행해야하기 때문에 사용 가능한 경우 BIOS에서 가상화를 가능하게하는 시스템에 의해 프롬프트 될 수 있습니다.)

사용자 이름과 비밀번호를 설정 한 후 WSL을 열고 단일 명령 설치 에이 명령을 붙여 넣습니다.

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

(NVIDA 그래픽 카드에 대해서만 선택 사항 NVIDIA 그래픽 카드가없는 경우이 명령을 실행하지 않습니다) NVIDIA CUDA TOOLKIT 설치 (NVIDIA GPU 가속도에 필수) :
```
sudo apt install nvidia-cuda-toolkit
```
Voxnovel Conda 환경에 있는지 확인하십시오.
```
conda activate VoxNovel
```
Voxnovel 폴더로 이동하십시오 (아직없는 경우) :
```
 cd ~ && cd VoxNovel
```
이제 아래에 표시된 두 프로그램 중 하나를 실행하십시오.

프로그램을 실행합니다

python gui_run.py

또는 헤드리스를 실행합니다

python headless_voxnovel.py

Windows에서 WSL Ubuntu 파일에 액세스하십시오

주소 표시 줄에 다음 경로를 입력하여 Windows 파일 탐색기에서 WSL Ubuntu 파일에 직접 액세스 할 수 있습니다.

 \wsl.localhostUbuntuhome

출력 오디오 북 파일은 WSL ENV의 VoxNoveloutput_audiobooks 아래에 있습니다.

Voxnovel Windows Desktop 바로 가기를 만듭니다

PowerShell 에서이 명령을 실행하십시오

Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content

? ️ 제거 :

모든 것을 제거하려면 PowerShell에서 다음 명령을 실행하십시오.

wsl --unregister Ubuntu

이것은 응용 프로그램이 저장된 우분투 환경을 완전히 제거합니다. ?

문제 해결 WSL

WSL 환경에 문제가있는 경우 :

모든 WSL 환경을 나열하십시오.
```
wsl --list --verbose
```
특정 WSL 환경 제거 (예 : Ubuntu) :
```
wsl --unregister < distro_name >
```
WSL을 다시 설치 :
```
wsl --install
```

이 프로그램을 실행해야 할 때 언제든지 WSL을 시작하려면 Windows의 검색 창을 사용하여 "WSL"을 찾고 실행할 수 있습니다.

wsl

? 비 라틴 기반 언어의 경우 TTS 지원 (선택 사항)

(라틴어 기반 언어 TTS 지원) (선택 사항)에 대한 Mecab을 설치하십시오.

sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(비 라틴 기반 언어 TTS 지원) (선택 사항)
python -m unidic download

pip install mecab mecab-python3 unidic

프로그램을 실행합니다

python gui_run.py

또는 헤드리스를 실행합니다

python headless_voxnovel.py

낮은 VRAM (4GB)으로 실행

수정

장치를 설정하면 전체 프로그램에 대해 그대로 유지됩니다.
그래서 저는 프로그램을 두 개의 파이썬 프로그램의 두 가지 Python 프로그램으로 나누었습니다. 하나의 CPU와 GPU 하나입니다. (4GB VRAM GPU)에서 이것을 테스트 했으며이 솔루션은 작동합니다. 적어도 내 결국 나는 그것이 당신의 끝에서 실제로 작동하기를 바랍니다.

수정을 실행하려면 낮은 VRAM GPU 상황을 위해 재단사를 만들었습니다.

시스템에서 제공된 스크립트를 실행하려면 다음 단계를 수행하십시오.

책 처리 (CPU 만 해당) :
- 스크립트 : 1cpu_book_processing.py
- 이 스크립트는 BookNLP를 사용하여 책을 처리하는 것만으로도 CPU에서 실행되도록하는 작업을 처리합니다.
- python 1CPU_Book_processing.py 로 실행하십시오
오디오 생성 (GPU 만 해당) :
- 스크립트 : 2gpu_audio_generation.py
- 이 스크립트는 GPU로 오디오를 생성하는 데 전념하고 있으며 1CPU_Book_processing.py 로 책 처리를 완료 한 후에 실행해야합니다.
- python 2GPU_Audio_generation.py 로 실행하십시오

성능 결과

위의 설정을 사용하여 EPUB 파일로 미니 테스트를 실행하면 다음 성능 메트릭이 관찰되었습니다.

성능 결과

example_working_files.zip에있는 미니 epub 파일로 완료 된 테스트

일	구성	시간 (초)
책 처리	GPU 만 (Geforce GTX 980), 4GB VRAM, 32GB RAM, Intel i7-8700K	2.922
오디오 생성	GPU 만 (Geforce GTX 980), 4GB VRAM, 32GB RAM, Intel i7-8700K	128.48
책 처리	CPU 전용, 32GB RAM, Intel i7-8700K	4.964
오디오 생성	CPU 전용, 32GB RAM, Intel i7-8700K	391.4227

자동 프로그램을 실행합니다

이것은 당신이하는 모든 일은 책을 선택하는 것 뿐이며 모든 목소리가 자동 할당되고 생성됩니다.

python auto_noGui_run.py

액세스 생성 오디오 북 파일

위치의 Voxnovel 폴더에서 생성 된 오디오 북 파일에 액세스 할 수 있습니다.

 VoxNovel/output_audiobooks

지원되는 전자 책 파일 유형 :

.epub, .pdf, .mobi, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .snb, .cbc, .rb 및 .tcr,.

(가장 좋은 결과는 자동 챕터 감지에 Epub 또는 Mobi를 사용하는 것입니다)

폴더

프로그램에서 사용하는 폴더

/final_combined_output_audio : 이것은 모든 장 오디오 파일을 장의 순서대로 제출하는 곳입니다.

/output_audiobooks : 모든 M4B AudioBook 파일이 저장되는 곳입니다.

/working_files : 활성으로 실행 중에 프로그램에서 사용하는 모든 작업 파일을 보유합니다.

/working_files/temp_ebook : eBook에서 추출 된 모든 직장 TXT 파일을 모두 보유합니다.

/거북이 : 모든 샘플 음성 파일을 보유합니다

GUI 기능

GUI Part 1 (BookNlp 프로세서)

-"프로세스 파일"버튼 : 클릭하면 eBook 파일을 선택하도록 요청합니다.

Gui Part 2 (Coqui Tts Gui)

TTS 모델 드롭 다운 선택 : 음성 복제에 사용될 TTS 모델을 선택합니다.
빠른 음성 모델 포함 확인란 : (오디오 품질의 비용으로 빠른 생성) Coqui TTS에서 지원하는 다른 모든 모델과 단일 음성을 볼 수 있도록 이것을 클릭하십시오.
- 음성 복제 모델에 대한 "TTS 모델 선택"드롭 다운을 업데이트 할 것입니다 (추가 할 값 목록).
- 각 문자가 포함하도록 음성을 선택할 수있는 드롭 다운을 업데이트합니다 (추가 할 값 목록).
내레이터 음성 확인란으로 모든 오디오 생성을 만듭니다. 이렇게하면 "오디오 생성"버튼을 클릭 할 때 내레이터에 대해 선택한 음성으로 모든 캐릭터의 오디오가 생성됩니다.
복제 새 음성 버튼 : 이 클릭하여 복제 할 수있는 새로운 음성을 추가하려면 (참조 오디오 파일이 있는지 확인하십시오).
음성 행위자 버튼에 미세 조정 된 XTTS 모델 추가 : 특정 음성의 미세 조정 된 XTTS 모델의 모든 매개 변수가 포함 된 폴더가있는 경우,이를 클릭하여 성우가 미세 조정 된 XTTS 모델로 복제하여 훨씬 더 나은 음성 복제 결과를 제공 할 수 있습니다.
캐릭터 음성 드롭 다운 : 이들은 성우를 선택하기위한 드롭 다운입니다 (및 XTTS를 사용하는 경우 각 문자의 악센트).
- (1) :이 캐릭터에서 선택할 수있는 성우. (기본 값은 "F, M, Other"라는 유추 된 성격의 성별에 따라 오디오를 선택합니다).
  - 음성을 선택하면 해당 음성의 오디오 샘플이 재생됩니다. 빠른 음성 모델 음성이고 굴절 오디오가 존재하지 않으면 재생할 수 있습니다.
- (2) :이 캐릭터에서 선택할 수있는 악센트. (선택 사항, 기본값은 영어입니다).
챕터 구분기 필드 : 기본 장의 구분 기호 (챕터를 식별하는 데 사용되는 문자열)를 변경합니다.
밀리 초 (MS) 필드의 침묵 지속 시간 : 각 결합 된 오디오 덩어리 사이에서 밀리 초 양이 변경됩니다.
TTS 언어 드롭 다운 선택 : 수동으로 선택한 악센트가없는 모든 문자에 사용되는 기본 악센트를 선택할 수 있습니다.
로딩 바 : 대략적인 시간이 남아 있습니다. (추정, 당신은 아마도 5 분 동안 실행될 때까지 정확한 예측을 보지 못할 것입니다).
주석이 달린 책 미리보기 블록 : 이것은 각 캐릭터의 선이 색상으로 코딩 된 책 전체를 보여줍니다.
- 오디오 북이 생성되는 동안 줄을 클릭하여 생성 된 라인의 소리를들을 수 있습니다. 그러나 라인에 이미 오디오가 생성 된 경우에만; 그렇지 않다면 아무것도 재생하지 않습니다.
장부 버튼 : 이 클릭하면 색상으로 코딩 된 주석이 달린 장부보기가 다시로드되면 각 문자 라인에 대해 선택한 색상을 무작위로 표시합니다.
오디오 생성 버튼 : 전체 오디오 북을 생성하기 시작합니다.
임의의 음성 버튼을 선택하십시오 ( "빠른 음성 모델 포함"확인란이 확인 된 경우에만 표시됩니다) : 내레이터의 음성을 제외한 모든 문자에 대해 자동 성별에 인재하는 빠른 모델 음성을 선택합니다.

GUI Part 3 (도서관)

-당신이 그것을 엉망으로 만들면 더 많은 놀이터를 설명하기가 어렵다. 그러나 그것은 당신이 그것을 완료 할 때 오디오 북 -Close를 창 밖으로 미세 조정하는 데 사용될 수 있습니다.

? 특징

들어오는 계획된 기능

포함 된 모든 목소리와 모델에 이미 사전에 사후의 데모 음성이 있도록하십시오.
복제 된 음성의 데모 오디오가 참조 오디오가 아니라 그들의 목소리가 생성 된 것처럼 들리도록하십시오.
Whisper Transcriptions를 사용하여 환각을 생성 된 오디오에서 절단
책이 위치 또는 음향 효과를 분해 할 때 음향 효과를 생성하기 위해 로컬 모델을 통합
파일 기능 저장 추가

특별한 감사 :

-@sidharthrajaram (그의 Styletts2 Pip 설치를 위해 그가 만든 Styletts2를 추가 할 수 없었습니다. :)) (https://github.com/sidharthrajaram/styletts2)

확장하다

추가 정보

버전 vel: 1.5
유형 기타 소스코드
업데이트 시간 2025-03-08
크기 70.96MB
출처 Github