VoxNovelダウンロードVoxNovelソースコードのダウンロード

VoxNovel

その他のソースコード

vel: 1.5

ダウンロード

Voxnovel

voxnovel_logo

？概要

Voxnovelは、BookNLPの機能を活用して文献を分析し、引用符を特定のキャラクターに帰し、各文字がコキTTを通して明確な音声を持っているテーラードオーディオブックを生成する革新的なプログラムです。これにより、没入型のオーディオブックエクスペリエンスを提供するだけでなく、各キャラクターをユニークな声で実現させ、リスニングエクスペリエンスをより魅力的にします。

TTSモデルが含まれています

すべてのCoqui TTSモデル（Tacotron、Tacotron2、Glow-TTS、Speedy-Speech、Align-TTS、FastPitch、FastSpeech、FastSpeech2、Sc-Glowtts、Capacitron、Overflow、神経HMM TTS、楽しいTTS、ⓧtts、vits、Youttts、tortoise、stylet、barkts、

デフォルトのクローニングモデル（XTTS）で各文字を与えることができるアクセント

- 彼らはまた、彼らがこれらの言語を話すことを許可しますが、引用符は英語ではないものについて正しく識別しません。英語（EN）、スペイン語（ES）、フランス語（FR）、ドイツ語（DE）、イタリア語（IT）、ポルトガル語（PT）、ポリッシュ（PL）、トルコ語（TR）、ロシア語（Ru）、オランダ語（NL）、チェコ語（CS）、アラビア語（AR）、中国（Zh-CN）、日本（JA）、ハンガリー語（hu）、ko）

すべての本のメタデータと章を備えたM4Bとしての出力、オーディオブックプレーヤーアプリの出力ファイルの例

example_of_output_in_audiobook_program

（また、電子ブックイメージが埋め込まれた個々のMP4チャットファイルのフォルダーと同様に、必要に応じて）

？デモ

高品質のXTTS V2デモ

Guardians_of_ga.hoole_10._lasky._kathryn _-_ Combing_of_hoole_chapter_4.mp4

??その他のデモオーディオファイル:)

高品質のカメのデモ

272463996-C4F8DFDF-C5BD-4771-AB1A-6131C22A67B2.MP4

超高速オーディオバラクーンデモ

271878548-53B694A9-5DDD-4174-82BC-07AFF22D2330.mp4

271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4

**微調整されたモデルを使用した超高品質のテスト**

audio_5811.mp4

このコラブでは、約6分以上のオーディオで独自のXTTSモデルを無料で微調整できます~~https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah-~~

編集：コラブが機能しなくなりました：修正を提供する私のバージョンを使用：https：//colab.google.com/drive/1sqqzupo2pdjgggkrbm60su6sbyo3su？usp = sharing

？ヘッドレスVoxnovel Google Colab

Google Colabで直接ヘッドレスVoxnovelプロジェクトのインタラクティブバージョンを探索して実行してください！ここから始めましょう。

GUI

GUI_1_SELECT_FILE

GUIパート1（BookNLPプロセッサ）情報/機能

- 「ファイルのプロセス」ボタン：クリックすると、電子書籍ファイルを選択するように依頼します。

GUI_2_FINETUNE

手動スピーカーの割り当て補正ツール（GUI 1.5）

このGUIは、引用符がbooknlpによって誤って割り当てられている場合、スピーカー割り当ての手動修正用です。書籍を抽出した引用符とスピーカー情報を含むbook.csvファイルを読み取り、次のTTSステップに渡される前に、必要に応じてスピーカーの割り当てを視覚的に検査および変更できます。

主な機能：

スクロール可能なテキスト表示：ユーザーは、色分けされたスピーカーの割り当てで本のテキストを表示できます。
スピーカーの選択：ユーザーは、ドロップダウンメニューから新しいスピーカーを選択して、特定の行を再割り当てできます。
チェック可能な引用：本の行はチェックボックスで表示され、スピーカーの再割り当て用の複数の行の選択が可能になります。
スピーカーカラーコーディング：各スピーカーには、簡単に識別するために一意の色が割り当てられます。
アクションのボタン：
- 選択したスピーカーを更新します：選択したスピーカーをすべてのチェックラインに適用します。
- すべての選択：選択されたすべての行をオフにします。
- 続行：変更を保存してツールを終了します。

使い方：

行を選択します：変更する行の横にあるボックスを確認します。
スピーカーを選択します。ドロップダウンメニューから目的のスピーカーを選択します。
変更を適用する： 「選択したスピーカーを更新」をクリックして、変更を適用します。
レビュー：テキストは更新され、変更が反映されます。
解決策： 「すべての選択」をクリックして、選択をクリアします。
仕上げ：修正に満足したら、[続行]をクリックして保存して終了します。

GUI_2_FINETUNE

GUIパート2（Coqui TTS GUI）情報/機能

TTSモデルのドロップダウンを選択します。これにより、音声クローニングに使用されるTTSモデルが選択されます。
高速音声モデルを含めるチェックボックス：（オーディオ品質のコストで高速生成）これをクリックして、Coqui TTSでサポートされている他のすべてのモデルと特異な声を見ることができます。
- 音声クローニングモデルの「Select TTSモデル」ドロップダウンを更新して、（追加する値のリスト）。
- 各文字を選択するボイスのドロップダウンを更新して、（追加する値のリスト）。
ナレーター音声チェックボックスを使用してすべてのオーディオを生成します。これにより、「オーディオの生成」ボタンをクリックすると、ナレーター用に選択した音声ですべてのキャラクターのオーディオが生成されます。
新しい音声ボタンのクローン：これをクリックして、クローンできる新しい音声を追加します（参照オーディオファイルが手元にあることを確認してください）。
Voice Actorボタンに微調整されたXTTSモデルを追加する：特定の音声の微調整されたXTTSモデルのすべてのパラメーターを含むフォルダーがある場合、これをクリックして、その微調整されたXTTSモデルでその音声俳優のクローンを作成し、より良い音声クローン結果を提供することができます。
キャラクターボイスドロップダウン：これらは、声優（XTTSを使用している場合は各キャラクターのアクセント）を選択するためのドロップダウンです。
- （1）：このキャラクターから選択できる音声俳優。（デフォルト値は、キャラクターの性別に基づいて選択されたオーディオです： "f、m、other"）。
  - 音声を選択すると、その音声のオーディオサンプルを再生します。高速の音声モデル音声とレックオーディオが存在しない場合は、再生するために生成されます。
- （2）：このキャラクターから選択できるアクセント。（オプション、デフォルトは英語です）。
章デリミッターフィールド：デフォルトの章のデリミター（章を識別するために使用される文字列）が変更されます。
ミリ秒単位（MS）フィールドでの沈黙期間：これにより、オーディオの各組み合わせチャンクの間にミリ秒の量が変更されます。
TTS言語のドロップダウンを選択します。これにより、アクセントが手動で選択されていないすべての文字に使用されるデフォルトのアクセントを選択できます。
積み込みバー：ほぼの時間が残っています。（推定、5分間実行されるまで正確な予測が表示されないでしょう）。
注釈付きの本プレビューブロック：これにより、各キャラクターのラインが色分けされた本全体が表示されます。
- オーディオブックが生成されている間に行をクリックして、その生成されたラインがどのように聞こえるかを聞くことができます。ただし、ラインがすでにオーディオを生成している場合のみ。そうでない場合は、何もプレイしません。
[ブック]ボタンの読み込み：クリックすると、色分けされた注釈付きの本ビューがリロードされます。各文字の行の選択した色をランダム化するだけです。
オーディオボタンの生成：完全なオーディオブックの生成を開始します。
[ランダムな音声]ボタンを選択します（「FAST Voiceモデルを含む」チェックボックスがチェックされている場合にのみ表示されます）：ナレーターの音声を除くすべてのキャラクターに対して自動性別に関与した高速モデル音声を選択します。

GUI_3_RUN

GUIパート3（ブックビューア）情報/機能

- 遊び場をもっと説明するのは難しいです。それを台無しにして、それがどのように機能するかを理解する必要があります。ただし、オーディオブックを微調整するために使用できます。

？セットアップインストール

？ヘッドレスVoxnovel Google Colab

Google Colabで直接ヘッドレスVoxnovelプロジェクトのインタラクティブバージョンを探索して実行してください！ここから始めましょう。

？ Docker（まだGUIで機能していない）

？ヘッドレスドッカー

Docker Headless M1？Mac

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2

ヘッドレスドッカー？ Linux/Intel？Mac

CPUのみのヘッドレスドッカー用

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

nvida gpuをお持ちの場合は、GPUスピードアップを備えたヘッドレスドッカー用

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

ヘッドレスドッカーウィンドウ

Windowsでのインストールとセットアップ（PowerShell）

これらの手順に従って、PowerShellを使用してWindowsシステムにVoxnovelプロジェクトを設定します。

ユーザープロファイルディレクトリに移動します。
```
cd $ env: USERPROFILE
```

GithubからVoxnovelリポジトリをクローンします。

git clone https: // github.com / DrewThomasson / VoxNovel.git

DockerでVoxnovelを実行します

CPUでのヘッドレス操作用

CPUのDockerコンテナでVoxnovelアプリケーションを実行するには：

docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

NVIDIA GPUスピードアップを使用したヘッドレス操作用

NVIDIA GPUを持っていて、処理を加速したい場合は、次のコマンドを使用します。

docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

？ GUI Docker（まだGUIで機能していない）

？ Linux Docker

1。 `cd〜`

git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest

？ Mac Docker

MACOSでDockerを使用してGUIアプリケーションをセットアップします

このガイドは、X11の転送とボリュームマウントのためにXquartzを使用して、MacOSのグラフィカルユーザーインターフェイスを備えたDockerコンテナを実行する方法についての指示を提供します。

Xquartzをインストールします

Xquartz WebサイトからXquartzをダウンロードしてインストールします。
Xquartzを開きます。
XQuartz > Preferencesに移動します。
Securityタブで、ネットワーククライアントからの接続を許可します。
Xquartzを再起動して、これらの設定を適用します。

Dockerコンテナを構成して実行します

DockerがXquartzに接続できるようにします

端末を開き、次のコマンドを実行して、ローカルマシンからXquartzへの接続を許可します。

 xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')

Dockerコンテナを起動します

次のコマンドを実行して、Dockerコンテナを起動します。このコマンドは、ホストに表示するGUIを構成し、必要なディレクトリをマウントします。

 cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0 
           -v /tmp/.X11-unix:/tmp/.X11-unix 
           -v "/Users/$(whoami)/VoxNovel:/VoxNovel" 
           athomasson2/voxnovel:latest

メモ

XQuartz構成：接続を試みる前に、Xquartzがネットワーククライアントを許可するように構成されていることを確認してください。
ディレクトリの存在：Directory /Users/$(whoami)/VoxNovel Macに存在することを確認します。そうでない場合は、必要に応じてDockerコマンドのボリュームマウントパスを作成するか、調整します。
ファイアウォールとセキュリティ：接続の問題に直面している場合は、接続をブロックする可能性のあるファイアウォール設定とセキュリティ設定を確認してください。

？ Windows Docker

VCXSRVをインストール：
```
choco install vcxsrv
```
- 最初にVCXSRVをインストールし、接続を許可するように構成します。
VCXSRVをセットアップする方法
VCXSRVをインストールした後、通常は自動的に起動します。通常はタスクバーの時計の近くにあるシステムトレイ内のアイコンをチェックして、実行されていることを確認できます。また、システムにログインすると、自動的に起動する場合があります。
Dockerコンテナからの接続を許可するように構成されていることを確認するには、次の手順に従ってください。
1. システムトレイのVCXSRVアイコンを右クリックします。
2. [Xlaunch]を選択して、構成ウィザードを開きます。
3. 構成ウィザードで、「複数のウィンドウ」を選択し、次のステップに進みます。
4. ディスプレイ番号と画面の優先設定を選択します。
5. [追加設定]ウィンドウで、「アクセス制御を無効にする」というラベルの付いたボックスを確認して、Dockerコンテナからの接続を許可してください。
6. [仕上げ]をクリックして構成を完了し、プロンプトが表示されたときに「構成を保存」します。
これらの設定を使用すると、VCXSRVが実行され、Dockerコンテナからの接続を許可するように構成する必要があります。これで、GUIサポートを必要とするDockerコマンドを実行することができます。
あなたのホームディレクトリに変更：
```
 cd $HOME
```

リポジトリをクローンします：

git clone https://github.com/DrewThomasson/VoxNovel.git

Dockerコンテナを実行します。

docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest

？ Linux

単一コマンドUbuntuインストール

（すでにミニコンダをインストールしている場合は使用しないでください。）

UbuntuにVoxnovelをインストールするには、次の単一コマンドを使用できます。

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

デスクトップショートカット

- 上記の単一のインストールスクリプトも、アプリケーションのショートカットも作成する必要があります。

手動起動オプション

または、次のコマンドを使用して、端末で手動でアプリケーションを起動することができます。

 cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py

または手動インストール：

sudo apt-get install calibre
sudo apt-get install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install bs4
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1
pip install -r Ubuntu_requirements.txt
python -m spacy download en_core_web_sm

？非ラテン語ベースの言語の場合TTSサポート（オプション）

Mecabを（ラテン語以外の言語TTSサポート）（オプション）にインストールします。

ubuntu： sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

（非ラテン語ベースの言語の場合、TTSサポート）（オプション）
python -m unidic download

pip install mecab mecab-python3 unidic

？スチームデッキ）（x86_64アーチラックス）

SteamデッキにVoxnovelをインストールするには、端末を開き、次の単一コマンドを実行します。

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )

これで、このスクリプトの最後にVoxnovelのデスクトップショートカットが必要です！

？ Intel Mac

Intel Macにインストール：

Intel Voxnovel Installerをダウンロードします

または、端末で次のコマンドを実行します。

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )

完了したら、Voxnovel用のデスクトップショートカットが必要です。

？ Intel Macでのアンインストール：

アンインストールするには、端末で次のコマンドを実行します。

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

（使用しないでください）Intel Macマニュアルインストール

この順序で実行します：

brew install calibre
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1 pip install -r MAC-requirements.txt
pip install spacy 11。Python python -m spacy download en_core_web_sm

？非ラテン語ベースの言語の場合TTSサポート（オプション）

Mecabを（ラテン語以外の言語TTSサポート）（オプション）にインストールします。

macOS： brew install mecab 、 brew install mecab-ipadic

（非ラテン語ベースの言語の場合、TTSサポート）（オプション）
python -m unidic download

pip install mecab mecab-python3 unidic

？ Apple Silicon Mac（2020 M1 Pro 8GB RAMでテスト）

Apple Silicon Macにインストール：

Apple Silicon Voxnovel Installerをダウンロードしてください

または、端末で次のコマンドを実行します。

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )

完了したら、Voxnovel用のデスクトップショートカットが必要です。

？ Apple Silicon Macでのアンインストール：

アンインストールするには、端末で次のコマンドを実行します。

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

（Depricatedは使用しない）Apple Silicon Manual-Install

この順序で実行します：

brew install calibre （これが機能しない場合は、サイトから手動でインストールする必要がある場合があります）
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install tensorflow-macos （オプションのpip install tensorflow-metalもありますが、これまでのところGPUスピードアップをまだ取得していません
pip install styletts2
pip install tts==0.21.3
pip install --no-dependencies booknlp==1.0.7.1
pip install transformers==4.30.0
pip install tensorflow
pip install -r MAC-requirements.txt
pip install ebooklib bs4 epub2txt pygame moviepy spacy
python -m spacy download en_core_web_sm

？非ラテン語ベースの言語の場合TTSサポート（オプション）

Mecabを（ラテン語以外の言語TTSサポート）（オプション）にインストールします。

macos： brew install mecab 、 brew install mecab-ipadic （非ラテン語ベースの言語TTSサポートの場合）（オプション）
python -m unidic download

pip install mecab mecab-python3 unidic

？ Windows 11

BookNLP Windowsの問題のため、これらはすべてWSLで実行されます（心配しないでください、それでも簡単です）。

？ここでインストールビデオをご覧ください

PowerShellで、貼り付け：
```
wsl --install
```
WSLをインストールします。（WindowsでWSLを実行する必要があるため、利用可能な場合、BIOSの仮想化を有効にするようシステムから求められる場合があります。）
ユーザー名とパスワードを設定した後、WSLを開いて、このコマンドを単一のコマンドインストールに貼り付けます。
```
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
```
（NVIDAグラフィックスカードのみオプションNVIDIAグラフィックカードをお持ちでない場合、このコマンドを実行しません）
```
sudo apt install nvidia-cuda-toolkit
```
Voxnovel Conda環境にいることを確認してください：（conda：command not 'command' Ie -Condaがコマンドと見なされていない場合、現在のPowerShellウィンドウから閉じて、[WSL -D Ubuntu]でWSL envを再起動してみてください。
```
conda activate VoxNovel
```
Voxnovelフォルダーに移動します（まだ存在していない場合）：
```
 cd ~ && cd VoxNovel
```
以下に示す2つのプログラムのいずれかを実行するだけです

プログラムを実行します

python gui_run.py

またはヘッドレスを実行します

python headless_voxnovel.py

WindowsからWSL ubuntuファイルにアクセスします

アドレスバーに次のパスを入力することにより、WSSL Ubuntuファイルに直接Windowsファイルエクスプローラーにアクセスできます。

 \wsl.localhostUbuntuhome

出力オーディオブックファイルは、WSL envのVoxNoveloutput_audiobooksの下に配置されます

Voxnovel Windowsデスクトップショートカットを作成します

PowerShellでこのコマンドを実行します

Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content

？§アンインストール：

すべてを削除するには、PowerShellで次のコマンドを実行します。

wsl --unregister Ubuntu

これにより、アプリケーションが保存されているUbuntu環境が完全に削除されます。？

WSLのトラブルシューティング

WSL環境に問題がある場合：

すべてのWSL環境をリストします：
```
wsl --list --verbose
```
特定のWSL環境（例えば、ubuntu）を削除します。
```
wsl --unregister < distro_name >
```
WSLを再インストールする：
```
wsl --install
```

このプログラムを実行する必要があるいつでもWSLを起動するには、Windowsの検索バーを使用して「WSL」を見つけて起動するか、実行できます。

wsl

？非ラテン語ベースの言語の場合TTSサポート（オプション）

Mecabを（ラテン語以外の言語TTSサポート）（オプション）にインストールします。

sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

（非ラテン語ベースの言語の場合、TTSサポート）（オプション）
python -m unidic download

pip install mecab mecab-python3 unidic

プログラムを実行します

python gui_run.py

またはヘッドレスを実行します

python headless_voxnovel.py

低VRAM（4 GB）で走る

変更

デバイスを設定すると、完全なプログラムのためにそのようなままになります。
そこで、プログラムを1つのCPUと1つのGPUの2つのPythonプログラムに分けました。これを（4GB VRAM GPU）テストしましたが、このソリューションは機能します。少なくとも私の側では、それがあなたの側で機能することを本当に願っています。

修正を実行するために、私はテーラーを作成しましたVRAM GPUの低い状況のために作られました：

システムで提供されたスクリプトを実行するには、次の手順に従います。

ブック処理（CPUのみ）：
- スクリプト：1cpu_book_processing.py
- このスクリプトは、booknlpを使用して本のみを処理するタスクを処理し、特にCPUで実行することを強制します。
- python 1CPU_Book_processing.pyで実行します
オーディオ生成（GPUのみ）：
- スクリプト：2gpu_audio_generation.py
- このスクリプトは、GPUでのみオーディオを生成することに専用であり、 1CPU_Book_processing.pyで本処理を完了した後に実行する必要があります。
- python 2GPU_Audio_generation.pyで実行します

パフォーマンスの結果

上記のセットアップを使用してEPUBファイルを使用してミニテストを実行すると、次のパフォーマンスメトリックが観察されました。

パフォーマンスの結果

example_working_files.zipにあるmini epubファイルでのテスト

タスク	構成	時間（秒）
本の処理	GPUのみ（GeForce GTX 980）、4GB VRAM、32GB RAM、Intel I7-8700K	2.922
オーディオ生成	GPUのみ（GeForce GTX 980）、4GB VRAM、32GB RAM、Intel I7-8700K	128.48
本の処理	CPUのみ、32GB RAM、Intel I7-8700K	4.964
オーディオ生成	CPUのみ、32GB RAM、Intel I7-8700K	391.4227

自動プログラムを実行します

これは、本を選択するだけで、すべての声が自動割り当てられ、生成されることを意味します。

python auto_noGui_run.py

生成されたオーディオブックファイルにアクセスします

場所のVoxnovelフォルダーで生成されたオーディオブックファイルにアクセスできます

 VoxNovel/output_audiobooks

サポートされている電子ブックファイルタイプ：

.epub、.pdf、.mobi、.txt、.html、.rtf、.chm、.lit、.pdb、.fb2、.odt、.cbr、.cbz、.prc、.lrf、.pml、.snb、.cbc、.rb、and .tcr、.tcr、

（最良の結果は、Auto Chapterの検出にEpubまたはMobiを使用することによるものです）

フォルダー

プログラムで使用されるフォルダー

/final_combined_output_audio：これは、すべての章のオーディオファイルが章の順に配置される場所です。

/output_audiobooks：これは、すべてのM4Bオーディオブックファイルが保存される場所です

/working_files：アクティブに実行中にプログラムで使用されるすべての作業ファイルを保持します。

/working_files/temp_ebook：電子書籍から個別の抽出された章TXTファイルをすべて保持します。

/カメ：すべてのサンプル音声ファイルを保持します

GUI関数

GUIパート1（booknlpプロセッサ）

- 「ファイルのプロセス」ボタン：クリックすると、電子書籍ファイルを選択するように依頼します。

GUIパート2（Coqui TTS GUI）

TTSモデルのドロップダウンを選択します。これにより、音声クローニングに使用されるTTSモデルが選択されます。
高速音声モデルを含めるチェックボックス：（オーディオ品質のコストで高速生成）これをクリックして、Coqui TTSでサポートされている他のすべてのモデルと特異な声を見ることができます。
- 音声クローニングモデルの「Select TTSモデル」ドロップダウンを更新して、（追加する値のリスト）。
- 各文字を選択するボイスのドロップダウンを更新して、（追加する値のリスト）。
ナレーター音声チェックボックスを使用してすべてのオーディオを生成します。これにより、「オーディオの生成」ボタンをクリックすると、ナレーター用に選択した音声ですべてのキャラクターのオーディオが生成されます。
新しい音声ボタンのクローン：これをクリックして、クローンできる新しい音声を追加します（参照オーディオファイルが手元にあることを確認してください）。
Voice Actorボタンに微調整されたXTTSモデルを追加する：特定の音声の微調整されたXTTSモデルのすべてのパラメーターを含むフォルダーがある場合、これをクリックして、その微調整されたXTTSモデルでその音声俳優のクローンを作成し、より良い音声クローン結果を提供することができます。
キャラクターボイスのドロップダウン：これらは、音声アクター（XTTSを使用している場合の各キャラクターのアクセント）を選択するためのドロップダウンです。
- （1）：このキャラクターから選択できる音声俳優。（デフォルト値は、キャラクターの性別に基づいて選択されたオーディオです： "f、m、other"）。
  - 音声を選択すると、その音声のオーディオサンプルを再生します。高速の音声モデル音声とレックオーディオが存在しない場合は、再生するために生成されます。
- （2）：このキャラクターから選択できるアクセント。（オプション、デフォルトは英語です）。
章デリミッターフィールド：デフォルトの章のデリミター（章を識別するために使用される文字列）が変更されます。
ミリ秒単位（MS）フィールドでの沈黙期間：これにより、オーディオの各組み合わせチャンクの間にミリ秒の量が変更されます。
TTS言語のドロップダウンを選択します。これにより、アクセントが手動で選択されていないすべての文字に使用されるデフォルトのアクセントを選択できます。
積み込みバー：ほぼの時間が残っています。（推定、5分間実行されるまで正確な予測が表示されないでしょう）。
注釈付きの本プレビューブロック：これにより、各キャラクターのラインが色分けされた本全体が表示されます。
- オーディオブックが生成されている間に行をクリックして、その生成されたラインがどのように聞こえるかを聞くことができます。ただし、ラインがすでにオーディオを生成している場合のみ。そうでない場合は、何もプレイしません。
[ブック]ボタンの読み込み：クリックすると、色分けされた注釈付きの本ビューがリロードされます。各文字の行の選択した色をランダム化するだけです。
オーディオボタンの生成：完全なオーディオブックの生成を開始します。
[ランダムな音声]ボタンを選択します（「FAST Voiceモデルを含む」チェックボックスがチェックされている場合にのみ表示されます）：ナレーターの音声を除くすべてのキャラクターに対して自動性別に関与した高速モデル音声を選択します。

GUIパート3（ブックビューア）

- 遊び場をもっと説明するのは難しいです。それを台無しにして、それがどのように機能するかを理解する必要があります。ただし、オーディオブックを微調整するために使用できます。

？特徴

着信計画機能

含まれているすべての声とモデルが既に彼らの施設自身のデモの声を持っているようにそれを作ってください
クローンされた声のデモオーディオがリファレンスオーディオではなく、それらの声が生成されるように聞こえるようにしてください
ささやき声を使用して、生成されたオーディオから幻覚を切断する
本が場所やサウンドエフェクトを説明しているときに、音効果を生成するためにローカルモデルを組み込む
[ファイル]機能を保存します

特別な感謝：

- @sidharthrajaram（彼が作成した彼のstyletts2 pipインストールのために、私は彼なしではstyletts2を追加できませんでした。:)）（https://github.com/sidharthrajaram/styletts2）

拡大する

追加情報

バージョン vel: 1.5
タイプその他のソースコード
更新時間 2025-03-08
サイズ 70.96MB
から Github