voice_cloning_tools下載voice_cloning

voice_cloning_tools

Ai源碼

1.0.0

下載

語音克隆工具

1。 TTS語音克隆文檔

描述

該腳本使用TTS（文本到語音）庫具有兩個不同的模型：XTTS v2.0.2和Tortoise。該腳本還包括一個用於將MP3文件轉換為分段WAV文件的實用程序功能。

先決條件

在運行腳本之前，請確保使用以下命令安裝TTS庫：

 pip install TTS==0.22.0 transformers==4.37.2 torch torchaudio soundfile librosa

執行

 python tortoise_TTS_local_best.py

任務

XTTS v2.0.2合成：
- 利用coqui tts庫中的XTTS v2.0.2模型。
- 用指定的輸入文本執行文本到語音綜合。
- 將合成的音頻保存到WAV文件中，無論是在句子拆分的情況下。
mp3轉換
- 在不使用PYDUB庫的情況下將輸入MP3文件轉換為分段的WAV文件。
- 將音頻分為10秒的間隔，並將其保存為單個WAV文件（烏龜需要）。
烏龜模型綜合描述：
- 利用Coqui TTS庫中的烏龜模型進行高質量合成。
- 加載預先訓練的烏龜模型，並根據輸入文本合成語音。
- 將合成的音頻保存為WAV文件。

附加信息

XTTS v2.0.2的速度和合理質量建議。烏龜提供了最佳質量，但推理時間更長。

筆記

確保安裝依賴關係並相應地調整文件路徑。
評論中的URL提供了有關模型和配置的更多信息。
請根據特定要求隨意修改腳本，並確保對成功執行的檔案路徑和依賴項進行必要的調整。

2。 TTS模型分析儀文檔

描述

該腳本分析了TTS庫中可用的文本到語音（TTS）模型，特別關注其語言支持和Vocoder功能。它基於以下方式對模型進行分類：

多語言與僅英文：模型是支持多種語言還是僅支持英語。
自定義與默認的英語vocoder ：該模型是具有自定義的英語Vocoder，它允許語音克隆還是不允許的默認Vocoder。

該腳本還會跟踪具有錯誤的模型數量以及由於特定原因（例如，已知引起錯誤的模型）而忽略的腳本數量。

代碼分解

先決條件

在運行腳本之前，請確保使用以下命令安裝TTS庫：

 pip install TTS==0.13.3

執行

 python TTS_download_and_test_all_models.py

輸出

該腳本通過英語Vocoder生成有關多語言模型的信息，具有自定義聲音的英語模型，帶有默認英語Vocoders的多語言模型以及帶有默認英語Vocoders的英語模型。此外，它標識了支持非英語語言的模型，具有錯誤的模型以及應忽略的模型。

腳本說明

該腳本執行以下任務：

導入必要的庫（TTS，Time，OS）。
設置一個計時器來測量腳本執行時間。
定義用於語音合成的示例文本。
初始化各種模型類別的計數器和列表。
通過所有可用的TTS型號迭代。
下載並加載每個模型以執行不同的文本到語音任務，並根據語言支持和Vocoder類型對其進行分類。
打印結果，包括每個類別中模型的計數和名稱，以及過程中遇到的任何錯誤。
顯示已檢查的模型總數和腳本執行時間。
執行斷言檢查以確保正確計數模型。
提供了一個使用TTS與多演講者和多語言模型進行文本到語音的示例。

筆記

由於錯誤或其他原因（在代碼中指定）可能會忽略某些模型。該腳本還包括使用特定模型在Colab中希臘文本到語音的示例。

附加信息

TTS庫：https：//github.com/mozilla/tts
TTS文檔：https：//tts.readthedocs.io/

請隨意根據需要修改特定用例的腳本或將其集成到項目中以進行TTS模型分析。

3.語音克隆使用官方的烏龜存儲庫

概述

該腳本演示了烏龜TTS（文本到語音）系統的用法來生成輸入文本的語音。腳本使用烏龜TTS庫，並提供安裝說明。生成的語音被保存為WAV文件。

安裝

git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install -r requirements.txt
pip install librosa einops rotary_embedding_torch omegaconf pydub inflect
python setup.py install

用法

用所需的揚聲器的語音樣本替換語音變量中的路徑。
可選，修改文本變量以指定所需的輸入文本。
使用python tortoise_API.py運行腳本以執行烏龜TTS，並將生成的語音保存為WAV文件。

任務描述

導入必要的庫：
- 進口需要圖書館，包括Torchaudio，Tortoise.api，Tortoise.utils和OS。
初始化烏龜TT：
- 使用Tortoise.api.textTospeech初始化烏龜TT。
- 可選地，啟用DeepSpeed以進行更快的性能（在實踐中可能會慢得多）。
指定輸入文本：
- 設置要轉換為語音的輸入文本。
選擇預設和聲音：
- 選擇用於確定輸出質量的預設模式（“ ultra_fast”，“ fast”，“ standard”或“ high_quality”）。
- 通過提供揚聲器聲音樣本的路徑來選擇特定的聲音。
負載參考夾：
- 從所選的語音路徑加載參考音頻剪輯。
用烏龜進行TT：
- 利用烏龜TTs從輸入文本中產生語音。
- 以WAV格式保存生成的語音。

附加信息

腳本下載需要來自擁抱面（HF）模型中心的模型。
根據您的喜好調整參數，例如預設和語音。
在指定目錄中將生成的音頻保存為“生成的_hq_faceswap.wav”。

4。 opusto MP3轉換（用於從WhatsApp錄音中克隆）

概述

該腳本促進了Opus Audio Files到MP3格式的轉換。它包括讀取opus文件，將其轉換為mp3，然後將多個MP3文件組合到單個文件中的功能。該腳本通過允許用戶指定輸入和輸出文件夾來提供靈活性。

參數

opus_folder:包含Opus文件的文件夾的路徑。

mp3_output_folder:保存單個mp3文件的路徑。

combined_output_folder:保存組合MP3文件的路徑。

如果不存在，則腳本會創建輸出文件夾。

先決條件

依賴性：
- os
- soundfile
- numpy

任務

閱讀opus文件：
- 使用聲音庫讀取Opus文件。
- 返回一個數陣列和採樣率。
將Opus轉換為MP3
- 利用read_opus函數讀取opus文件。
- 使用相同的採樣率將Opus轉換為MP3。
- 將MP3文件保存到指定的輸出文件夾。
轉換opus文件
- 通過文件夾中的opus文件迭代，然後將每個文件轉換為mp3。
- 返回保存的mp3文件名列表。
結合MP3文件
- 將單個MP3文件組合到一個文件中。
- 將組合的MP3文件保存到指定的輸出文件夾。

5。樹皮Google Colab（不是很好）

概述

這本jupyter筆記本展示了使用樹皮語音克隆系統克隆語音的過程。它涉及安裝Google驅動器以訪問音頻樣本以進行克隆，安裝必要的庫，加載模型，生成語義令牌，最後使用這些令牌進行語音克隆。

任務

安裝Google Drive：
- 安裝Google驅動器以訪問包含語音樣本的文件夾以克隆。
設置參數：
- 定義參數，例如音頻文件的路徑，語音名稱以及保存克隆語音提示的輸出路徑。
安裝和導入庫：
- 安裝和導入所需的庫，Pytorch，Numpy等。
用語音克隆安裝樹皮：
- 從提供的GitHub存儲庫中使用語音克隆庫安裝樹皮。
負載模型並初始化休伯特：
- 加載必要的模型，並初始化Hubert Manager的語義令牌提取。
負載和過程音頻：
- 加載音頻文件並將其轉換為進一步處理。
- 使用Hubert模型提取語義向量和令牌。
編碼並保存提示：
- 使用Encodec編碼音頻幀。
- 將細，粗糙和語義提示保存為numpy陣列。
使用樹皮生成音頻：
- 預付文本，粗糙，精細生成和編解碼器的樹皮模型。
- 使用文本提示，語義提示和歷史提示來生成音頻。
播放並保存生成的音頻：
- 使用Ipython的音頻播放生成的音頻。
- 可選地，將生成的音頻保存為WAV文件。
總運行時間：
- 顯示執行腳本所花費的總時間。

腳本用法

確保安裝Google驅動器，並訪問所需的語音樣本文件夾。
根據您的設置，修改參數，例如audio_filepath ， voice_name和output_path 。
運行腳本以克隆語音，生成音頻並選擇保存輸出。

附加信息

該腳本從提供的GitHub存儲庫中安裝並使用帶有語音克隆庫的樹皮。
根據需要調整語音克隆項目的路徑，參數和提示。
生成的音頻可以直接播放或作為WAV文件保存。
確保安裝必要的依賴項並正確配置。

6。 coqui tts調用API（不再存在 - 無法使用）

概述

該腳本展示了使用Coqui TTS API克隆語音的過程。它涉及導入必要的庫，進行API調用，從音頻文件中克隆語音，並使用克隆語音生成文本到語音。

任務

導入庫：
- 導入所需的庫，包括撥打API調用的requests 。
設置參數：
- 設置參數，例如輸入音頻文件的路徑，保存新音頻文件的路徑以及要讀取的文本。
致電Coqui TTS API進行語音克隆：
- 調用Coqui TTS API從提供的音頻文件中克隆語音。
- 提取克隆語音的語音ID，以進行隨後的文本到語音。
致電Coqui TTS API進行文本到語音：
- 使用克隆的語音調用Coqui TTS API將指定的文本轉換為語音。
- 檢索產生的演講的音頻URL。
下載並保存音頻：
- 從提供的URL下載生成的音頻文件。
- 將音頻文件保存到指定的路徑。