voice builder下載 - voice builder源代碼下載

voice builder

其他源碼

1.0.0

下載

免責聲明：這不是官方的Google產品。

語音構建器

語音構建器是一種開放源文本到語音（TTS）語音構建工具，專注於簡單，靈活性和協作。我們的工具允許任何具有基本計算機技能的人進行語音訓練實驗並聆聽由此產生的合成聲音。

我們希望該工具通過使實驗更快和跨學科的協作更加容易，從而減少創造新聲音和加速TTS研究的障礙。我們認為，我們的工具可以幫助改善TTS研究，尤其是對於低資源的語言，在這些語言中，通常需要進行更多的實驗來充分利用有限的數據。

出版物-https：//ai.google/research/pubs/pub46977

安裝
- 先決條件
- 部署
- 創建示例語音
- （可選）使用自定義數據出口商
- 語音構建器規範
附加信息

安裝

先決條件

在Google Cloud平台（GCP）上創建一個項目。
如果您還沒有帳戶，請自己創建一個。
啟用帳單並要求您的項目更多配額
安裝Docker
訪問firebase.com並將項目導入到firebase平台
如果您還沒有帳戶，請自己創建一個。
通過安裝雲SDK安裝GCLOUD CMD線工具
安裝node.js
安裝Firebase CMD線工具
啟用以下所有GCP服務：
- 附錄API
- firebase雲功能
- 基因組學管道API
使用此URL一次啟用它們。
通常，啟用API和GCP將需要幾分鐘的時間將您帶到另一個頁面以設置這些憑據。請跳過並關閉頁面，因為我們不需要任何新的憑據設置。
[可選]設置自己的自定義數據出口商

部署

如果您尚未完成所有先決條件，請在以下步驟進一步之前進行。

通過以下方式克隆該項目到您當前的目錄

 git clone https://github.com/google/voice-builder.git && cd voice-builder

如果您尚未通過GCLOUD登錄您的帳戶，請登錄：
```
 gcloud auth login
```
另外，如果您尚未通過Firebase登錄您的帳戶，請登錄：
```
 firebase login --no-localhost
```
打開deploy.sh並編輯以下變量：
- project_name：您創建的GCP項目的名稱從先決條件1），例如VB檢測項目
- Project_ID：您創建的GCP項目的ID從先決條件1），例如VB-Test-Project
- GCP_Service_account_email：使用Compute Engine Service帳戶（您可以單擊左上方菜單“ IAM＆Admin> Service帳戶”下的左上菜單）。
創建用於語音構建器的GCS存儲器來存儲每個工作數據
```
 ./deploy.sh initial_setup
```
部署雲功能組件
```
 ./deploy.sh cloud_functions
```
部署UI組件
```
 ./deploy.sh ui create
```
部署後，您應該獲得一個可以從命令行的結果訪問的IP（external_ip）。您可以在瀏覽器中訪問http：// external_ip：3389來訪問語音構建器實例。

創建示例語音

在此步驟中，您應該擁有所有組件，並且可以在http：// external_ip：3389上訪問UI。 VoiceBuilder最初為您提供了兩個示例TTS引擎（節日和Merlin），以及來自語言資源回購的公共數據。

您可以通過使用我們提供的節日引擎創建新的聲音來測試一切是否正常工作：

訪問http：// external_ip：3389，通過單擊頂部上的“創建語音”選項卡，轉到創建聲明。
您將看到一種表格，您可以在其中選擇不同的TTS引擎和輸入數據。只需瀏覽一下，因為我們將使用此初始配置來構建新的語音。嘗試在底部單擊“創建語音”按鈕。一小段時間後，您應該在右上角收到“成功創建工作”的通知。
單擊“作業”選項卡。現在，您應該看到剛剛創建的新工作。通常需要30分鐘到1小時。您可以通過單擊作業ID查看工作狀態頁面來檢查作業的狀態。
一個小時後，您應該在工作狀態下看到“完成的語音模型部署”。這意味著成功構建的模型已部署到語音合成服務器。嘗試在作業狀態頁面底部的文本輸入框中放入“ Hello”，然後單擊“合成”按鈕。語音構建器應生成頻譜圖，並有一個播放按鈕供您收聽聲音！

（可選）使用自定義數據出口商

數據出口商是您可以添加到系統的另一個附加組件。通常，語音構建器可以在沒有數據出口商的情況下工作。沒有它，語音構建器只會按原樣使用輸入文件。

但是，在某些情況下，您需要在將輸入文件饋送到TTS算法之前對輸入文件進行一些轉換。例如：

您的詞典文件與所選TTS算法所接受的詞典形式不同。
您想在選擇的TTS算法中使用一些不良數據之前過濾一些不良數據。

語音構建器使您可以靈活地添加自己的數據導出器，在運行實際的TTS算法之前，您可以使用該數據出口商來操縱數據。您的自定義數據出口商將獲得包含文件位置，選擇的TTS算法，調諧參數等的語音規範。您可以使用這些信息來操縱/轉換數據。最後，您的數據出口商應將所有必要的文件放入指定的工作文件夾中，以觸發實際的TTS算法運行。

首先，您需要讓數據出口商訪問GCS存儲桶。

打開 /deploy.sh並編輯以下變量：
- data_exporter_service_account：通過為您的數據出口商創建一個新的服務帳戶來訪問GCS存儲桶來獲取它。
運行命令提供data_exporter_service_account ACL訪問GCS桶
```
 ./deploy.sh acl_for_data_exporter
```
其次，您需要在config.js中設置數據出口商的URL，以便語音構建器知道將語音規範信息發送到哪裡。
open /config.js並將data_exporter_api添加到配置中，如下所示：
```
 DATA_EXPORTER_API: {
  BASE_URL: '<DATA_EXPORTER_URL>',
  API_KEY: '<DATA_EXPORTER_API_KEY>',
}
```
如果base_url是您的數據出口商URL，而API_KEY是數據導出器的API鍵。
Redeploy語音構建器UI實例現在具有新的配置，並且知道如何發送語音規範信息。到您的數據出口商
```
 ./deploy.sh ui update
```
嘗試創建一份新工作！語音構建器現在應使用創建作業的語音規範向您的data_exporter_url發送請求。

語音構建器規範

VoiceBuildingSpecification是語音規範的JSON定義。當用戶從UI觸發語音構建請求時，語音構建器後端創建了此規範。數據出口商（通過其API傳遞給數據出口商）可以使用它來轉換文件和TTS引擎的培訓參數。

 {
  "id": int,
  "voice_name": string,
  "created_by": string,
  "job_folder": string,
  "lexicon_path": object(Path),
  "phonology_path": object(Path),
  "wavs_path": object(Path),
  "wavs_info_path": object(Path),
  "sample_rate": int,
  "tts_engine": string,
  "engine_params": [object(EngineParam)],
}

字段	描述
ID	獨特的全球工作ID。
Voice_name	用戶友好的語音名稱（例如多揚聲器語音）。
創建了_BY	創建聲音的用戶的名稱。
Job_folder	GCS工作文件夾的路徑。這是與作業相關的所有數據都是存儲的地方。
Lexicon_Path	通往詞典的路徑。
Phonology_path	通往語音的路徑。
wavs_path	通往WAV的路徑（應該是焦油文件）。
wavs_info_path	包含WAV名稱和提示的映射的文件的路徑。
sample_rate	應構建聲音的樣本率。
tts_engine	TTS引擎的類型訓練聲音。該值的值是從選定的TTS引擎引擎。
Engine_params	TTS引擎的其他參數。

Enginerparam

EngineParam包含TTS後端發動機的參數。

 {
  "key": string,
  "value": string
}

字段	描述
鑰匙	參數鍵。
價值	參數鍵的值。

小路

Path包含有關文件路徑的信息。

 {
  "path": string
  "file_type": string
}

字段	描述
小路	文件的路徑。
file_type	文件的格式。

例子

例如，如果您設置了數據出口商，則使用我們預定義的節日引擎創建語音時，語音構建器會將請求主體類似於以下的請求主體。然後，您的數據出口商必須預處理數據並將其放置在job_folder位置（在此示例中為gs://your-voice-builder-jobs/1 ）。將所有必要的文件放在文件夾中後，實際的語音構建過程將根據預期自動開始。

 {
  "id": 1,
  "voice_name": "my_voice",
  "createdBy": "[email protected]",
  “job_folder”: "gs://your-voice-builder-jobs/1";
  "engine_params": [
    {
      "key": "param_for_festival1",
      "value": "50"
    },
    {
      "key": "param_for_festival2",
      "value": "30"
    }
  ],
  "sample_rate": "22050",
  "tts_engine": "festival",
  "lexicon_path": {
    "path": "gs://voice-builder-public-data/examples/sinhala/lexicon.scm",
    "file_type": "SCM"
  },
  "phonology_path": {
    "path": "gs://voice-builder-public-data/examples/sinhala/phonology.json",
    "file_type": "JSON_EXTERNAL_PHONOLOGY"
  },
  "wavs_path": {
    "path": "gs://voice-builder-public-data/examples/sinhala/wavs.tar.gz",
    "file_type": "TAR"
  },
  "wavs_info_path": {
    "path": "gs://voice-builder-public-data/examples/sinhala/txt.done.data",
    "file_type": "LINE_INDEX"
  },
}

附加信息

JSON語音學

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-04-18
大小 259.54KB
來自於 Github

相關應用

fluent package builder

2024-11-09
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
States Builder遊戲手機版

2024-02-08
房屋建築商

2022-07-29
GOOGLE VOICE無限簡訊接口

2009-11-07

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部