OSM one shot multispeaker下載OSM one shot multispeaker源代碼下載

OSM one shot multispeaker

Ai源碼

1.0.0

下載

OSM：單發多演講者

問題陳述

單發多揚聲器文本到語音（OS MS TTS）系統的目的是將文本轉換為用小樣本確定的語音的語音。這裡的主要問題是在不重述網絡的情況下重現新的看不見的聲音。有三個主要階段的方法用於解決此問題。在第一階段生成的每個語音揚聲器嵌入的獨特嵌入（示出語音特徵）（揚聲器編碼器）。在第二階段（合成器），使用先前獲得的嵌入將文本轉化為MEL-SECTROGRAM。最後，語音是從Mel-Spectrograpon與Vocoder複製的。但是，正確組合這三個部分缺乏實現。因此，我們項目的目標是創建一個靈活的框架，以組合這些零件並在每個部分中提供可更換的模塊和方法。

主要挑戰

到目前為止，我們看到以下主要挑戰：

解決我們問題的解決方案由三個子任務組成，這些子任務已經具有很棒的解決方案。因此，OS MS TT的現有解決方案本質上是針對這些個人問題的解決方案的彙編，為此，有許多現成且實用的解決方案。主要的挑戰是使框架靈活並確保各個零件的兼容性。
每個子任務中使用的方法在一組參數和算法的性質上有所不同。因此，提供單個API將很難。

基線解決方案

我們選擇講師提出的解決方案作為基線，可以在此處找到。這是2018年在Google中製造的[1]的實現。在這裡，作者使用[2]中介紹的揚聲器編碼器，該編碼器生成了固定維嵌入向量，稱為d-vector。至於合成器，他們使用基於Tacotron 2 [3]的模型，而基於自動回歸的WaveNet的模型則用作Vocoder [4]。從[1]拍攝的以下圖像表示模型概述：

利弊

實時聲音鍵合包含編碼器，Tacotron 2和Wavernn的實現。 [1]中描述的整個管道，包括預處理步驟，在此存儲庫中也實現。但是，該項目還不夠靈活。更具體地說，在當前狀態下，它不能用作單發多演講者文本到語音系統的框架，因為沒有方便的機制可以用三個主模塊來操縱。例如，[5]中的擬議的多揚聲器TTS系統無法在實時訪問的幫助下輕鬆實現，因為沒有可擴展的點可以調整新方法的管道。

我們的進步

我們的計劃是使用實現的基線使用實時派遣點鍵合作點。我們將介紹框架的靈活模塊化設計。這種方法將幫助我們為外部用戶創建方便的API，他們將能夠使用我們的框架將多揚聲器TTS系統納入其產品中。 API還將讓用戶自定義模塊和管道步驟，而無需在需要時更改框架的源代碼。我們將實施幾個發言人編碼器（LDE，TDNN），並將它們添加到我們的框架中。

項目結構概述

從高點來看，我們的項目包括3個主要要素：揚聲器編碼器，合成器，Vocoder。對於他們每個人，都將實施一個經理，允許人們訪問參數並執行標準操作，例如推理和培訓。在它們上方，我們實施了OS MS TTS Manager，該管理器將所有三個部分匯總在一起，並允許一個人製作所有管道並用所需的語音產生語音。這些部分中的每一個都由相應元素的典型基本子零件組成。它們可以描述如下：

揚聲器編碼器：這裡的基類是SpeakerenCoderManager，它允許訓練和推理模型。另外，我們已經實現了WAV音頻預處理接口。因此，人們可以自定義自己的音頻預處理功能，即使對於同一數據集也可能會有所不同。另外，可以使用自定義模型。我們添加了在實時聲音限制中介紹的標準預處理功能和模型
合成器：基類是綜合劑，它允許訓練和推理模型。此外，預處理功能的情況相同，有一個差異。除了音頻外，還需要處理文本。目前，我們實施了文本和音頻預處理功能，因為在推理和培訓過程中需要這些操作。基線來自實時訪問
Vocoder ：在這裡，基類是VocoderManager，它允許訓練，推理Vocoder模型並設置所需的所有狀態。基線來自實時訪問

評估結果

在我們的存儲庫中，我們添加了筆記本電腦，可以在其中上傳語音音頻，.txt文件並用克隆的語音產生語音。儘管預算模型的權重自動在第一次運行時自動下載，但用戶仍然可以下載存檔，此處的其他說明在此處的筆記本中

參與者的角色

Nikolay將設計模塊化體系結構，用於外部使用和培訓管道的API。 gleb將實施模型，編寫文檔和用法示例的工作堆棧。

項目結構

 .
└── osms
    ├── __init__.py
    ├── common
    │   ├── __init__.py
    │   ├── configs
    │   │   ├── __init__.py
    │   │   ├── config.py
    │   │   └── main_config.yaml
    │   └── multispeaker.py
    ├── main.py
    ├── tts_modules
    │   ├── __init__.py
    │   ├── encoder
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── AudioConfig.yaml
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   └── dVecModelConfig.yaml
    │   │   ├── data
    │   │   │   ├── DataObjects.py
    │   │   │   ├── __init__.py
    │   │   │   ├── dataset.py
    │   │   │   ├── wav2mel.py
    │   │   │   └── wav_preprocessing.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── dVecModel.py
    │   │   ├── speaker_encoder_manager.py
    │   │   └── utils
    │   │       ├── Trainer.py
    │   │       └── __init__.py
    │   ├── synthesizer
    │   │   ├── LICENSE.md
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   ├── hparams.py
    │   │   │   └── tacotron_config.yaml
    │   │   ├── data
    │   │   │   ├── __init__.py
    │   │   │   ├── audio.py
    │   │   │   ├── dataset.py
    │   │   │   └── preprocess.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── tacotron.py
    │   │   ├── synthesize.py
    │   │   ├── synthesizer_manager.py
    │   │   ├── trainer.py
    │   │   └── utils
    │   │       ├── __init__.py
    │   │       ├── cleaners.py
    │   │       ├── logmmse.py
    │   │       ├── numbers.py
    │   │       ├── plot.py
    │   │       ├── symbols.py
    │   │       └── text.py
    │   ├── tts_module_manager.py
    │   └── vocoder
    │       ├── __init__.py
    │       ├── configs
    │       │   ├── __init__.py
    │       │   ├── config.py
    │       │   ├── hparams.py
    │       │   └── wavernn_config.yaml
    │       ├── data
    │       │   ├── __init__.py
    │       │   ├── dataset.py
    │       │   └── preprocess.py
    │       ├── models
    │       │   ├── __init__.py
    │       │   └── wavernn.py
    │       ├── utils
    │       │   ├── Trainer.py
    │       │   ├── __init__.py
    │       │   ├── audio.py
    │       │   ├── distribution.py
    │       │   └── gen_wavernn.py
    │       └── vocoder_manager.py
    └── utils
        └── __init__.py

安裝

運行pip3 install .從根目錄。

數據集

我們已經針對揚聲器編碼器，合成器和Vocoder實施了libraspeech數據集的完整處理。可以通過此鏈接下載Libraspeech數據集。另外，對於揚聲器編碼器，我們實現了使用自定義數據集的接口。一個人需要實現PreprocessDataset界面接口函數， WavPreprocessor接口函數， WavPreprocessor接口函數或使用實現的函數。

配置

對於基線模型，默認配置將自動加載。要更改它們，可以在osms/common/configs/config.py中使用update_config(...) 。要加載默認配置，可以使用get_default_<module_name>_config(...) 。另外，人們可以實現自己的配置將其用於其他型號。

主管

要與每個三個模塊一起工作，我們實現了自己的經理： SpeakerEncoderManager ， SynthesizerManager ， VocoderManager 。作為主要經理，我們實施了MustiSpreakerManager ，該管理員可以訪問所有三位經理。可以使用它們來推斷整個TTS模型，並分別或一起訓練每個模塊。用法的示例可以在筆記本中找到。

檢查點

基線檢查點會在checkpoints目錄中自動下載，並創建“ MultiSpeaker”對象。另外，可以通過簡單更新配置（更改... checkpoint_dir_path，checkpoint_name）來使用其他檢查點。

參考

Ye Jia，Y. Zhang，Ron J. Weiss，Q. Wang，Jonathan Shen，Fei Ren，Z。 Chen，p。 Nguyen，R。 Pang，I。 Lopez-Moreno和Y. Wu。從說話者驗證轉移到多言揚聲器文本到語音綜合的學習，
Li Wan，Quan Wang，Alan Papir和Ignacio Lopez Moreno。演講者驗證的全身端到端損失，
Jonathan Shen，R。 Pang，Ron J. Weiss，M。 Schuster，Navdeep Jaitly，Z。 Yang，Z. Chen，Yu Zhang，Yuxuan Wang，R。 Skerry-ryan，R。 Saurous，Yannis Agiomyrgiannakis和Y. Wu。天然TTS合成通過調節MEL頻譜圖預測的WaveTET的合成，
Aaron van den Oord，S。 Dieleman，H。 Zen，K。 Simonyan，Oriol Vinyals，a。 Graves，Nal Kalchbrenner，A。高級和K. Kavukcuoglu。 WAVENET：原始音頻的加油模型，
埃里卡·庫珀（Erica Cooper），鄭萊（Cheng-i Lai），雅蘇達（Yusuke Yasuda），煙熏牙，Xin Wang，Nanxin Chen和Junichi Yamagishi。帶有最先進的神經揚聲器嵌入的零擊多演講者文本對語。

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-08-22
大小 31.75MB
來自於 Github

相關應用

Dead Zone Shot遊戲

2024-02-07
一個真正的外夫

2023-10-24
死射英雄

2022-08-31
熱射擊燒傷

2022-08-18
在黑暗中拍攝

2022-08-08
外星一號

2022-08-04

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部