OSM one shot multispeaker Unduh - OSM one shot multispeaker Source Code Download

OSM one shot multispeaker

Kode Sumber AI

1.0.0

Unduh

OSM: One-shot multi-speaker

Pernyataan masalah

Sistem Multi-Speaker Text-to-Speech (OS MS TTS) bertujuan untuk mengubah teks menjadi ucapan dengan suara yang ditentukan oleh sampel tunggal kecil. Masalah utama di sini adalah mereproduksi suara baru yang tak terlihat tanpa melatih kembali jaringan. Ada pendekatan dengan tiga tahap utama yang digunakan untuk menyelesaikan masalah ini. Unik untuk setiap embeddings speaker suara, yang mengungkapkan karakteristik suara, dihasilkan pada tahap pertama ( speaker encoder ). Pada tahap kedua ( synthesizer ) teks ditransformasikan menjadi mel-spectrogram menggunakan embeddings yang diperoleh sebelumnya. Akhirnya, pidato direproduksi dari Mel-Spectrogram dengan vocoder . Tetapi ada kurangnya implementasi dengan ketiga bagian ini digabungkan dengan benar. Jadi tujuan dari proyek kami adalah untuk membuat kerangka kerja yang fleksibel untuk menggabungkan bagian -bagian ini dan menyediakan modul dan metode yang dapat diganti di setiap bagian.

Tantangan utama

Sekarang kita melihat tantangan utama berikut:

Solusi untuk masalah kita terdiri dari tiga subtugas, yang sudah memiliki solusi yang bagus. Oleh karena itu, solusi yang ada untuk OS MS TTS pada dasarnya adalah kompilasi solusi untuk masalah individu ini, yang ada banyak solusi siap pakai dan diimplementasikan dengan baik. Tantangan utama adalah membuat kerangka kerja fleksibel dan memastikan kompatibilitas bagian -bagian individu.
Metode yang digunakan dalam setiap subtask berbeda dalam set parameter dan sifat algoritma. Oleh karena itu, akan sangat sulit untuk memberikan API tunggal.

Solusi dasar

Kami memilih solusi yang diusulkan oleh instruktur sebagai garis dasar, yang dapat ditemukan di sini. Ini adalah implementasi [1] yang dibuat di Google pada tahun 2018. Di sini penulis menggunakan encoder pembicara, disajikan dalam [2], yang menghasilkan vektor embedding dimensi tetap yang dikenal sebagai D-vektor. Sedangkan untuk synthesizer mereka menggunakan model berdasarkan Tacotron 2 [3] sementara berbasis Wavenet Auto-Regressive digunakan sebagai vocoder [4]. Gambar berikut yang diambil dari [1] mewakili ikhtisar model:

Pro dan kontra

Kloning voice-time-real-time berisi realisasi Encoder, Tacotron 2 dan Wavernn. Seluruh pipa yang dijelaskan dalam [1], termasuk langkah -langkah preprocessing, juga diimplementasikan dalam repositori ini. Namun, proyek ini tidak cukup fleksibel. Lebih khusus lagi, dalam kondisi saat ini tidak dapat digunakan sebagai kerangka kerja untuk sistem teks-ke-speech multi-speake satu-shot karena tidak ada mekanisme yang nyaman untuk memanipulasi dengan tiga modul utama. Misalnya, sistem TTS multi-speaker yang diusulkan di [5] tidak dapat dengan mudah diimplementasikan dengan bantuan kloning voice-time-real-time karena tidak ada titik ekstensibilitas yang memungkinkan untuk menyesuaikan pipa untuk metode baru.

Perbaikan kami

Rencana kami adalah menggunakan kloning voice-time-real-time sebagai titik awal dengan baseline yang diimplementasikan. Kami akan memperkenalkan desain modular yang fleksibel dari kerangka kerja. Pendekatan semacam itu akan membantu kami membuat API yang nyaman untuk pengguna eksternal yang akan dapat menggunakan kerangka kerja kami untuk memasukkan sistem TTS multi-speaker dalam produk mereka. API juga akan membiarkan pengguna menyesuaikan modul dan langkah pipa tanpa mengubah kode sumber kerangka kerja jika diperlukan. Kami akan mengimplementasikan beberapa Encoder Pembicara (LDE, TDNN) dan menambahkannya ke kerangka kerja kami juga.

Tinjauan Struktur Proyek

Dari titik tertinggi, proyek kami terdiri dari 3 elemen utama: pembicara encoder, synthesizer, vocoder. Untuk masing -masing dari mereka, seorang manajer diimplementasikan yang memungkinkan seseorang untuk mengakses parameter dan melakukan tindakan standar seperti inferensi dan pelatihan. Di atas mereka, kami menerapkan OS MS TTS Manager, yang menyatukan ketiga bagian dan memungkinkan satu untuk membuat semua pipa dan menghasilkan pidato dengan suara yang dibutuhkan. Masing-masing bagian ini juga terdiri dari sub-bagian dasar yang khas untuk elemen yang sesuai. Mereka dapat digambarkan sebagai berikut:

Encoder Speaker : Di sini kelas dasarnya adalah SpeakerencoderManager, yang memungkinkan untuk melatih dan inferensi model. Juga, kami telah menerapkan antarmuka preprocessing audio WAV. Jadi, seseorang dapat menyesuaikan fungsi preprocessing audio mereka sendiri, yang dapat berbeda bahkan untuk dataset yang sama. Juga, model khusus dapat digunakan. Kami menambahkan fungsi dan model preprocessing standar yang disajikan dalam kloning voice-time-real-time
Synthesizer : Di sini kelas dasarnya adalah SynthesizerManager, yang memungkinkan untuk melatih dan membuat model. Juga, situasi yang sama dengan fungsi preprocessing, dengan satu perbedaan. Selain audio, orang juga perlu memproses teks. Untuk saat ini, kami menerapkan fungsi preprocessing teks dan audio, karena operasi ini diperlukan selama inferensi dan pelatihan. Baseline ini dari kloning voice-time-real-time
VOCODER : Di sini kelas dasarnya adalah VocoderManager, yang memungkinkan untuk melatih, inferensi model Vocoder dan untuk mengatur semua negara yang dibutuhkan. Baseline ini dari kloning voice-time-real-time

Hasil evaluasi

Di repositori kami, kami menambahkan notebook, di mana orang dapat mengunggah audio suara, file .txt dan menghasilkan pidato dengan suara yang dikloning. Meskipun bobot model pretrain diunduh secara otomatis saat menjalankan pertama, pengguna masih dapat mengunduh arsip di sini instruksi lain ada di buku catatan di sini

Peran para peserta

Nikolay akan merancang arsitektur modular, API untuk penggunaan eksternal dan pipa pelatihan. GLEB akan menerapkan tumpukan model yang berfungsi, dokumentasi tulis dan contoh penggunaan.

Struktur proyek

 .
└── osms
    ├── __init__.py
    ├── common
    │   ├── __init__.py
    │   ├── configs
    │   │   ├── __init__.py
    │   │   ├── config.py
    │   │   └── main_config.yaml
    │   └── multispeaker.py
    ├── main.py
    ├── tts_modules
    │   ├── __init__.py
    │   ├── encoder
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── AudioConfig.yaml
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   └── dVecModelConfig.yaml
    │   │   ├── data
    │   │   │   ├── DataObjects.py
    │   │   │   ├── __init__.py
    │   │   │   ├── dataset.py
    │   │   │   ├── wav2mel.py
    │   │   │   └── wav_preprocessing.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── dVecModel.py
    │   │   ├── speaker_encoder_manager.py
    │   │   └── utils
    │   │       ├── Trainer.py
    │   │       └── __init__.py
    │   ├── synthesizer
    │   │   ├── LICENSE.md
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   ├── hparams.py
    │   │   │   └── tacotron_config.yaml
    │   │   ├── data
    │   │   │   ├── __init__.py
    │   │   │   ├── audio.py
    │   │   │   ├── dataset.py
    │   │   │   └── preprocess.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── tacotron.py
    │   │   ├── synthesize.py
    │   │   ├── synthesizer_manager.py
    │   │   ├── trainer.py
    │   │   └── utils
    │   │       ├── __init__.py
    │   │       ├── cleaners.py
    │   │       ├── logmmse.py
    │   │       ├── numbers.py
    │   │       ├── plot.py
    │   │       ├── symbols.py
    │   │       └── text.py
    │   ├── tts_module_manager.py
    │   └── vocoder
    │       ├── __init__.py
    │       ├── configs
    │       │   ├── __init__.py
    │       │   ├── config.py
    │       │   ├── hparams.py
    │       │   └── wavernn_config.yaml
    │       ├── data
    │       │   ├── __init__.py
    │       │   ├── dataset.py
    │       │   └── preprocess.py
    │       ├── models
    │       │   ├── __init__.py
    │       │   └── wavernn.py
    │       ├── utils
    │       │   ├── Trainer.py
    │       │   ├── __init__.py
    │       │   ├── audio.py
    │       │   ├── distribution.py
    │       │   └── gen_wavernn.py
    │       └── vocoder_manager.py
    └── utils
        └── __init__.py

Instalasi

Jalankan pip3 install . dari direktori root.

Kumpulan data

Kami telah menerapkan pemrosesan lengkap untuk dataset LibRaspeech untuk Encoder Speaker, Synthesizer dan Vocoder. Seseorang dapat mengunduh dataset LibRaspeech melalui tautan ini. Juga, untuk Encoder Speaker kami menerapkan antarmuka untuk menggunakan dataset khusus. Orang perlu menerapkan fungsi antarmuka PreprocessDataset , fungsi antarmuka WavPreprocessor , fungsi antarmuka WavPreprocessor , atau menggunakan yang diimplementasikan.

Konfigurasi

Untuk model baseline, konfigurasi default akan dimuat secara otomatis. Untuk mengubahnya, seseorang dapat menggunakan update_config(...) di osms/common/configs/config.py . Untuk memuat konfigurasi default, seseorang dapat menggunakan get_default_<module_name>_config(...) . Juga, seseorang dapat mengimplementasikan konfigurasi sendiri untuk menggunakannya untuk model lain.

Manajer

Untuk bekerja dengan masing -masing tiga modul, kami mengimplementasikan manajernya sendiri: SpeakerEncoderManager , SynthesizerManager , VocoderManager . Sebagai manajer utama kami menerapkan MustiSpreakerManager yang memberikan akses ke ketiga manajer. Seseorang dapat menggunakannya untuk menyimpulkan seluruh model TTS dan melatih setiap modul secara terpisah atau bersama -sama. Contoh penggunaan dapat ditemukan di notebook.

Pos pemeriksaan

Pos pemeriksaan dasar diunduh secara otomatis di direktori checkpoints dengan pembuatan objek 'multispeaker'. Juga, seseorang dapat menggunakan pos pemeriksaan lain dengan memperbarui konfigurasi sederhana (ubah ... checkpoint_dir_path, checkpoint_name).

Referensi

Ye Jia, Y. Zhang, Ron J. Weiss, Q. Wang, Jonathan Shen, Fei Ren, Z. Chen, hlm. Nguyen, R. Pang, I. Lopez-Moreno, dan Y. Wu. Transfer pembelajaran dari verifikasi speaker ke sintesis teks-ke-ucapan multispeaker,
Li Wan, Quan Wang, Alan Papir, dan Ignacio Lopez Moreno. Kerugian ujung ke ujung umum untuk verifikasi pembicara,
Jonathan Shen, R. Pang, Ron J. Weiss, M. Schuster, Navdeep Jaitly, z. Yang, Z. Chen, Yu Zhang, Yuxuan Wang, R. Skerry-Ryan, R. Saurous, Yannis Agiomyrgiannakis, dan Y. Wu. Sintesis TTS alami dengan mengondisikan Wavenet pada prediksi spektrogram MEL,
Aaron Van Den Oord, S. Dieleman, H. Zen, K. Simonyan, Oriol Vinyals, a. Graves, Nal Kalchbrenner, A. Senior, dan K. Kavukcuoglu. Wavenet: Model ageneratif untuk audio mentah,
Erica Cooper, Cheng-i Lai, Yusuke Yasuda, Fuming Fang, Xin Wang, Nanxin Chen, dan Junichi Yamagishi. Zero-shot multi-speaker text-to-speech dengan embeddings speaker saraf canggih.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-22
ukuran 31.75MB
Berasal dari Github

Aplikasi Terkait

Permainan Tembakan Zona Mati

2024-02-07
Satu Waifu Sejati

2023-10-24
Pahlawan Tembakan Mati

2022-08-31
Pembakaran Tembakan Panas

2022-08-18
Ditembak dalam Gelap

2022-08-08
Exo Satu

2022-08-04

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua