Download reformer tts - Unduh Kode Sumber reformer tts

reformer tts

Kode Sumber AI

Initial release - project submission

Unduh

Reformer-tts

Adaptasi reformator: transformator yang efisien untuk tugas teks-ke-unggun.

Proyek ini berisi:

Kode Preprocessing untuk Membuat Dataset Pidato Trump Berdasarkan Transkrip dari Rev.com
Implementasi Reformer TTS: Adaptasi Reformator: Transformator yang Efisien untuk Tugas Teks-ke-Pidato, Berdasarkan Sintesis Bicara Saraf dengan Transformer Network
Implementasi Squeezewave: Vocoders yang sangat ringan untuk sintesis ucapan di perangkat di Pytorch modern, tanpa ketergantungan pada Tacotron2, Wavenet atau Waveglow
Pytorch Lightning Wrappers Untuk pelatihan mudah kedua model dengan manajemen konfigurasi yang mudah digunakan
CLI untuk menjalankan pelatihan, inferensi dan preprocessing data

Ruang lingkup proyek dan status saat ini

Kami bertujuan untuk membuat versi yang jauh lebih efisien dari model teks-ke-speech canggih, dengan mengganti arsitektur transformatornya dengan optimasi yang diusulkan dalam makalah reformer yang lebih baru. Kami akan menggunakannya untuk menghasilkan Deepfake dari Donald Trump yang dapat dipercaya berdasarkan dataset khusus pidatonya, yang dibuat khusus untuk tujuan ini.

Sayangnya, kami tidak dapat menghasilkan hasil yang sesuai dengan yang dari kertas TTS Transformer, setelah bereksperimen dengan lebih dari 100 kombinasi hiperparameter selama 2 bulan. Kami percaya bahwa ukuran model adalah faktor penting di sini, dan untuk melatih transformator untuk TTS yang benar -benar perlu mengurangi overfitting untuk memungkinkan proses pelatihan yang panjang dan stabil (~ 1 minggu pelatihan pada RTX 2080TI).

Juga, memiliki akses ke implementasi asli transformator TTS akan sangat membantu.

Sementara reformator tidak sesuai dengan harapan kami, implementasi gelombang squeezewa cocok dengan kinerja yang asli tanpa dukungan FP16.

Kami juga menyertakan CLI untuk menjalankan pelatihan dan inferensi (lihat bagian penggunaan ), dan semua data yang diperlukan untuk reproduksi percobaan (lihat bagian pengembangan ).

Proyek ini berada di bawah refotaktor yang signifikan, versi ini ditinggalkan di sini untuk memungkinkan kompatiblilitas dengan ekspektasi kami sebelumnya dan akan dipindahkan dalam waktu dekat .

Dokumen tambahan

Presentasi akhir dan slide
Jurnal Proyek
Dokter Penelitian

Menggunakan proyek

Proyek ini adalah paket python normal, dan dapat diinstal menggunakan pip , selama Anda memiliki Python 3.8 atau lebih besar .

Buka halaman rilis untuk menemukan instruksi instalasi untuk rilis terbaru.

Setelah instalasi, Anda dapat melihat perintah yang tersedia dengan menjalankan:

python -m reformer_tts.cli --help

Semua perintah dijalankan menggunakan CLI, misalnya:

python -m reformer_tts.cli train-vocoder

Sebagian besar parameter (khususnya, semua hyperparameters pelatihan) ditentukan melalui --config Argumen ke cli (yang berlaku sebelum perintah yang ingin Anda jalankan), misalnya:

python -m reformer_tts.cli -c /path/to/your/config.yml train-vocoder

Nilai default dapat ditemukan di reformer_tts.config.Config (dan bidangnya).

Pengaturan Pembangunan

1. Pasang dependensi

Menggunakan conda

Berkat komunitas Conda-Forge, kami dapat menginstal semua paket (termasuk biner yang diperlukan, seperti ffmpeg ) menggunakan satu perintah.

conda env create -f environment.yml

Menggunakan manajer paket lainnya

Periksa lingkungan Anda dan pastikan Anda memiliki Python>=3.8 :

which python
python --version

Instal Python Dependencies (juga menginstal paket kami dalam mode yang dapat diedit):

pip install -r requirements.txt

Pastikan Anda memiliki ffmpeg>=3.4,<4.0 terpasang (instruksi instalasi)
Untuk pelatihan, pastikan Anda menginstal driver CUDA dan GPU (untuk detailnya, lihat instruksi di situs web Pytorch)

2. Konfigurasikan alat

Agar DVC memiliki akses menulis ke remote, konfigurasikan akun GCP Anda (menggunakan kredensial dari file JSON yang dihasilkan):

 export GOOGLE_APPLICATION_CREDENTIALS=/path/to/your/service-account-credentials.json

Catatan: Jika Anda hanya perlu membaca akses (untuk reproduksi), Anda tidak perlu melakukan langkah 1

Dapatkan semua data - langkah ini perlu diulang:
- Setiap kali Anda mulai bekerja setelah istirahat
- Setelah setiap tarikan git
- Setelah memeriksa cabang git lain

dvc pull

3. Periksa apakah pengaturannya benar

Untuk melakukan ini, Anda dapat menjalankan tes proyek:

python -m pytest --pyargs reformer_tts

Semua tes harus bekerja pada CPU dan GPU, dan dapat memakan waktu hingga satu menit untuk diselesaikan.

Ingatlah untuk lulus --pyargs reformer_tts ke Pytest, jika tidak, ia akan mencari direktori data untuk tes

Rincian Pengaturan

Gunakan Paket Manajer apa pun yang Anda inginkan
Gunakan Python>=3.8
Semua dependensi Python akan ada dalam requirements.txt serta di environment.yml
Satu titik masuk pusat untuk menjalankan tugas: reformer_tts/cli.py , jalankan python reformer_tts/cli.py --help untuk referensi terperinci

Konfigurasi

Konfigurasi diatur dalam Struktur Dataclass:

Setiap submodule proyek memiliki file konfigurasi sendiri, yang disebut config.py , di mana parameter dan nilai default ditentukan - misalnya, parameter konfigurasi dataset ditentukan dalam reformer_tts.dataset.config
Kelas reformer_tts.config.Config berisi semua pengaturan konfigurasi submodule '
Nilai aktual parameter konfigurasi dimuat dari file konfigurasi dalam format YAML, praktik terbaik adalah hanya mengganti default dalam file YAML

Dengan cara ini, nilai default ditetapkan mendekati tempat di mana mereka digunakan, nilai konfigurasi apa pun dapat ditimpa di mana pun Anda inginkan

Untuk mengubah konfigurasi runtime

secara otomatis menghasilkan konfigurasi dengan nilai default menggunakan perintah python reformer_tts/cli.py save-config -o config/custom.yml atau salin secara manual salah satu file konfigurasi yang ada di config/ direktori
Hapus default yang tidak ingin Anda ubah dari file konfigurasi yang dihasilkan
Ubah nilai yang ingin Anda ubah dalam file konfigurasi yang dihasilkan
Tentukan konfigurasi Anda saat menjalankan skrip CLI menggunakan opsi -c , yaitu: python reformer_tts/cli.py -c config/custom.yml [COMMAND]

Untuk menambahkan konfigurasi untuk modul baru

Buat config.py di modul Anda
Tentukan dataclass dengan semua parameter konfigurasi yang diperlukan dalam file baru:
- Pastikan kelas Anda tidak mendefinisikan ulang nilai parameter untuk file konfigurasi lainnya (yaitu. Kami menentukan jumlah saluran spektrogram hanya sekali - di tempat yang sama untuk dataset dan modul squeezewave ))
- Pastikan kelas Anda memiliki nilai default untuk semua parameter
Tambahkan bidang untuk dataclass Anda di kelas konfigurasi utama reformer_tts.config

Ketergantungan Data

Kami menggunakan DVC untuk mendefinisikan saluran pipa pemrosesan data. Remote diatur di Google Cloud Storage, untuk detailnya menjalankan dvc config list .

Pengaturan untuk menjalankan pekerjaan di cluster entropi

Node disiapkan untuk berlari:

Asusgpu3
Asusgpu4
Asusgpu1
Arnold
Sylvester

Menjalankan trainig di simpul dengan homedir

Klon repo ke homedir Anda
Pastikan jalur dataset dikonfigurasi di /scidatalg
Perintah Pengaturan untuk Menghubungi File dari Homedir Anda
Melakukan perubahan Anda
Jalankan skrip SBatch

Menjalankan pelatihan pada simpul tertentu tanpa homedir

Sebelum berlari:

Pilih simpul dari yang sudah disiapkan atau persiapkan yang baru menggunakan instruksi di bawah ini
Salin Repositori ke Dir Rumah Anda
Pastikan token API Neptunus diatur di lingkungan Anda

Untuk menjalankan pelatihan:

Siapkan konfigurasi pelatihan dan dorong ke repositori jarak jauh
Login ke Node yang Dipilih Menggunakan Sesi Interaktif srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
goto /scidatalg/reformer-tts/reformer-tts/ Pastikan repositori ditarik dan pada cabang yang tepat
Log kembali ke Node Login
Salin dan Modifikasi jobs/train_entropy.sbatch - Isi Nama Node dan Perintah Pelatihan
Jalankan sbatch your/job/script/location.sbatch

Pro Tip watch -n 1 squeue -u your_username untuk ditonton jika pekerjaan Anda sudah berjalan pro tip2 Anda dapat menonton pembaruan ke log dengan menjalankan tail -f file.log atau less --follow-name +F file.log

Tarik dari DVC

Untuk menarik dari DVC Gunakan jobs/entropy_dvc_pull.sbatch .

Salin file ini
Isi nama simpul
Sesuaikan perintah DVC
Jalankan pekerjaan menggunakan SBatch

Persiapan Node Baru

Karena /Direktori Scidatasm tidak disinkronkan sementara kami ingin berlatih, kami harus mengatur pelatihan pada setiap node secara terpisah dengan tangan. Untuk mengatur env di node baru Ikuti Instuksi ini:

Catatan : Hanya node dengan /scidatalg yang didukung oleh skrip ini. Node ini adalah: Asusgpu4, Asusgpu3, Asusgpu2, Asusgpu1, Arnold, Sylvester

Login ke Node Menggunakan Sesi Interaktif srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
Salin kredensial Google API ke ${HOME}/gcp-cred.json (menggunakan editor favorit Anda)
Salin konten scripts/setup_entropy_node.sh ke file baru di home dir (lagi menggunakan editor)
Jalankan skrip yang disalin

Memperluas

Informasi Tambahan

Versi Initial release - project submission
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-24
ukuran 129.95KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Informasi bahasa Inggris tentang pengembangan suara (Panduan Pengguna TTS versi Delphi)

2009-05-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua