Semua Tentang Pidato
Repositori ini mengatur makalah, bahan pembelajaran, kode untuk tujuan memahami pidato. Ada repositori lain untuk mesin/pembelajaran mendalam di sini.
Ke dos:
- mengatur bintang
- Tambahkan lebih banyak makalah
- makalah untuk dibaca:
- Pidato = T: Transduser untuk TTS dan seterusnya
Tts
Asr
- Menuju pemahaman bahasa lisan ujung ke ujung
Klasifikasi Bicara, Deteksi, Filter, dll.
- HTS-AT: Transformator audio token-semantik hierarki untuk klasifikasi dan deteksi suara [[kertas]] [kode]
- Sistem voicefilter Google AI [[kertas]] [kode]
- Peningkatan pengenalan emosi ucapan ujung ke ujung menggunakan mekanisme perhatian diri dan pembelajaran multitask (interspeech 2019) [[kertas]] [kode]
- Pengenalan emosi multimodal dengan fusi fitur yang diawasi sendiri berbasis transformer [[kertas]] [kode]
- Pengenalan Emosi dari Pidato Menggunakan WAV2VEC 2.0 Embeddings (interspeech 2021) [[kertas]] [kode]
- Menjelajahi Fine-tuning WAV2VEC 2.0 untuk meningkatkan pengenalan emosi [[kertas]] [kode]
- Memikirkan kembali model CNN untuk klasifikasi audio [[kertas]] [kode]
- Pengenalan Emosi Berbasis EEG Menggunakan Sincnet [[kertas]] [kode]
Verifikasi Pembicara
- Pooling silang untuk verifikasi speaker (IEEE SLT 2021) [[kertas]] [kode]
Ilmu bahasa
Kumpulan data
- VGGSOUND: Dataset audio-visual skala besar [[kertas]] [kode]
- CSS10: Kumpulan Datset Pidato Pembicara Tunggal untuk 10 Langauges [Kode]
- IEMOCAP: 12 jam data audiovisual dengan 10 aktor pria dan wanita [Situs Web]
- Voxceleb [repo]
Augmentasi data
- Audiomen (Augmentasi Data Audio Cepat di Pytorch) [Kode]
Pelurus
- Montreal memaksa Aligner
Data (Pra) Pemrosesan / augmentasi
- Pengucapan dan Romanisasi Korea berdasarkan modul Wiktionary Ko-Pron Lua [kode]
- Pemrosesan sinyal audio [kode]
- Fitur fonologis (untuk kertas "Fitur fonologis untuk sintesis ucapan multibahasa 0-shot") [[kertas]] [kode]
- Smart-G2P (Ubah Ekspresi Bahasa Inggris dan Kanji dalam kalimat Korea menjadi pengucapan Korea) [Kode]
- Kakao Grapheme ke paket konversi fonem untuk "mandarin" [kode]
- Alat Pidato Webaverse [kode]
Verifikasi
- MCD [repo]
- Kode berfungsi, tetapi saya tidak yakin apakah itu benar. Nomor MCD agak terlalu tinggi bahkan untuk pasangan audio serupa.
Penelitian lain yang mungkin membantu
- Sintesis Teks ke Gambar
- Audiomae (Autoencoders bertopeng yang mendengarkan) [kode]
Organisasi
- DeepMind [repo]
- Openai [repo]
- House Club: WeeklyarxivTalk [repo]
Repositori lain untuk merujuk ke - pidato termasuk/terkait
- Daftar Peneliti Pidato [Repo]
- Jackson-kang [repo]
- Rosinality's ML [repo]
- [repo] Ivallesp
- Pidato Ddlbojack [repo]
- Transfer gaya Fuzhenxin dalam teks [repo]
Materi pembelajaran
- Kuliah Pemrosesan Sinyal Digital [tautan]
- Buku Pidato Ratsgo [tautan]
- Kursus YSDA dalam Pemrosesan Pidato [Kode]
- NHN Forward YouTube Video [tautan]