ดาวน์โหลด NATSpeech - ดาวน์โหลดซอร์สโค้ด NATSpeech

NATSpeech

โค้ดแหล่งที่มา AI

v0.1

ดาวน์โหลด

Natspeech: กรอบการพูดแบบข้อความที่ไม่ใช่คำพูด

- - 中文文档

repo นี้มีการดำเนินการ pytorch อย่างเป็นทางการของ:

PortAspeech: ข้อความแบบพกพาและคุณภาพสูงเป็นคำพูด (Neurips 2021)
หน้าสาธิต | Huggingface? การสาธิต
Diffsinger: การร้องเพลงสังเคราะห์ด้วยเสียงผ่านกลไกการแพร่กระจายแบบตื้น (DiffSpeech) (AAAI 2022)
หน้าสาธิต | หน้าโครงการ | Huggingface? การสาธิต

คุณสมบัติที่สำคัญ

เราใช้คุณสมบัติต่อไปนี้ในกรอบนี้:

การประมวลผลข้อมูลสำหรับข้อความที่ไม่ใช่ข้อความเป็นคำพูดโดยใช้ Montreal Forced Aligner
กรอบที่สะดวกและปรับขนาดได้สำหรับการฝึกอบรมและการอนุมาน
การใช้งานชุดข้อมูลแบบสุ่มที่ง่าย แต่มีประสิทธิภาพ

ติดตั้งการพึ่งพา

 # # We tested on Linux/Ubuntu 18.04. 
# # Install Python 3.6+ first (Anaconda recommended).

export PYTHONPATH=.
# build a virtual env (recommended).
python -m venv venv
source venv/bin/activate
# install requirements.
pip install -U pip
pip install Cython numpy==1.19.1
pip install torch==1.9.0 # torch >= 1.9.0 recommended
pip install -r requirements.txt
sudo apt install -y sox libsox-fmt-mp3
bash mfa_usr/install_mfa.sh # install forced alignment tool

เอกสาร

เกี่ยวกับกรอบงาน
เรียกใช้ portaspeech
เรียกใช้ diffspeech

การอ้างอิง

หากคุณพบว่าสิ่งนี้มีประโยชน์สำหรับการวิจัยของคุณโปรดอ้างอิงเอกสารต่อไปนี้:

Portaspeech

 @article { ren2021portaspeech ,
  title = { PortaSpeech: Portable and High-Quality Generative Text-to-Speech } ,
  author = { Ren, Yi and Liu, Jinglin and Zhao, Zhou } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 34 } ,
  year = { 2021 }
}

diffSpeech

 @article { liu2021diffsinger ,
  title = { Diffsinger: Singing voice synthesis via shallow diffusion mechanism } ,
  author = { Liu, Jinglin and Li, Chengxi and Ren, Yi and Chen, Feiyang and Liu, Peng and Zhao, Zhou } ,
  journal = { arXiv preprint arXiv:2105.02446 } ,
  volume = { 2 } ,
  year = { 2021 }
 }

กิตติกรรมประกาศ

รหัสของเราได้รับอิทธิพลจาก repos ต่อไปนี้:

Pytorch Lightning
ขนาน
hifi-gan
Espnet
เรืองแสง
diffSpeech

ใบอนุญาตและข้อตกลง

องค์กรหรือบุคคลใด ๆ ถูกห้ามไม่ให้ใช้เทคโนโลยีใด ๆ ที่กล่าวถึงในบทความนี้เพื่อสร้างคำพูดของใครบางคนโดยไม่ได้รับความยินยอมจากเขา/เธอรวมถึง แต่ไม่ จำกัด เฉพาะผู้นำรัฐบาลตัวเลขทางการเมืองและคนดัง หากคุณไม่ปฏิบัติตามรายการนี้คุณอาจละเมิดกฎหมายลิขสิทธิ์

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.1
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-14
ขนาด 179.02KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด