ดาวน์โหลด emospeech - ดาวน์โหลดซอร์สโค้ด emospeech

emospeech

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

emospeech: ชี้นำ FastSpeech2 ไปสู่ข้อความทางอารมณ์ในการพูด

วิธีการวิ่ง

สร้าง env

คุณสามารถสร้างสภาพแวดล้อมด้วย Docker หรือ Conda

เพื่อตั้งค่าสภาพแวดล้อมด้วย Docker

หากคุณไม่ได้ติดตั้ง Docker โปรดไปที่ลิงก์เพื่อค้นหาคำแนะนำการติดตั้งสำหรับ Ubuntu, Mac หรือ Windows

สร้างภาพนักเทียบท่า:

 docker build -t emospeech .

เรียกใช้ภาพนักเทียบท่า:

 bash run_docker.sh

เพื่อตั้งค่าสภาพแวดล้อมด้วย conda

หากคุณไม่ได้ติดตั้ง Conda โปรดค้นหาคำแนะนำการติดตั้งสำหรับระบบปฏิบัติการของคุณที่นี่

  conda create -n etts python=3.10
  conda activate etts
  pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  pip install -r requirements.txt

หากคุณมี CUDA เวอร์ชันต่าง ๆ บนเครื่องของคุณคุณสามารถค้นหาลิงค์ที่เกี่ยวข้องสำหรับการติดตั้ง Pytorch ได้ที่นี่

ดาวน์โหลดและประมวลผลข้อมูลล่วงหน้า

เราใช้ข้อมูลของลำโพงภาษาอังกฤษ 10 ตัวจากชุดข้อมูล ESD ในการดาวน์โหลดไฟล์ .wav , .txt ทั้งหมดพร้อมกับไฟล์ .TextGrid ที่สร้างขึ้นโดยใช้ MFA:

  bash download_data.sh

ในการฝึกอบรมแบบจำลองเราต้องการระยะเวลาที่กำหนดล่วงหน้าพลังงานระดับเสียงและ EGEMAP จาก src Directory Run:

  python -m src.preprocess.preprocess

นี่คือวิธีที่โฟลเดอร์ข้อมูลของคุณควรมีลักษณะ:

  .
  ├── data
  │   ├── ssw_esd
  │   ├── test_ids.txt
  │   ├── val_ids.txt
  └── └── preprocessed
          ├── duration
          ├── egemap
          ├── energy
          ├── mel
          ├── phones.json
          ├── pitch
          ├── stats.json
          ├── test.txt
          ├── train.txt
          ├── trimmed_wav
          └── val.txt

การฝึกอบรม

กำหนดค่าอาร์กิวเมนต์ใน config/config.py
เรียกใช้ python -m src.scripts.train

การทดสอบ

การทดสอบถูกนำไปใช้กับชุดย่อยการทดสอบของชุดข้อมูล ESD เพื่อสังเคราะห์เสียงและคำนวณ MOS (NISQA TTS):

กำหนดค่าอาร์กิวเมนต์ใน config/config.py ภายใต้ Inference
เรียกใช้ python -m src.scripts.test

คุณสามารถค้นหา Nisqa TTS สำหรับเสียงดั้งเดิมที่สร้างขึ้นใหม่และสร้างขึ้นใน test.log

การอนุมาน

Emospeech ได้รับการฝึกฝนเกี่ยวกับลำดับเสียง โทรศัพท์ที่รองรับสามารถพบได้ใน data/preprocessed/phones.json repositroy นี้ถูกสร้างขึ้นสำหรับการวิจัยเชิงวิชาการและไม่สนับสนุนการแปลงกราฟเป็นแบบอัตโนมัติเป็น phoneme อย่างไรก็ตามหากคุณต้องการสังเคราะห์ประโยคโดยพลการด้วยการปรับสภาพอารมณ์คุณสามารถ:

สร้างลำดับฟอนิมจาก Graphemes ด้วย MFA
1.1 ทำตามคู่มือการติดตั้ง
1.2 ดาวน์โหลดภาษาอังกฤษ G2P รุ่น: mfa model download g2p english_us_arpa
1.3 สร้าง phoneme.txt จาก graphemes.txt: mfa g2p graphemes.txt english_us_arpa phoneme.txt
เรียกใช้ python -m src.scripts.inference , ระบุอาร์กิวเมนต์:

อเนกประสงค์	ความหมาย	ค่าที่เป็นไปได้	ค่าเริ่มต้น
`-sq`	ลำดับฟอนิมเพื่อสังเคราะห์	ค้นหาใน `data/phones.json`	ไม่ได้ตั้งค่าอาร์กิวเมนต์ที่จำเป็น
`-emo`	id ของอารมณ์เสียงที่ต้องการ	0: เป็นกลาง, 1: โกรธ, 2: มีความสุข, 3: เศร้า, 4: เซอร์ไพรส์	1
`-sp`	id of Speaker Voice	จาก 1 ถึง 10 สอดคล้องกับ 0011 ... 0020 ในสัญกรณ์ ESD ดั้งเดิม	5
`-p`	เส้นทางที่จะบันทึกเสียงสังเคราะห์	มีส่วนขยาย `.wav`	generation_from_phoneme_sequence.wav

ตัวอย่างเช่น

 python -m src.scripts.inference --sq "S P IY2 K ER1 F AY1 V  T AO1 K IH0 NG W IH0 TH AE1 NG G R IY0 IH0 M OW0 SH AH0 N"

หากไฟล์ผลลัพธ์ไม่ได้ถูกสังเคราะห์ให้ตรวจสอบ inference.log .logสำหรับโทรศัพท์ OOV

การอ้างอิง

FastSpeech 2 - การใช้งาน Pytorch
ISTFTNET: Vocoder Mel-Spectrogram ที่รวดเร็วและเบาและมีน้ำหนักเบาซึ่งรวมการแปลงฟูริเยร์แบบสั้น ๆ แบบผกผัน
ชุดข้อมูลคำพูดทางอารมณ์ที่เปิดเผยต่อสาธารณะ (ESD) สำหรับการสังเคราะห์คำพูดและการแปลงเสียง
Nisqa: การประเมินคุณภาพและความเป็นธรรมชาติของคำพูด
โมเดลผู้จัดตำแหน่งมอนทรีออล
vocgan ดัดแปลง
เป็นคนขี้เกียจ

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-25
ขนาด 1.15MB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด