ดาวน์โหลด voice100 - ดาวน์โหลดซอร์สโค้ด voice100

voice100

โค้ดแหล่งที่มา AI

Training with `LightningCLI`

ดาวน์โหลด

เสียง 100

Voice100 รวมถึงรุ่น TTS/ASR ของระบบประสาท การอนุมานของ Voice100 นั้นมีค่าใช้จ่ายต่ำเนื่องจากรุ่นของมันมีขนาดเล็กและขึ้นอยู่กับ CNN โดยไม่มีการเรียกซ้ำ

วัตถุประสงค์

อย่าพึ่งพาชุดข้อมูลที่ไม่ได้รับอนุญาตเชิงพาณิชย์
เล็กพอที่จะทำงานบนพีซีปกติ Raspberry Pi และสมาร์ทโฟน

การสังเคราะห์ตัวอย่าง

การสังเคราะห์ตัวอย่าง 1 จุดเริ่มต้นจะถูกกำหนดและเมื่อได้รับการเสริมโดยการใช้งานต่อเนื่องที่มีอิทธิพลคล้ายกัน
ตัวอย่างการสังเคราะห์ 2 ซึ่งได้ฟื้นฟูข้าราชบริพารของ Noirtier มาเรื่อย
การสังเคราะห์ตัวอย่าง 1 มันมักจะอยู่ในใจกลางของ Myo-O หลักหรือที่รู้จักกันในชื่อ Myo-O ที่ยิ่งใหญ่ห้าตัวเช่นวัด Toji
การสังเคราะห์ตัวอย่าง 2 สไตล์นิวอิงแลนด์เป็นซุปครีมสีขาวที่เป็นที่รู้จักกันในชื่อบอสตันหอยซุป

สถาปัตยกรรม

TTS

โมเดล TTS แบ่งออกเป็นสองรุ่นย่อยโมเดลและโมเดลเสียง การจัดตำแหน่งแบบจำลองการจัดวางข้อความที่ได้รับข้อความ ข้อความที่ได้รับการจัดตำแหน่งนั้นสร้างขึ้นจากข้อความและการจัดตำแหน่งข้อความ รูปแบบเสียงการทำนายคุณสมบัติของโลก (F0, ซองจดหมายสเปกตรัม, รหัสความรุนแรงที่เขียนโค้ด) ได้รับข้อความที่จัดตำแหน่ง

เครือข่ายการจัดตำแหน่ง

 กราฟ TD
    A [ข้อความอินพุต] -> | สวัสดี | B (ฝัง)
    B -> C (1D กลับด้าน x4)
    C -> D (Convolution)
    D -> | H: 0,1 E: 0,2 L: 1,1 L: 1,1 O: 1,2 | E [การจัดตำแหน่ง]

เครือข่ายเสียง

 กราฟ TD
    A [ข้อความที่จัดตำแหน่ง] -> | _hee_l_l_oo | B (ฝัง)
    B -> C (1D กลับด้าน x4)
    C -> D (1D transpose convolution)
    D -> E (1D กลับส่วนที่เหลือ x3)
    E -> F (Convolution)
    f -> g [พารามิเตอร์โลก]

TTS จัดแนวโมเดล

  | Name      | Type       | Params
-----------------------------------------
0 | embedding | Embedding  | 14.8 K
1 | layers    | Sequential | 8.6 M 
-----------------------------------------
8.6 M     Trainable params
0         Non-trainable params
8.6 M     Total params
17.137    Total estimated model params size (MB)

รุ่นเสียง TTS

  | Name      | Type         | Params
-------------------------------------------
0 | embedding | Embedding    | 14.8 K
1 | decoder   | VoiceDecoder | 11.0 M
2 | norm      | WORLDNorm    | 518   
3 | criterion | WORLDLoss    | 0     
-------------------------------------------
11.1 M    Trainable params
518       Non-trainable params
11.1 M    Total params
22.120    Total estimated model params size (MB)

จัดแนวโมเดลก่อนการประมวลผล

อินพุตของโมเดลการจัดตำแหน่งคือลำดับของโทเค็นของข้อความอินพุต ข้อความอินพุตเป็นตัวพิมพ์เล็กและโทเค็นเป็นอักขระและเข้ารหัสด้วยตัวเข้ารหัสข้อความ ตัวเข้ารหัสข้อความมี 28 ตัวอักษรในคำศัพท์ซึ่งรวมถึงตัวอักษรที่ต่ำกว่าพื้นที่และอะพอสโทรฟี ตัวละครทั้งหมดที่ไม่พบในคำศัพท์จะถูกลบออก

จัดตำแหน่งโมเดลหลังการประมวลผล

เอาต์พุตของโมเดลการจัดตำแหน่งคือลำดับของคู่ของการกำหนดเวลาซึ่งความยาวเท่ากับจำนวนโทเค็นอินพุต คู่มีสองค่าจำนวนเฟรมก่อนโทเค็นและจำนวนเฟรมสำหรับโทเค็น หนึ่งเฟรมคือ 20ms ข้อความที่ได้รับการจัดตำแหน่งนั้นสร้างขึ้นจากข้อความอินพุตและคู่ของการกำหนดเวลา ความยาวของข้อความที่จัดตำแหน่งคือจำนวนเฟรมทั้งหมดสำหรับเสียง

การประมวลผลรุ่นเสียงล่วงหน้า

อินพุตของโมเดลเสียงเป็นข้อความที่จัดเรียงที่เข้ารหัสซึ่งเข้ารหัสในลักษณะเดียวกับการจัดทำโมเดลการจัดตำแหน่งล่วงหน้ายกเว้นว่ามีโทเค็นเพิ่มหนึ่งรายการในคำศัพท์สำหรับระยะห่างระหว่างโทเค็นสำหรับข้อความต้นฉบับ

โมเดลเสียงหลังการประมวลผล

เอาต์พุตของโมเดลเสียงคือลำดับของ F0, F0 Existences, ซองสเปกตรัมสเปกตรัมบันทึก, รหัส aperiodicity การดำรงอยู่ของ F0 เป็นค่าบูลีนซึ่งเป็นจริงเมื่อ F0 มีความเป็นเท็จเป็นอย่างอื่น F0 ถูกบังคับให้เป็น 0 เมื่อ F0 การดำรงอยู่เป็นเท็จ หนึ่งเฟรมคือ 10ms ความยาวของเอาต์พุตเป็นสองเท่าของความยาวของอินพุต

ASR

โมเดล ASR คือ 9 ชั้น Mobilenet-like Inverted ที่เหลือซึ่งได้รับการฝึกฝนให้ทำนายการสูญเสีย CTC

เครือข่าย ASR

 กราฟ TD
    A [mel spectrogram] -> b (1D กลับส่วนที่เหลือ x 12)
    B -> C (Convolution)
    C -> G [บันทึกของข้อความที่จัดตำแหน่ง]

  | Name          | Type                          | Params
----------------------------------------------------------------
0 | encoder       | ConvVoiceEncoder              | 11.6 M
1 | decoder       | LinearCharDecoder             | 14.9 K
2 | loss_fn       | CTCLoss                       | 0     
3 | batch_augment | BatchSpectrogramAugumentation | 0     
----------------------------------------------------------------
11.6 M    Trainable params
0         Non-trainable params
11.6 M    Total params
23.243    Total estimated model params size (MB)

จัดแนวโมเดล

แบบจำลองการจัดตำแหน่งคือ LSTM สองชั้นสองชั้นซึ่งได้รับการฝึกฝนให้ทำนายข้อความที่จัดตำแหน่งจากคุณสมบัติเสียง MFCC โมเดลแนวตั้งใช้เพื่อเตรียมข้อความที่จัดตำแหน่งสำหรับชุดข้อมูลเพื่อฝึกอบรมรุ่น TTS

  | Name          | Type                          | Params
----------------------------------------------------------------
0 | conv          | Conv1d                        | 24.7 K
1 | lstm          | LSTM                          | 659 K 
2 | dense         | Linear                        | 7.5 K 
3 | loss_fn       | CTCLoss                       | 0     
4 | batch_augment | BatchSpectrogramAugumentation | 0     
----------------------------------------------------------------
691 K     Trainable params
0         Non-trainable params
691 K     Total params
1.383     Total estimated model params size (MB)

การฝึกอบรม

รถไฟรุ่น ASR

voice100-prepare-dataset 
  --dataset ljspeech 
  --language en 
  --use_phone

voice100-prepare-dataset 
  --dataset librispeech 
  --language en 
  --use_phone

voice100 fit 
  --config config/asr_en_phone_base.yaml 
  --trainer.accelerator gpu 
  --trainer.devices 1 
  --trainer.precision 16 
  --trainer.default_root_dir ./outputs/asr_en_phone_base

จัดเรียงข้อความด้วยรุ่น ASR ขนาดเล็ก

สิ่งนี้จะสร้างข้อความที่จัดตำแหน่งเป็น data/${DATASET}-phone-align.txt

voice100-align-text 
  --batch_size 4 
  --dataset ljspeech 
  --language en 
  --use_phone 
  --checkpoint asr_en_phone_small-20230309.ckpt

รถไฟรุ่น TTS จัดแนว

voice100 fit --config voice100/config/align_en_phone_base.yaml 
  --trainer.accelerator gpu 
  --trainer.devices 1 
  --trainer.precision 16 
  --trainer.default_root_dir=./outputs/align_en_phone_base

คำนวณสถิติเสียง

สิ่งนี้สร้างสถิติเป็น data/${DATASET}-stat.pt

voice100-calc-stat 
    --dataset ljspeech 
    --language en 
    --output data/audio-stat.py

รถไฟรุ่นเสียง TTS

voice100 fit --config voice100/config/tts_en_phone_base.yaml 
  --trainer.accelerator gpu 
  --gpus 1 
  --precision 16 
  --trainer.default_root_dir=./outputs/tts_en_phone_base

ส่งออกไปยัง ONNX

voice100-export-onnx 
    --checkpoint model/ ${MODEL} /lightning_logs/version_0/checkpoints/last.ckpt

รุ่น CMU

รุ่น CMU เป็นแบบจำลองที่ใช้เอาต์พุตของ G2P_EN เป็นตัวแทนข้อความแทนข้อความดิบ

โมเดลการฝึกอบรม CMU

คำสั่งเหล่านี้แปลงข้อความในชุดข้อมูลเป็น ./data/[dataset]-phone-[split].txt dataset เหมือนกัน-โฟน-[split เหมือนกัน. txt จากนั้นเรียกใช้ voice100-train-[model] ด้วย --use-phone

voice100-prepare-dataset 
    --dataset ljspeech
voice100-prepare-dataset 
    --dataset librispeech 
    --split train
voice100-prepare-dataset 
    --dataset librispeech 
    --split val

CMU Multi-Task Model

CMU MultitAsk Model เป็นตัวแปรของโมเดลเสียง TTS ซึ่งอินพุตเป็นข้อความและเอาต์พุตที่ได้รับการจัดตำแหน่งเป็นพารามิเตอร์ Vocoder World และหน่วยเสียง CMU ในการฝึกอบรม CMU Multi-Task Model เราจำเป็นต้องมีข้อมูลการจัดตำแหน่งสำหรับการออกเสียงภาษาอังกฤษและ CMU

./data/ljspeech-align-train.txt
./data/ljspeech-phone-align-train.txt

จากนั้นวิ่ง

MODEL=ttsaudio_en_mt_conv_base

voice100-train-ttsaudio-mt 
  --gpus 1 
  --dataset ${DATASET} 
  --language ${LANGUAGE} 
  --batch_size 32 
  --precision 16 
  --max_epochs 150 
  --default_root_dir ./model/ ${MODEL}

การอนุมาน

ใช้ Voice100 Runtime และส่งออกไฟล์ ONNX

นางแบบที่ได้รับการฝึกฝน

ชื่อ	คลาสรุ่น	ชุดข้อมูล	การดาวน์โหลด
ASR_EN_SMALL-20230225	Audiotoaligntext	Librispeech, LJ Speech 1.1	การดาวน์โหลด
ASR_EN_BASE-20230319	Audiotoaligntext	Librispeech, LJ Speech 1.1	การดาวน์โหลด
ASR_EN_POHNE_SMALL-20230309	Audiotoaligntext	Librispeech, LJ Speech 1.1	การดาวน์โหลด
ASR_EN_POHNE_BASE-20230314	Audiotoaligntext	Librispeech, LJ Speech 1.1	การดาวน์โหลด
ASR_JA_POHNE_SMALL-20230104	Audiotoaligntext	เสียงทั่วไป 12.0 JA	การดาวน์โหลด
ASR_JA_POHNE_BASE-20230104	Audiotoaligntext	เสียงทั่วไป 12.0 JA	การดาวน์โหลด
Align_en_base-20230401	texttoaligntext	LJ Speech 1.1	การดาวน์โหลด
TTS_EN_BASE-20230407	aligntexttoaudio	LJ Speech 1.1	การดาวน์โหลด
Align_en_phone_base-20230407	texttoaligntext	LJ Speech 1.1	การดาวน์โหลด
tts_en_phone_base-20230401	aligntexttoaudio	LJ Speech 1.1	การดาวน์โหลด
align_ja_phone_base-20230203	texttoaligntext	Kokoro Speech v1.2 ขนาดใหญ่	การดาวน์โหลด
tts_ja_phone_base-20230204	aligntexttoaudio	Kokoro Speech v1.2 ขนาดใหญ่	การดาวน์โหลด
ASR_EN_BASE-201210628 (เลิกใช้แล้ว)	AudioAlignctc	LJ Speech 1.1	การดาวน์โหลด
align_en_lstm_base_ctc-20210628 (เลิกใช้แล้ว)	AudioAlignctc	LJ Speech 1.1	การดาวน์โหลด
align_en_phone_lstm_base_ctc-20220103 (เลิกใช้แล้ว)	AudioAlignctc	LJ Speech 1.1	การดาวน์โหลด
Align_JA_LSTM_BASE_CTC-2011116 (เลิกใช้แล้ว)	AudioAlignctc	Kokoro Speech v1.1 Small	การดาวน์โหลด
align_ja_phone_lstm_base_ctc-20221230 (เลิกใช้แล้ว)	AudioAlignctc	Kokoro Speech v1.1 Small	การดาวน์โหลด
ttsalign_en_conv_base-20220409 (เลิกใช้แล้ว)	texttoaligntextmodel	LJ Speech 1.1	การดาวน์โหลด
ttsalign_en_phone_conv_base-20220409 (เลิกใช้แล้ว)	texttoaligntextmodel	LJ Speech 1.1	การดาวน์โหลด
ttsalign_ja_conv_base-20220411 (เลิกใช้แล้ว)	texttoaligntextmodel	Kokoro Speech v1.1 Small	การดาวน์โหลด
ttsaudio_en_conv_base-20220107 (เลิกใช้แล้ว)	Aligntexttoaudiomodel	Kokoro Speech v1.1 Small	การดาวน์โหลด
ttsaudio_en_phone_conv_base-20220105 (เลิกใช้แล้ว)	Aligntexttoaudiomodel	LJ Speech 1.1	การดาวน์โหลด
TTSAUDIO_JA_CONV_BASE-20220416 (เลิกใช้แล้ว)	Aligntexttoaudiomodel	Kokoro Speech v1.1 Small	การดาวน์โหลด
TTSAUDIO_EN_MT_CONV_BASE-20220316 (เลิกใช้แล้ว)	aligntexttoaudiomultiTaskModel	LJ Speech 1.1	การดาวน์โหลด
ASR_EN_CONV_BASE_CTC-20220126 (เลิกใช้แล้ว)	Audiototextctc	librispeech	การดาวน์โหลด
ASR_EN_PHONE_CONV_BASE_CTC-20220107 (เลิกใช้แล้ว)	Audiototextctc	librispeech	การดาวน์โหลด
STT_JA_CONV_BASE_CTC-20211127 (เลิกใช้แล้ว)	Audiototextctc	เสียงทั่วไป 6.1 JA	การดาวน์โหลด
ASR_JA_PHONE_CONV_BASE_CTC-20221225 (เลิกใช้แล้ว)	Audiototextctc	เสียงทั่วไป 6.1 JA	การดาวน์โหลด

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน Training with `LightningCLI`
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-23
ขนาด 964.48KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด