ดาวน์โหลด TTSAudioNormalizer - ดาวน์โหลดซอร์สโค้ด TTSAudioNormalizer ดาวน์โหลด

TTSAudioNormalizer

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ttsaudionormalizer

中文文档

TTSAUDIONORMALIZER เป็นเครื่องมือประมวลผลเสียง TTS มืออาชีพที่ให้การวิเคราะห์เสียงที่ครอบคลุมและความสามารถในการประมวลผลมาตรฐาน เครื่องมือนี้มีวัตถุประสงค์เพื่อปรับปรุงคุณภาพการฝึกอบรมของข้อมูล TTS และให้ความมั่นใจในคุณสมบัติเสียง

ความจำเป็นของมาตรฐานเสียง TTS

I. ปรับปรุงผลการฝึกอบรมแบบจำลอง

1. เพิ่มประสิทธิภาพกระบวนการเรียนรู้

ระดับระดับเสียงแบบครบวงจรช่วยให้แบบจำลองมุ่งเน้นไปที่การเรียนรู้คุณสมบัติการพูดมากกว่าที่จะถูกรบกวนจากความแตกต่างของปริมาณ
ข้อมูลที่ได้มาตรฐานช่วยให้โมเดลเข้าหากันเร็วขึ้นลดเวลาการฝึกอบรม
ลดความเสี่ยงของแบบจำลองการเรียนรู้คุณสมบัติที่ไม่ถูกต้อง

2. ป้องกันความผิดปกติของการฝึกอบรม

หลีกเลี่ยงการระเบิดการไล่ระดับสีหรือหายไปเนื่องจากความแตกต่างในปริมาณมาก
ลดความเป็นไปได้ของแบบจำลองที่เกินความเป็นคุณลักษณะระดับเสียง
ปรับปรุงความมั่นคงของกระบวนการฝึกอบรม

3. เพิ่มความสามารถในการวางนัยทั่วไป

แบบจำลองช่วยเหลือมุ่งเน้นไปที่การเรียนรู้คุณสมบัติการพูดที่จำเป็น
ปรับปรุงการปรับตัวแบบจำลองในสถานการณ์ต่าง ๆ
ลดการพึ่งพาคุณสมบัติที่ไม่สำคัญ

ii. รับรองคุณภาพเสียง

1. ความชัดเจนในการพูด

เพิ่มประสิทธิภาพการตอบสนองความถี่เน้นแถบความถี่การพูดที่สำคัญ
เพิ่มความชัดเจนของพยัญชนะปรับปรุงความเข้าใจในการพูด
รักษาความเป็นธรรมชาติของเสียงสระรักษาลักษณะเสียง

2. การควบคุมเสียงรบกวน

ลบเสียงรบกวนพื้นหลังปรับปรุงความบริสุทธิ์ของการพูด
บีบอัดช่วงไดนามิกระดับระดับความสมดุล
กรองแถบความถี่ที่ไร้ประโยชน์ลดปัจจัยการรบกวน

iii. ตรวจสอบความสอดคล้องของข้อมูล

1. ข้อกำหนดทางเทคนิคสม่ำเสมอสม่ำเสมอ

รวมอัตราการสุ่มตัวอย่างให้แน่ใจว่าคุณภาพข้อมูล
ทำให้การตั้งค่าช่องมาตรฐานลดความซับซ้อนของการประมวลผลโฟลว์
ทำให้รูปแบบเสียงเป็นมาตรฐานปรับปรุงความเข้ากันได้

2. การเพิ่มประสิทธิภาพการสกัดคุณลักษณะ

ปรับปรุงความแม่นยำและความน่าเชื่อถือในการแยกคุณลักษณะ
เพิ่มความสามารถในการเปรียบเทียบระหว่างตัวอย่างที่แตกต่างกัน
ตรวจสอบให้แน่ใจว่าคุณภาพของข้อมูลการฝึกอบรมสอดคล้องกัน

กระบวนการมาตรฐานที่แนะนำ:

1. การประมวลผลล่วงหน้าขั้นพื้นฐาน

การรวมรูปแบบ
- แปลงรูปแบบเสียงที่แตกต่างกัน (เช่นเป็น WAV)
- ตรวจสอบให้แน่ใจว่ามีรูปแบบเข้ากันได้
การรวมอัตราตัวอย่าง
- อัตราการสุ่มตัวอย่างมาตรฐาน (เช่น 22050Hz)
- รักษาความสอดคล้องของข้อมูล
การแปลงช่องโมโน
- แปลงเสียงหลายช่องทางเป็นโมโน
- ลดความซับซ้อนของการประมวลผลที่ตามมา

2. การเพิ่มประสิทธิภาพคุณภาพเสียง?

การกำจัดออฟเซ็ต DC
- กำจัดออฟเซ็ตคงที่ในสัญญาณเสียง
- ปรับปรุงคุณภาพเสียง
การปรับระดับเสียง
- รวมระดับเสียงเสียง
- ตรวจสอบให้แน่ใจว่ามีความสม่ำเสมอ
การเพิ่มประสิทธิภาพการตอบสนองความถี่
- ปรับลักษณะความถี่
- เพิ่มประสิทธิภาพประสิทธิภาพเสียง

3. การประมวลผลเสียง?

การกำจัดความเงียบ
- ทำความสะอาดส่วนเสียงที่ไม่ถูกต้อง
- เพิ่มคุณภาพข้อมูล
การลดเสียงรบกวน
- กำจัดเสียงรบกวนพื้นหลัง
- ปรับปรุงความชัดเจนของเสียง
การบีบอัดช่วงไดนามิก
- สมดุลช่วงเสียงแบบไดนามิก
- เพิ่มประสิทธิภาพโดยรวม

4. ตรวจสอบคุณภาพ✅

การตรวจสอบคุณภาพ
- ตรวจสอบคุณภาพเสียงที่ประมวลผล
- ตรวจสอบให้แน่ใจว่าเป็นไปตามข้อกำหนดการฝึกอบรม
การตรวจสอบคุณสมบัติ
- ตรวจสอบพารามิเตอร์คุณสมบัติเสียง
- รับประกันการแยกคุณสมบัติที่มีประสิทธิภาพ

แผนภาพการไหลของการประมวลผล:

Input Audio ➡ Basic Preprocessing ➡ Quality Optimization ➡ Noise Processing ➡ Quality Check ➡ Output Audio

หมายเหตุสำคัญ:

รักษาบันทึกการประมวลผลสำหรับแต่ละขั้นตอน
ทำการตรวจสอบคุณภาพที่ประเด็นสำคัญ
เก็บข้อมูลการสำรองเสียงดั้งเดิม
ปรับพารามิเตอร์ตามสถานการณ์แอปพลิเคชันเฉพาะ

ฟังก์ชั่นหลัก

1. การวิเคราะห์เสียง

สร้างรายงานสถิติความดังโดยละเอียด
ให้การสร้างภาพการกระจายระดับเสียง
คำแนะนำการเพิ่มประสิทธิภาพพารามิเตอร์เอาท์พุท

 from audio_analyzer import AudioAnalyzer

analyzer = AudioAnalyzer ()
results = analyzer . analyze_speaker_directory (
    base_dir = "raw_voices" ,  # Nested folders, i.e., a main folder containing several subfolders (with audio files)
    output_dir = "analysis_report" ,
    max_workers = 16
)

ผลลัพธ์:

发现 49 个说话人目录
处理说话人:   0%|          | 0/49 [00:00<?, ?it/s]

分析说话人: 廉颇

分析音频:   0%|          | 0/118 [00:00<?, ?it/s]
分析音频:  25%|██▌       | 30/118 [00:00<00:00, 289.97it/s]
分析音频:  53%|█████▎    | 62/118 [00:00<00:00, 299.46it/s]
分析音频:  78%|███████▊  | 92/118 [00:00<00:00, 298.95it/s]
                                                           

音频分析报告 说话人: 廉颇:
--------------------------------------------------
分析的音频文件总数: 118

音量统计:

Mean Norm:
  mean: 0.053
  std: 0.010
  min: 0.032
  max: 0.082

RMS Amplitude:
  mean: 0.089
  std: 0.015
  min: 0.057
  max: 0.131

Max Amplitude:
  mean: 0.546
  std: 0.123
  min: 0.293
  max: 0.882
处理说话人:   2%|▏         | 1/49 [00:01<01:03,  1.31s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.053
2. 平衡设置 (确保清晰度): target_db = 0.063
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/廉颇

分析说话人: 小乔

分析音频:   0%|          | 0/201 [00:00<?, ?it/s]
分析音频:  14%|█▍        | 28/201 [00:00<00:00, 268.48it/s]
分析音频:  29%|██▉       | 58/201 [00:00<00:00, 283.83it/s]
分析音频:  43%|████▎     | 87/201 [00:00<00:00, 281.59it/s]
分析音频:  60%|█████▉    | 120/201 [00:00<00:00, 297.76it/s]
分析音频:  75%|███████▍  | 150/201 [00:00<00:00, 294.95it/s]
分析音频:  90%|████████▉ | 180/201 [00:00<00:00, 289.50it/s]
                                                            

音频分析报告 说话人: 小乔:
--------------------------------------------------
分析的音频文件总数: 201

音量统计:

Mean Norm:
  mean: 0.052
  std: 0.019
  min: 0.012
  max: 0.135

RMS Amplitude:
  mean: 0.086
  std: 0.030
  min: 0.024
  max: 0.209

Max Amplitude:
  mean: 0.495
  std: 0.143
  min: 0.163
  max: 0.943
处理说话人:   4%|▍         | 2/49 [00:02<01:09,  1.49s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.052
2. 平衡设置 (确保清晰度): target_db = 0.071
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/小乔

分析说话人: 赵云

分析音频:   0%|          | 0/142 [00:00<?, ?it/s]
分析音频:  20%|█▉        | 28/142 [00:00<00:00, 270.67it/s]
分析音频:  42%|████▏     | 60/142 [00:00<00:00, 294.19it/s]
分析音频:  63%|██████▎   | 90/142 [00:00<00:00, 291.33it/s]
分析音频:  85%|████████▍ | 120/142 [00:00<00:00, 283.42it/s]
                                                            

音频分析报告 说话人: 赵云:
--------------------------------------------------
分析的音频文件总数: 142

音量统计:

Mean Norm:
  mean: 0.050
  std: 0.019
  min: 0.018
  max: 0.124

RMS Amplitude:
  mean: 0.089
  std: 0.031
  min: 0.039
  max: 0.193

Max Amplitude:
  mean: 0.603
  std: 0.182
  min: 0.339
  max: 1.000
处理说话人:   6%|▌         | 3/49 [00:04<01:06,  1.45s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.050
2. 平衡设置 (确保清晰度): target_db = 0.070
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/赵云
...

คำอธิบายตัวชี้วัดที่สำคัญ :

1. ค่าเฉลี่ยบรรทัดฐาน

ความสำคัญในทางปฏิบัติ :
- สะท้อนระดับเสียงโดยรวมของเสียง
- แสดงถึงแอมพลิจูดแบบสัมบูรณ์โดยเฉลี่ยของสัญญาณเสียง
- ช่วงค่าโดยทั่วไประหว่าง 0-1
ความหมายคุณค่า :
- ค่าที่สูงขึ้น = การรับรู้โดยรวมดังขึ้น
- ค่าต่ำกว่า = การรับรู้โดยรวมที่นุ่มนวลกว่า
- ช่วงอุดมคติโดยทั่วไประหว่าง 0.1-0.3
สถานการณ์แอปพลิเคชัน :
- ใช้ในการประเมินว่าความดังโดยรวมมีความเหมาะสมหรือไม่
- ช่วยตรวจสอบว่าจำเป็นต้องได้รับปริมาณหรือไม่

2. แอมพลิจูด RMS

ความสำคัญในทางปฏิบัติ :
- สะท้อนระดับพลังงานที่มีประสิทธิภาพของเสียง
- ใกล้เคียงกับการรับรู้ของหูของความดังมากขึ้น
- พิจารณาการกระจายพลังงานเมื่อเวลาผ่านไป
ความหมายคุณค่า :
- ค่าที่สูงขึ้น = พลังงานเสียงที่แข็งแกร่งขึ้น
- ค่าที่ต่ำกว่า = พลังงานเสียงที่อ่อนลง
- โดยทั่วไปแล้วเสียงระดับมืออาชีพแนะนำระหว่าง 0.1-0.4
สถานการณ์แอปพลิเคชัน :
- ประเมินช่วงเสียงแบบไดนามิก
- ตรวจสอบว่าการบีบอัดหรือการขยายเสียงต้องการความต้องการเสียง
- ใช้กันทั่วไปในการทำให้เป็นมาตรฐานเสียง

3. แอมพลิจูดสูงสุด

ความสำคัญในทางปฏิบัติ :
- สะท้อนถึงระดับสูงสุดในเสียง
- แสดงถึงค่าสูงสุดของสัญญาณทันที
- ใช้เพื่อตรวจสอบว่ามีการตัดหรือไม่
ความหมายคุณค่า :
- 1.0 = ค่าสูงสุดที่เป็นไปได้สำหรับเสียงดิจิตอล (การตัดที่มีศักยภาพ)
- การควบคุมสูงสุดที่แนะนำต่ำกว่า 0.9
- ต่ำเกินไป (เช่น <0.5) ระบุว่าเสียงอาจอ่อนเกินไป
สถานการณ์แอปพลิเคชัน :
- ตรวจจับการบิดเบือนเสียง
- ประเมินส่วนหัวเสียง
- คำแนะนำการตั้งค่าตัว จำกัด

ความสัมพันธ์ระหว่างสาม

ความสัมพันธ์แบบลำดับชั้น :
- แอมพลิจูดสูงสุด> แอมพลิจูด rms> ค่าเฉลี่ยบรรทัดฐาน
- นี่เป็นเพราะวิธีการคำนวณที่แตกต่างกัน
การใช้งานจริง :
- ค่าเฉลี่ยบรรทัดฐาน: ใช้สำหรับการประเมินปริมาณโดยรวม
- RMS: ใช้สำหรับการควบคุมระดับพลังงาน
- แอมพลิจูดสูงสุด: ใช้สำหรับการควบคุมสูงสุด

ค่าอุดมคติอ้างอิง

ค่าอ้างอิงการผลิตเสียงระดับมืออาชีพ :
- ค่าเฉลี่ยบรรทัดฐาน: 0.1-0.3
- RMS: 0.1-0.4
- แอมพลิจูดสูงสุด: 0.8-0.9

คำแนะนำการใช้งาน

ก่อนอื่นตรวจสอบแอมพลิจูดสูงสุดเพื่อหลีกเลี่ยงการตัด
ใช้ RMS เพื่อให้แน่ใจว่าพลังงานโดยรวมมีความเหมาะสม
ค่าเฉลี่ยอ้างอิงบรรทัดฐานเพื่อปรับระดับเสียงโดยรวม
พิจารณาตัวบ่งชี้ทั้งสามในบริบทของแอปพลิเคชันเฉพาะ

ตัวชี้วัดเหล่านี้ทำงานร่วมกันเพื่อช่วยเรา:

รับรองคุณภาพเสียง
รักษาปริมาณความสอดคล้อง
หลีกเลี่ยงการบิดเบือนและเสียงรบกวน
เพิ่มประสิทธิภาพประสบการณ์การฟัง

2. การทำให้เป็นมาตรฐานเสียง

คุณสมบัติที่สำคัญของโซลูชันนี้:

ใช้เอฟเฟกต์บรรทัดฐานของ Sox สำหรับการทำให้เป็นมาตรฐานเสียง
สามารถประมวลผลไฟล์เดียวหรือกระบวนการแบทช์ทั้งหมดไดเรกทอรี
ค่าเริ่มต้นเป็นระดับเสียงปกติถึง -3dB ปรับได้ตามต้องการ
รักษาคุณภาพเสียงดั้งเดิมปรับระดับเสียงเท่านั้น

การใช้งานง่าย:

สำหรับไฟล์เดียว: เรียกฟังก์ชั่น normalize_audio () โดยตรงโดยตรง
สำหรับไดเรกทอรีทั้งหมด: ใช้ BATCH_NORMALIZE_DIRECTORY () ฟังก์ชั่นไฟล์เสียงที่ผ่านการประมวลผลควรมีระดับระดับเสียงที่สม่ำเสมอมากขึ้นการแก้ปัญหาความดังที่ไม่สอดคล้องกัน หากปริมาณโดยรวมยังคงต่ำหรือสูงเกินไปให้ปรับพารามิเตอร์ target_db

 from tts_audio_normalizer import AudioProcessingParams , TTSAudioNormalizer

# Create parameter object and customize parameters
params = AudioProcessingParams ()
params . noise_reduction_strength = 0.8  # Increase noise reduction intensity
params . target_db = - 3  # Set target volume

# Process single file
#normalizer.normalize_audio("input.wav", "output.wav", params)

# Batch process directory
normalizer . batch_normalize_directory (
    input_dir = "./audio_segments" ,
    output_dir = "./audio_segments_normalized" ,
    params = params ,
    max_workers = 4
)

คู่มือการกำหนดค่าพารามิเตอร์

1. พารามิเตอร์พื้นฐาน

 # Basic format settings
rate : int = 44100            # Sample rate
channels : int = 1            # Number of channels
output_format : str = 'wav'   # Output format
target_db : float = - 3.0      # Target volume

2. พารามิเตอร์การเพิ่มประสิทธิภาพคุณภาพเสียง

 # Equalizer settings
equalizer_enabled : bool = True    # Enable equalizer
treble_frequency : float = 3000.0  # Treble center (2-8kHz)
mid_frequency : float = 1000.0     # Mid center (250Hz-2kHz)
bass_frequency : float = 100.0     # Bass center (80-250Hz)

3. พารามิเตอร์การลดเสียงรบกวน

 # Noise processing
subsonic_filter_enabled : bool = True  # Subsonic filtering
compression_ratio : float = 2.5        # Compression ratio
threshold_db : float = - 15.0          # Noise threshold

คำแนะนำการเพิ่มประสิทธิภาพฉาก

1. การปรับประเภทเสียง

ประเภทเสียง	พารามิเตอร์ที่แนะนำ
ชาย	bass_gain = 2.0, mid_frequency = 1200Hz
หญิง	treble_gain = 1.5, bass_gain = 1.5
เด็ก	mid_gain = 1.5, bass_gain = 1.0

2. การกำหนดค่าตัว จำกัด

ระดับการบีบอัด	การรวมพารามิเตอร์
การบีบอัดเล็กน้อย	threshold_db = -20, อัตราส่วน = 2, การโจมตี = 0.3s
การบีบอัดกลาง	threshold_db = -25, อัตราส่วน = 3, การโจมตี = 0.2S
การบีบอัดหนัก	threshold_db = -30, อัตราส่วน = 4, การโจมตี = 0.1s

3. การกำหนดค่าอีควอไลเซอร์

เป้าหมายคุณภาพเสียง	การรวมพารามิเตอร์
การเพิ่มประสิทธิภาพเสียง	เสียงแหลม = 2.0, เบส = 1.0
เพิ่มความชัดเจน	Treble = 3.0, bass = -1.0
น้ำเสียงอบอุ่น	treble = -1.0, เบส = 2.0

ข้อควรระวังในการใช้งาน

การป้องกันคุณสมบัติเสียง

หลีกเลี่ยงการประมวลผลมากเกินไปที่นำไปสู่การบิดเบือน
รักษาความชัดเจนของขอบเขตฟอนิม
รักษาฉันทลักษณ์การพูดตามธรรมชาติ

การปรับชุดข้อมูล

ปรับพารามิเตอร์ตามลักษณะของลำโพง
พิจารณาการบันทึกปัจจัยสภาพแวดล้อม
รักษาความสอดคล้องของการประมวลผล

การควบคุมคุณภาพ

ตรวจสอบเอฟเฟกต์การประมวลผลเป็นประจำ
ตรวจสอบตัวอย่างที่ผิดปกติ
ปรับพารามิเตอร์ในเวลาที่เหมาะสม

เวิร์กโฟลว์แนวปฏิบัติที่ดีที่สุด

ทำการวิเคราะห์เสียงก่อน
เลือกพารามิเตอร์ตามรายงานการวิเคราะห์
ผลการทดสอบผลกระทบในชุดขนาดเล็ก
ปรับและปรับการกำหนดค่าพารามิเตอร์
ดำเนินการประมวลผลการทำให้เป็นมาตรฐานแบทช์
ตรวจสอบคุณภาพผลลัพธ์การประมวลผล

ด้วยการกำหนดค่าที่เหมาะสมและการใช้เครื่องมือนี้คุณสามารถปรับปรุงคุณภาพการฝึกอบรมของ TTS ได้อย่างมีนัยสำคัญให้การสนับสนุนข้อมูลพื้นฐานที่ดีขึ้นสำหรับการฝึกอบรมแบบจำลอง