TTSAudioNormalizer下載TTSAudioNormalizer源代碼下載

TTSAudioNormalizer

Ai源碼

1.0.0

下載

ttsaudionormalizer

中文文檔

TTSaudionormalizer是一種專業的TTS音頻預處理工具，可提供全面的音頻分析和標準化處理功能。該工具旨在提高TTS培訓數據質量並確保音頻功能的一致性。

TTS音頻標準化的必要性

I.改善模型培訓效果

1。優化學習過程

統一的音量水平有助於模型專注於學習語音特徵，而不是被音量差異分散注意力
標準化數據有助於模型更快地收斂，減少訓練時間
降低了模型學習不正確功能的風險

2。防止訓練異常

避免由於較大的體積差異而導致梯度爆炸或消失
減少模型過度適應音量功能的可能性
改善訓練過程穩定性

3。增強概括能力

幫助模型專注於學習基本語音特徵
在不同情況下改善模型適應性
減少對非關鍵特徵的依賴

ii。確保音頻質量

1。言語清晰度

優化頻率響應，強調關鍵語音頻帶
提高輔音清晰度，提高語音清晰度
保持元音自然，保留語音特徵

2。噪聲控制

消除背景噪音，提高語音純度
壓縮動態範圍，平衡量水平
過濾無用的頻帶，減少干擾因子

iii。確保數據一致性

1。技術規範統一性

統一採樣率，確保數據質量
標準化頻道設置，簡化處理流程
標準化音頻格式，提高兼容性

2。特徵提取優化

提高功能提取精度和可靠性
提高不同樣品之間的可比性
確保培訓數據質量一致性

建議的標準化過程：

1。基本預處理

格式統一
- 轉換不同的音頻格式（例如，wav）
- 確保格式兼容性
樣本率統一
- 標準化採樣率（例如22050Hz）
- 保持數據一致性
單頻道轉換
- 將多通道音頻轉換為單聲道
- 簡化後續處理

2。音頻質量優化？

DC偏移去除
- 消除音頻信號中的固定偏移
- 提高音頻質量
體積歸一化
- 統一音量量級
- 確保響度一致性
頻率響應優化
- 調整頻率特徵
- 優化音頻性能

3。噪聲處理？

沉默清除
- 清理無效的音頻段
- 提高數據質量
降噪
- 消除背景噪音
- 提高音頻清晰度
動態範圍壓縮
- 餘額音頻動態範圍
- 提高整體性能

4。質量檢查✅

質量驗證
- 檢查處理的音頻質量
- 確保滿足培訓要求
功能驗證
- 驗證音頻功能參數
- 保證有效的功能提取

處理流程圖：

Input Audio ➡️ Basic Preprocessing ➡️ Quality Optimization ➡️ Noise Processing ➡️ Quality Check ➡️ Output Audio

重要說明：

維護每個步驟的處理日誌
在關鍵點進行質量檢查
保留原始音頻備份
根據特定的應用程序方案調整參數

主要功能

1。音頻分析

生成詳細的響度統計報告
提供音量分佈可視化
輸出參數優化建議

 from audio_analyzer import AudioAnalyzer

analyzer = AudioAnalyzer ()
results = analyzer . analyze_speaker_directory (
    base_dir = "raw_voices" ,  # Nested folders, i.e., a main folder containing several subfolders (with audio files)
    output_dir = "analysis_report" ,
    max_workers = 16
)

結果：

发现 49 个说话人目录
处理说话人:   0%|          | 0/49 [00:00<?, ?it/s]

分析说话人: 廉颇

分析音频:   0%|          | 0/118 [00:00<?, ?it/s]
分析音频:  25%|██▌       | 30/118 [00:00<00:00, 289.97it/s]
分析音频:  53%|█████▎    | 62/118 [00:00<00:00, 299.46it/s]
分析音频:  78%|███████▊  | 92/118 [00:00<00:00, 298.95it/s]
                                                           

音频分析报告 说话人: 廉颇:
--------------------------------------------------
分析的音频文件总数: 118

音量统计:

Mean Norm:
  mean: 0.053
  std: 0.010
  min: 0.032
  max: 0.082

RMS Amplitude:
  mean: 0.089
  std: 0.015
  min: 0.057
  max: 0.131

Max Amplitude:
  mean: 0.546
  std: 0.123
  min: 0.293
  max: 0.882
处理说话人:   2%|▏         | 1/49 [00:01<01:03,  1.31s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.053
2. 平衡设置 (确保清晰度): target_db = 0.063
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/廉颇

分析说话人: 小乔

分析音频:   0%|          | 0/201 [00:00<?, ?it/s]
分析音频:  14%|█▍        | 28/201 [00:00<00:00, 268.48it/s]
分析音频:  29%|██▉       | 58/201 [00:00<00:00, 283.83it/s]
分析音频:  43%|████▎     | 87/201 [00:00<00:00, 281.59it/s]
分析音频:  60%|█████▉    | 120/201 [00:00<00:00, 297.76it/s]
分析音频:  75%|███████▍  | 150/201 [00:00<00:00, 294.95it/s]
分析音频:  90%|████████▉ | 180/201 [00:00<00:00, 289.50it/s]
                                                            

音频分析报告 说话人: 小乔:
--------------------------------------------------
分析的音频文件总数: 201

音量统计:

Mean Norm:
  mean: 0.052
  std: 0.019
  min: 0.012
  max: 0.135

RMS Amplitude:
  mean: 0.086
  std: 0.030
  min: 0.024
  max: 0.209

Max Amplitude:
  mean: 0.495
  std: 0.143
  min: 0.163
  max: 0.943
处理说话人:   4%|▍         | 2/49 [00:02<01:09,  1.49s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.052
2. 平衡设置 (确保清晰度): target_db = 0.071
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/小乔

分析说话人: 赵云

分析音频:   0%|          | 0/142 [00:00<?, ?it/s]
分析音频:  20%|█▉        | 28/142 [00:00<00:00, 270.67it/s]
分析音频:  42%|████▏     | 60/142 [00:00<00:00, 294.19it/s]
分析音频:  63%|██████▎   | 90/142 [00:00<00:00, 291.33it/s]
分析音频:  85%|████████▍ | 120/142 [00:00<00:00, 283.42it/s]
                                                            

音频分析报告 说话人: 赵云:
--------------------------------------------------
分析的音频文件总数: 142

音量统计:

Mean Norm:
  mean: 0.050
  std: 0.019
  min: 0.018
  max: 0.124

RMS Amplitude:
  mean: 0.089
  std: 0.031
  min: 0.039
  max: 0.193

Max Amplitude:
  mean: 0.603
  std: 0.182
  min: 0.339
  max: 1.000
处理说话人:   6%|▌         | 3/49 [00:04<01:06,  1.45s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.050
2. 平衡设置 (确保清晰度): target_db = 0.070
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/赵云
...

關鍵指標解釋：

1。平均規範

實際意義：
- 反映整體響度的音頻水平
- 表示音頻信號的平均絕對幅度
- 值範圍通常在0-1之間
價值含義：
- 更高的值=大聲的總體看法
- 較低的值=整體感知較軟
- 理想範圍通常在0.1-0.3之間
應用程序方案：
- 用於評估整體響度是否合適
- 有助於確定是否需要數量增益

2。 RMS振幅

實際意義：
- 反映有效的音頻能量水平
- 更接近人耳的響亮感
- 考慮隨著時間的推移能量分佈
價值含義：
- 更高的值=更強的音頻能量
- 較低的值=較弱的音頻能量
- 專業音頻通常建議在0.1-0.4之間
應用程序方案：
- 評估音頻動態範圍
- 確定音頻是否需要壓縮或擴展
- 通常用於音頻歸一化

3。最大振幅

實際意義：
- 反映音頻的峰值水平
- 表示信號的最大瞬時值
- 用於確定是否存在剪裁
價值含義：
- 1.0 =數字音頻的最大可能值（潛在剪輯）
- 推薦的峰值控制低於0.9
- 太低（例如，<0.5）表明音頻可能太軟
應用程序方案：
- 檢測音頻失真
- 評估音頻淨空
- 指南限制器設置

三個之間的關係

分層關係：
- 最大振幅> RMS振幅>平均標準
- 這是由於他們的計算方法不同
實際應用：
- 平均規範：用於整體評估
- RMS：用於能級控制
- 最大振幅：用於峰值控制

參考理想值

專業音頻生產參考值：
- 平均標準：0.1-0.3
- RMS：0.1-0.4
- 最大振幅：0.8-0.9

使用建議

首先檢查最大振幅以避免剪切
使用RMS確保整體能源合適
參考平均規範以調整總量
在特定應用程序中考慮所有三個指標

這些指標共同幫助我們：

確保音頻質量
保持體積一致性
避免失真和噪音
優化聆聽體驗

2。音頻歸一化

該解決方案的關鍵特徵：

使用Sox的標準效應來標準化
可以處理單個文件或批處理處理整個目錄
默認值將量標準化為-3dB，可根據需要調節
保持原始音頻質量，僅調整音量

用法很簡單：

對於單個文件：直接調用normalize_audio（）函數
對於整個目錄：使用batch_normalize_directory（）函數處理後的音頻文件應具有更多均勻的音量級別，從而解決了不一致的響度問題。如果整體音量仍然感覺太低或太高，請調整target_db參數。

 from tts_audio_normalizer import AudioProcessingParams , TTSAudioNormalizer

# Create parameter object and customize parameters
params = AudioProcessingParams ()
params . noise_reduction_strength = 0.8  # Increase noise reduction intensity
params . target_db = - 3  # Set target volume

# Process single file
#normalizer.normalize_audio("input.wav", "output.wav", params)

# Batch process directory
normalizer . batch_normalize_directory (
    input_dir = "./audio_segments" ,
    output_dir = "./audio_segments_normalized" ,
    params = params ,
    max_workers = 4
)

參數配置指南

1。基本參數

 # Basic format settings
rate : int = 44100            # Sample rate
channels : int = 1            # Number of channels
output_format : str = 'wav'   # Output format
target_db : float = - 3.0      # Target volume

2。聲音質量優化參數

 # Equalizer settings
equalizer_enabled : bool = True    # Enable equalizer
treble_frequency : float = 3000.0  # Treble center (2-8kHz)
mid_frequency : float = 1000.0     # Mid center (250Hz-2kHz)
bass_frequency : float = 100.0     # Bass center (80-250Hz)

3。降低降噪參數

 # Noise processing
subsonic_filter_enabled : bool = True  # Subsonic filtering
compression_ratio : float = 2.5        # Compression ratio
threshold_db : float = - 15.0          # Noise threshold

場景優化建議

1。語音類型改編

語音類型	推薦參數
男性	bass_gain = 2.0，mid_frequency = 1200Hz
女性	treble_gain = 1.5，bass_gain = 1.5
孩子	mid_gain = 1.5，bass_gain = 1.0

2。限製配置

壓縮水平	參數組合
輕度壓縮	threshold_db = -20，比率= 2，攻擊= 0.3s
中等壓縮	threshold_db = -25，比率= 3，攻擊= 0.2s
重壓	threshold_db = -30，比率= 4，攻擊= 0.1s