TTSAudioNormalizerダウンロードTTSAudioNormalizerソースコードのダウンロード

TTSAudioNormalizer

AI ソースコード

1.0.0

ダウンロード

TTSAUDIONOMALIZER

中文文档

TTSAUDIONOMALIZERは、包括的なオーディオ分析と標準化処理機能を提供するプロフェッショナルTTSオーディオ前処理ツールです。このツールは、TTSトレーニングデータの品質を改善し、オーディオ機能の一貫性を確保することを目的としています。

TTSオーディオ標準化の必要性

I.モデルトレーニング効果を改善します

1。学習プロセスを最適化します

統一されたボリュームレベルは、モデルがボリュームの違いに気を取られるのではなく、音声機能の学習に集中するのに役立ちます
標準化されたデータは、モデルがより速く収束し、トレーニング時間を短縮するのに役立ちます
モデルが誤った機能を学習するリスクを軽減します

2。訓練の異常を防ぎます

大きな違いのために勾配爆発や消失を避けてください
モデルの過剰適合のボリューム機能の可能性を減らします
トレーニングプロセスの安定性を改善します

3.一般化能力を強化します

モデルが重要な音声機能を学習することに焦点を合わせるのを助けます
さまざまなシナリオでモデルの適応性を向上させます
非批判的な機能への依存度を低減します

ii。オーディオ品質を確保します

1。音声の明確さ

周波数応答を最適化し、主要な音声周波数帯域を強調します
子音の明確さを強化し、音声の明確性を改善します
母音の自然さを維持し、音声特性を保存します

2。ノイズコントロール

背景ノイズを削除し、音声純度を改善します
ダイナミックレンジ、バランスボリュームレベルを圧縮します
役に立たない周波数帯域をフィルターし、干渉係数を減らします

iii。データの一貫性を確保します

1。技術仕様の均一性

サンプリングレートを統合し、データの品質を確保します
チャネル設定を標準化し、処理フローを簡素化します
オーディオ形式を標準化し、互換性を向上させます

2。機能抽出最適化

特徴の抽出の精度と信頼性を向上させます
異なるサンプル間の比較可能性を向上させます
トレーニングデータの品質の一貫性を確保します

推奨標準化プロセス：

1。基本的な前処理

フォーマット統合
- さまざまなオーディオフォーマットを変換します（例：WAVに）
- フォーマットの互換性を確保します
サンプルレート統合
- サンプリングレートを標準化する（例、22050Hz）
- データの一貫性を維持します
モノチャネル変換
- マルチチャネルオーディオをモノに変換します
- 後続の処理を簡素化します

2。オーディオ品質の最適化？

DCオフセット除去
- オーディオ信号の固定オフセットを排除します
- オーディオの品質を向上させます
ボリューム正規化
- オーディオボリュームレベルを統合します
- ラウドネスの一貫性を確保します
周波数応答の最適化
- 周波数特性を調整します
- オーディオパフォーマンスを最適化します

3。ノイズ処理？

沈黙の除去
- 無効なオーディオセグメントをクリーンアップします
- データ品質を向上させます
ノイズリダクション
- 背景ノイズを排除します
- オーディオの透明度を向上させます
ダイナミックレンジ圧縮
- オーディオダイナミックレンジのバランス
- 全体的なパフォーマンスを向上させます

4。品質チェック✅

品質検証
- 処理されたオーディオ品質を確認してください
- トレーニング要件が満たされていることを確認してください
機能検証
- オーディオ機能パラメーターを確認します
- 効果的な機能抽出を保証します

処理フロー図：

Input Audio ➡️ Basic Preprocessing ➡️ Quality Optimization ➡️ Noise Processing ➡️ Quality Check Output Audio

重要なメモ：

各ステップの処理ログを維持します
キーポイントで品質チェックを実行します
オリジナルのオーディオバックアップを保管してください
特定のアプリケーションシナリオに基づいてパラメーターを調整します

主な関数

1。オーディオ分析

詳細なラウドネス統計レポートを生成します
ボリューム分布の視覚化を提供します
出力パラメーター最適化の提案

 from audio_analyzer import AudioAnalyzer

analyzer = AudioAnalyzer ()
results = analyzer . analyze_speaker_directory (
    base_dir = "raw_voices" ,  # Nested folders, i.e., a main folder containing several subfolders (with audio files)
    output_dir = "analysis_report" ,
    max_workers = 16
)

結果：

发现 49 个说话人目录
处理说话人:   0%|          | 0/49 [00:00<?, ?it/s]

分析说话人: 廉颇

分析音频:   0%|          | 0/118 [00:00<?, ?it/s]
分析音频:  25%|██▌       | 30/118 [00:00<00:00, 289.97it/s]
分析音频:  53%|█████▎    | 62/118 [00:00<00:00, 299.46it/s]
分析音频:  78%|███████▊  | 92/118 [00:00<00:00, 298.95it/s]
                                                           

音频分析报告 说话人: 廉颇:
--------------------------------------------------
分析的音频文件总数: 118

音量统计:

Mean Norm:
  mean: 0.053
  std: 0.010
  min: 0.032
  max: 0.082

RMS Amplitude:
  mean: 0.089
  std: 0.015
  min: 0.057
  max: 0.131

Max Amplitude:
  mean: 0.546
  std: 0.123
  min: 0.293
  max: 0.882
处理说话人:   2%|▏         | 1/49 [00:01<01:03,  1.31s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.053
2. 平衡设置 (确保清晰度): target_db = 0.063
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/廉颇

分析说话人: 小乔

分析音频:   0%|          | 0/201 [00:00<?, ?it/s]
分析音频:  14%|█▍        | 28/201 [00:00<00:00, 268.48it/s]
分析音频:  29%|██▉       | 58/201 [00:00<00:00, 283.83it/s]
分析音频:  43%|████▎     | 87/201 [00:00<00:00, 281.59it/s]
分析音频:  60%|█████▉    | 120/201 [00:00<00:00, 297.76it/s]
分析音频:  75%|███████▍  | 150/201 [00:00<00:00, 294.95it/s]
分析音频:  90%|████████▉ | 180/201 [00:00<00:00, 289.50it/s]
                                                            

音频分析报告 说话人: 小乔:
--------------------------------------------------
分析的音频文件总数: 201

音量统计:

Mean Norm:
  mean: 0.052
  std: 0.019
  min: 0.012
  max: 0.135

RMS Amplitude:
  mean: 0.086
  std: 0.030
  min: 0.024
  max: 0.209

Max Amplitude:
  mean: 0.495
  std: 0.143
  min: 0.163
  max: 0.943
处理说话人:   4%|▍         | 2/49 [00:02<01:09,  1.49s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.052
2. 平衡设置 (确保清晰度): target_db = 0.071
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/小乔

分析说话人: 赵云

分析音频:   0%|          | 0/142 [00:00<?, ?it/s]
分析音频:  20%|█▉        | 28/142 [00:00<00:00, 270.67it/s]
分析音频:  42%|████▏     | 60/142 [00:00<00:00, 294.19it/s]
分析音频:  63%|██████▎   | 90/142 [00:00<00:00, 291.33it/s]
分析音频:  85%|████████▍ | 120/142 [00:00<00:00, 283.42it/s]
                                                            

音频分析报告 说话人: 赵云:
--------------------------------------------------
分析的音频文件总数: 142

音量统计:

Mean Norm:
  mean: 0.050
  std: 0.019
  min: 0.018
  max: 0.124

RMS Amplitude:
  mean: 0.089
  std: 0.031
  min: 0.039
  max: 0.193

Max Amplitude:
  mean: 0.603
  std: 0.182
  min: 0.339
  max: 1.000
处理说话人:   6%|▌         | 3/49 [00:04<01:06,  1.45s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.050
2. 平衡设置 (确保清晰度): target_db = 0.070
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/赵云
...

重要なメトリック説明：

1。平均規範

実用的な意味：
- オーディオの全体的なラウドネスレベルを反映しています
- オーディオ信号の平均絶対振幅を表します
- 通常、値の範囲は0-1です
価値の意味：
- 高い値=全体的な知覚が大きい
- 値が低い=全体的な知覚が柔らかい
- 通常、理想的な範囲は0.1-0.3です
アプリケーションシナリオ：
- 全体的なラウドネスが適切かどうかを評価するために使用されます
- ボリュームゲインが必要かどうかを判断するのに役立ちます

2。RMS振幅

実用的な意味：
- オーディオの効果的なエネルギーレベルを反映しています
- 人間の耳の大音量の認識に近い
- 時間の経過とともにエネルギー分布を考慮します
価値の意味：
- より高い値=より強いオーディオエネルギー
- 値が低い=弱いオーディオエネルギー
- 通常、0.1-0.4の間で推奨されるプロフェッショナルオーディオ
アプリケーションシナリオ：
- オーディオダイナミックレンジを評価します
- オーディオが圧縮または拡張が必要かどうかを判断します
- 一般的にオーディオ正規化で使用されます

3。最大振幅

実用的な意味：
- オーディオのピークレベルを反映しています
- 信号の最大瞬間値を表します
- クリッピングが存在するかどうかを判断するために使用されます
価値の意味：
- 1.0 =デジタルオーディオの最大値（潜在的なクリッピング）
- 0.9未満の推奨ピーク制御
- 低すぎる（例：<0.5）は、オーディオが柔らかすぎる可能性があることを示しています
アプリケーションシナリオ：
- オーディオの歪みを検出します
- オーディオヘッドルームを評価します
- リミッター設定をガイドします

3つの関係

階層的な関係：
- 最大振幅> rms振幅>平均標準
- これは、異なる計算方法によるものです
実用アプリケーション：
- 平均規範：全体のボリューム評価に使用されます
- RMS：エネルギーレベル制御に使用
- 最大振幅：ピーク制御に使用

理想的な値を参照してください

プロフェッショナルオーディオ制作の参照値：
- 平均規範：0.1-0.3
- RMS：0.1-0.4
- 最大振幅：0.8-0.9

使用法の推奨事項

最初に最大振幅をチェックして、クリッピングを避けます
RMSを使用して、全体的なエネルギーが適切であることを確認します
参照平均基準全体のボリュームを調整します
特定のアプリケーションのコンテキストで3つの指標すべてを検討してください

これらのインジケーターは私たちを助けるために協力しています：

オーディオ品質を確保します
ボリュームの一貫性を維持します
歪みやノイズを避けてください
リスニングエクスペリエンスを最適化します

2。オーディオ正規化

このソリューションの主な機能：

オーディオ正規化にSOXのノルム効果を使用します
単一のファイルを処理したり、ディレクトリ全体を処理できます
デフォルトは、必要に応じて調整可能なボリュームを-3dBに正規化することです
元のオーディオ品質を維持し、ボリュームのみを調整します

使用法は簡単です：

単一ファイルの場合：直接normalize_audio（）関数を呼び出します
ディレクトリ全体で：batch_normalize_directory（）関数を使用すると、処理されたオーディオファイルはより均一なボリュームレベルを持ち、一貫性のないラウドネスの問題を解決する必要があります。全体のボリュームがまだ低すぎるか、高いと感じられる場合は、Target_DBパラメーターを調整します。

 from tts_audio_normalizer import AudioProcessingParams , TTSAudioNormalizer

# Create parameter object and customize parameters
params = AudioProcessingParams ()
params . noise_reduction_strength = 0.8  # Increase noise reduction intensity
params . target_db = - 3  # Set target volume

# Process single file
#normalizer.normalize_audio("input.wav", "output.wav", params)

# Batch process directory
normalizer . batch_normalize_directory (
    input_dir = "./audio_segments" ,
    output_dir = "./audio_segments_normalized" ,
    params = params ,
    max_workers = 4
)

パラメーター構成ガイド

1。基本パラメーター

 # Basic format settings
rate : int = 44100            # Sample rate
channels : int = 1            # Number of channels
output_format : str = 'wav'   # Output format
target_db : float = - 3.0      # Target volume

2。音質最適化パラメーター

 # Equalizer settings
equalizer_enabled : bool = True    # Enable equalizer
treble_frequency : float = 3000.0  # Treble center (2-8kHz)
mid_frequency : float = 1000.0     # Mid center (250Hz-2kHz)
bass_frequency : float = 100.0     # Bass center (80-250Hz)

3。ノイズ低減パラメーター

 # Noise processing
subsonic_filter_enabled : bool = True  # Subsonic filtering
compression_ratio : float = 2.5        # Compression ratio
threshold_db : float = - 15.0          # Noise threshold

シーンの最適化の推奨事項

1。音声タイプの適応

音声タイプ	推奨されたパラメーター
男	bass_gain = 2.0、mid_frequency = 1200hz
女性	treble_gain = 1.5、bass_gain = 1.5
子供	mid_gain = 1.5、bass_gain = 1.0

2。リミッター構成

圧縮レベル	パラメーターの組み合わせ
軽度の圧縮	threshold_db = -20、比率= 2、攻撃= 0.3s
中程度の圧縮	threshold_db = -25、比率= 3、攻撃= 0.2秒
重い圧縮	threshold_db = -30、比率= 4、攻撃= 0.1秒