TTSAudioNormalizer 다운로드 TTSAudioNormalizer 소스 코드 다운로드

TTSAudioNormalizer

AI 소스 코드

1.0.0

다운로드

ttsaudionormalizer

中文文档

Ttsaudionormalizer는 포괄적 인 오디오 분석 및 표준화 처리 기능을 제공하는 전문 TTS 오디오 전처리 도구입니다. 이 도구는 TTS 교육 데이터 품질을 향상시키고 오디오 기능의 일관성을 보장하는 것을 목표로합니다.

TTS 오디오 표준화의 필요성

I. 모델 교육 효과를 향상시킵니다

1. 학습 과정을 최적화하십시오

통합 볼륨 레벨은 모델이 볼륨 차이로 산만하지 않고 음성 기능 학습에 초점을 맞추는 데 도움이됩니다.
표준화 된 데이터는 모델이 더 빠르게 수렴하여 교육 시간을 줄이는 데 도움이됩니다
모델이 잘못된 기능을 학습 할 위험이 줄어 듭니다

2. 훈련 이상을 방지하십시오

대량 차이로 인해 그라디언트 폭발 또는 사라지는 것을 피하십시오.
모델과 적합성을 볼륨 기능에 적합한 가능성을 줄입니다
교육 프로세스 안정성을 향상시킵니다

3. 일반화 능력 향상

모델이 필수 연설 기능 학습에 중점을 둡니다
다른 시나리오에서 모델 적응성을 향상시킵니다
비 임계 기능에 대한 의존성을 줄입니다

II. 오디오 품질을 보장하십시오

1. 말하기 명확성

주파수 응답 최적화, 주요 음성 주파수 대역을 강조하십시오
자음 선명도를 향상시키고 음성 명료성을 향상시킵니다
모음 자연을 유지하고 음성 특성을 보존하십시오

2. 소음 제어

배경 소음을 제거하고 음성 순도를 향상시킵니다
동적 범위, 균형 볼륨 레벨을 압축합니다
쓸모없는 주파수 대역을 필터링하고 간섭 요인을 줄입니다

III. 데이터 일관성을 보장합니다

1. 기술 사양 균일 성

샘플링 속도를 통합하고 데이터 품질을 보장합니다
채널 설정을 표준화하고 처리 흐름을 단순화하십시오
오디오 형식을 표준화하고 호환성을 향상시킵니다

2. 기능 추출 최적화

기능 추출 정확도 및 신뢰성을 향상시킵니다
다른 샘플 간의 비교 가능성을 향상시킵니다
교육 데이터 품질 일관성을 보장합니다

권장 표준화 프로세스 :

1. 기본 전처리

형식 통일
- 다른 오디오 형식 (예 : wav) 변환
- 형식 호환성을 확인하십시오
샘플 속도 통일
- 표준화 샘플링 속도 (예 : 22050Hz)
- 데이터 일관성을 유지하십시오
모노 채널 변환
- 다 채널 오디오를 모노로 변환하십시오
- 후속 처리를 단순화하십시오

2. 오디오 품질 최적화?

DC 오프셋 제거
- 오디오 신호에서 고정 오프셋을 제거합니다
- 오디오 품질을 향상시킵니다
볼륨 정규화
- 오디오 볼륨 레벨을 통합하십시오
- 음량 일관성을 보장하십시오
주파수 응답 최적화
- 주파수 특성을 조정하십시오
- 오디오 성능을 최적화합니다

3. 소음 처리?

침묵 제거
- 유효하지 않은 오디오 세그먼트를 정리하십시오
- 데이터 품질 향상
소음 감소
- 배경 노이즈를 제거합니다
- 오디오 선명도를 향상시킵니다
동적 범위 압축
- 오디오 동적 범위의 균형
- 전반적인 성능 향상

4. 품질 점검 ✅

품질 검증
- 처리 된 오디오 품질을 확인하십시오
- 훈련 요구 사항이 충족되도록하십시오
기능 검증
- 오디오 기능 매개 변수를 확인하십시오
- 효과적인 기능 추출을 보장합니다

흐름도 처리 :

Input Audio ➡️ Basic Preprocessing ➡️ Quality Optimization ➡️ Noise Processing ➡️ Quality Check ➡️ Output Audio

중요한 메모 :

각 단계에 대한 처리 로그를 유지하십시오
핵심 포인트에서 품질 검사를 수행하십시오
원래 오디오 백업을 유지하십시오
특정 응용 프로그램 시나리오에 따라 매개 변수를 조정하십시오

주요 기능

1. 오디오 분석

자세한 음량 통계 보고서를 생성하십시오
볼륨 분포 시각화를 제공합니다
출력 매개 변수 최적화 제안

 from audio_analyzer import AudioAnalyzer

analyzer = AudioAnalyzer ()
results = analyzer . analyze_speaker_directory (
    base_dir = "raw_voices" ,  # Nested folders, i.e., a main folder containing several subfolders (with audio files)
    output_dir = "analysis_report" ,
    max_workers = 16
)

결과:

发现 49 个说话人目录
处理说话人:   0%|          | 0/49 [00:00<?, ?it/s]

分析说话人: 廉颇

分析音频:   0%|          | 0/118 [00:00<?, ?it/s]
分析音频:  25%|██▌       | 30/118 [00:00<00:00, 289.97it/s]
分析音频:  53%|█████▎    | 62/118 [00:00<00:00, 299.46it/s]
分析音频:  78%|███████▊  | 92/118 [00:00<00:00, 298.95it/s]
                                                           

音频分析报告 说话人: 廉颇:
--------------------------------------------------
分析的音频文件总数: 118

音量统计:

Mean Norm:
  mean: 0.053
  std: 0.010
  min: 0.032
  max: 0.082

RMS Amplitude:
  mean: 0.089
  std: 0.015
  min: 0.057
  max: 0.131

Max Amplitude:
  mean: 0.546
  std: 0.123
  min: 0.293
  max: 0.882
处理说话人:   2%|▏         | 1/49 [00:01<01:03,  1.31s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.053
2. 平衡设置 (确保清晰度): target_db = 0.063
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/廉颇

分析说话人: 小乔

分析音频:   0%|          | 0/201 [00:00<?, ?it/s]
分析音频:  14%|█▍        | 28/201 [00:00<00:00, 268.48it/s]
分析音频:  29%|██▉       | 58/201 [00:00<00:00, 283.83it/s]
分析音频:  43%|████▎     | 87/201 [00:00<00:00, 281.59it/s]
分析音频:  60%|█████▉    | 120/201 [00:00<00:00, 297.76it/s]
分析音频:  75%|███████▍  | 150/201 [00:00<00:00, 294.95it/s]
分析音频:  90%|████████▉ | 180/201 [00:00<00:00, 289.50it/s]
                                                            

音频分析报告 说话人: 小乔:
--------------------------------------------------
分析的音频文件总数: 201

音量统计:

Mean Norm:
  mean: 0.052
  std: 0.019
  min: 0.012
  max: 0.135

RMS Amplitude:
  mean: 0.086
  std: 0.030
  min: 0.024
  max: 0.209

Max Amplitude:
  mean: 0.495
  std: 0.143
  min: 0.163
  max: 0.943
处理说话人:   4%|▍         | 2/49 [00:02<01:09,  1.49s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.052
2. 平衡设置 (确保清晰度): target_db = 0.071
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/小乔

分析说话人: 赵云

分析音频:   0%|          | 0/142 [00:00<?, ?it/s]
分析音频:  20%|█▉        | 28/142 [00:00<00:00, 270.67it/s]
分析音频:  42%|████▏     | 60/142 [00:00<00:00, 294.19it/s]
分析音频:  63%|██████▎   | 90/142 [00:00<00:00, 291.33it/s]
分析音频:  85%|████████▍ | 120/142 [00:00<00:00, 283.42it/s]
                                                            

音频分析报告 说话人: 赵云:
--------------------------------------------------
分析的音频文件总数: 142

音量统计:

Mean Norm:
  mean: 0.050
  std: 0.019
  min: 0.018
  max: 0.124

RMS Amplitude:
  mean: 0.089
  std: 0.031
  min: 0.039
  max: 0.193

Max Amplitude:
  mean: 0.603
  std: 0.182
  min: 0.339
  max: 1.000
处理说话人:   6%|▌         | 3/49 [00:04<01:06,  1.45s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.050
2. 平衡设置 (确保清晰度): target_db = 0.070
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/赵云
...

주요 메트릭 설명 :

1. 평균 표준

실질적인 중요성 :
- 오디오의 전반적인 음량 수준을 반영합니다
- 오디오 신호의 평균 절대 진폭을 나타냅니다
- 값 범위는 일반적으로 0-1 사이입니다
가치 의미 :
- 더 높은 가치 = 전체 인식이 커집니다
- 낮은 값 = 전체 인식이 더 부드럽습니다
- 이상적인 범위는 일반적으로 0.1-0.3 사이입니다
응용 프로그램 시나리오 :
- 전반적인 음량이 적절한 지 평가하는 데 사용됩니다
- 볼륨 게인이 필요한지 확인하는 데 도움이됩니다

2. RMS 진폭

실질적인 중요성 :
- 효과적인 에너지 수준의 오디오를 반영합니다
- 인간 귀가 음량에 대한 인식에 더 가깝습니다
- 시간이 지남에 따라 에너지 분포를 고려합니다
가치 의미 :
- 더 높은 가치 = 더 강한 오디오 에너지
- 낮은 가치 = 약한 오디오 에너지
- 전문 오디오는 일반적으로 0.1-0.4 사이에서 권장됩니다
응용 프로그램 시나리오 :
- 오디오 동적 범위를 평가합니다
- 오디오에 압축 또는 확장이 필요한지 확인하십시오
- 오디오 정규화에 일반적으로 사용됩니다

3. 최대 진폭

실질적인 중요성 :
- 오디오의 피크 레벨을 반영합니다
- 신호의 최대 순간 값을 나타냅니다
- 클리핑이 존재하는지 확인하는 데 사용됩니다
가치 의미 :
- 1.0 = 디지털 오디오의 최대 가능한 값 (잠재적 클리핑)
- 0.9 미만의 권장 피크 컨트롤
- 너무 낮음 (예 : <0.5)은 오디오가 너무 부드러울 수 있음을 나타냅니다.
응용 프로그램 시나리오 :
- 오디오 왜곡을 감지하십시오
- 오디오 헤드 룸을 평가하십시오
- 가이드 리미터 설정

세 사이의 관계

계층 적 관계 :
- 최대 진폭> RMS 진폭> 평균 표준
- 이것은 다른 계산 방법 때문입니다
실제 응용 프로그램 :
- 평균 규범 : 전체 볼륨 평가에 사용됩니다
- RMS : 에너지 수준 제어에 사용됩니다
- 최대 진폭 : 피크 제어에 사용됩니다

이상적인 값을 참조하십시오

전문 오디오 프로덕션 참조 값 :
- 평균 규범 : 0.1-0.3
- RMS : 0.1-0.4
- 최대 진폭 : 0.8-0.9

사용 권장 사항

먼저 클리핑을 피하기 위해 최대 진폭을 점검하십시오
RMS를 사용하여 전반적인 에너지가 적절한 지 확인하십시오
참조 평균 전체 볼륨을 조정하는 평균 표준
특정 응용 프로그램의 맥락에서 세 가지 지표를 모두 고려하십시오

이 지표는 우리를 돕기 위해 함께 작동합니다.

오디오 품질을 보장하십시오
볼륨 일관성을 유지하십시오
왜곡과 소음을 피하십시오
청취 경험을 최적화하십시오

2. 오디오 정규화

이 솔루션의 주요 기능 :

오디오 정규화를 위해 SOX의 표준 효과를 사용합니다
단일 파일 또는 배치 프로세스 전체 디렉토리를 처리 할 수 있습니다
기본값은 볼륨을 -3dB로 정규화하고 필요에 따라 조정 가능합니다
원래 오디오 품질을 유지하고 볼륨 만 조정합니다

사용량은 간단합니다.

단일 파일의 경우 : 직접 Cornamize_audio () 함수를 호출하십시오
전체 디렉토리의 경우 : batch_normanize_directory () 함수 사용 처리 된 오디오 파일에는 균일 한 볼륨 레벨이 있어야하므로 일관성이없는 음량 문제를 해결해야합니다. 전체 볼륨이 여전히 너무 낮거나 높으면 Target_DB 매개 변수를 조정하십시오.

 from tts_audio_normalizer import AudioProcessingParams , TTSAudioNormalizer

# Create parameter object and customize parameters
params = AudioProcessingParams ()
params . noise_reduction_strength = 0.8  # Increase noise reduction intensity
params . target_db = - 3  # Set target volume

# Process single file
#normalizer.normalize_audio("input.wav", "output.wav", params)

# Batch process directory
normalizer . batch_normalize_directory (
    input_dir = "./audio_segments" ,
    output_dir = "./audio_segments_normalized" ,
    params = params ,
    max_workers = 4
)

매개 변수 구성 안내서

1. 기본 매개 변수

 # Basic format settings
rate : int = 44100            # Sample rate
channels : int = 1            # Number of channels
output_format : str = 'wav'   # Output format
target_db : float = - 3.0      # Target volume

2. 음질 최적화 매개 변수

 # Equalizer settings
equalizer_enabled : bool = True    # Enable equalizer
treble_frequency : float = 3000.0  # Treble center (2-8kHz)
mid_frequency : float = 1000.0     # Mid center (250Hz-2kHz)
bass_frequency : float = 100.0     # Bass center (80-250Hz)

3. 노이즈 감소 매개 변수

 # Noise processing
subsonic_filter_enabled : bool = True  # Subsonic filtering
compression_ratio : float = 2.5        # Compression ratio
threshold_db : float = - 15.0          # Noise threshold

장면 최적화 권장 사항

1. 음성 유형 적응

음성 유형	권장 매개 변수
남성	Bass_gain = 2.0, mid_frequency = 1200Hz
여성	treble_gain = 1.5, bass_gain = 1.5
어린이	mid_gain = 1.5, bass_gain = 1.0

2. 리미터 구성

압축 수준	매개 변수 조합
가벼운 압축	threshold_db = -20, 비율 = 2, 공격 = 0.3s
중간 압축	threshold_db = -25, 비율 = 3, 공격 = 0.2s
무거운 압축	threshold_db = -30, 비율 = 4, 공격 = 0.1s