تنزيل TTSAudioNormalizer - تنزيل رمز TTSAudioNormalizer

TTSAudioNormalizer

كود الذكاء الاصطناعي

1.0.0

تنزيل

ttsaudionormalizer

中文文档

TtsaudionorMalizer هي أداة معالجة صوتية TTS احترافية توفر قدرات شاملة لتحليل الصوت وقدرات معالجة التقييس. تهدف هذه الأداة إلى تحسين جودة بيانات تدريب TTS وضمان الاتساق في ميزات الصوت.

ضرورة توحيد الصوت TTS

1. تحسين آثار التدريب النموذجية

1. تحسين عملية التعلم

تساعد مستويات الحجم الموحدة النماذج على التركيز على ميزات التعلم الكلام بدلاً من أن تصرفها بسبب اختلافات الحجم
تساعد البيانات الموحدة النماذج على التقارب بشكل أسرع ، مما يقلل من وقت التدريب
يقلل من خطر تعلم النماذج ميزات غير صحيحة

2. منع التدريب الشذوذ

تجنب الانفجار التدرج أو التلاشي بسبب اختلافات كبيرة في الحجم
قلل من إمكانية أن يكون النموذج المتفاقم لميزات الحجم
تحسين استقرار عملية التدريب

3. تعزيز قدرة التعميم

تركز نماذج المساعدة على تعلم ميزات الكلام الأساسية
تحسين القدرة على التكيف في النموذج في سيناريوهات مختلفة
تقليل التبعية على الميزات غير الحرجة

الثاني. ضمان جودة الصوت

1. وضوح الكلام

تحسين استجابة التردد ، التأكيد على نطاقات تردد الكلام الرئيسية
تعزيز الوضوح الساكن ، وتحسين وضوح الكلام
الحفاظ على حرف العلة الطبيعي ، الحفاظ على الخصائص الصوتية

2. السيطرة على الضوضاء

إزالة ضوضاء الخلفية ، وتحسين نقاء الكلام
ضغط النطاق الديناميكي ، ومستويات حجم التوازن
تصفية نطاقات تردد عديمة الفائدة ، وتقليل عوامل التداخل

ثالثا. ضمان اتساق البيانات

1. توحيد المواصفات الفنية

توحيد معدل أخذ العينات ، ضمان جودة البيانات
توحيد إعدادات القناة ، تبسيط تدفق المعالجة
توحيد تنسيق الصوت ، وتحسين التوافق

2. تحسين استخراج الميزات

تحسين دقة استخراج الميزات وموثوقيتها
تعزيز المقارنة بين العينات المختلفة
ضمان اتساق جودة بيانات التدريب

عملية التوحيد الموصى بها:

1. المعالجة الأساسية الأساسية

تنسيق التوحيد
- تحويل تنسيقات صوتية مختلفة (على سبيل المثال ، إلى WAV)
- ضمان توافق التنسيق
توحيد معدل العينة
- توحيد معدل أخذ العينات (على سبيل المثال ، 22050 هرتز)
- الحفاظ على اتساق البيانات
تحويل القناة أحادية
- تحويل الصوت متعدد القنوات إلى أحادي
- تبسيط المعالجة اللاحقة

2. تحسين جودة الصوت؟

DC الإزاحة إزالة
- القضاء على الإزاحة الثابتة في إشارات الصوت
- تحسين جودة الصوت
تطبيع الحجم
- توحيد مستويات حجم الصوت
- ضمان الاتساق الصاخب
تحسين استجابة التردد
- ضبط خصائص التردد
- تحسين أداء الصوت

3. معالجة الضوضاء؟

إزالة الصمت
- تنظيف شرائح صوتية غير صالحة
- تعزيز جودة البيانات
الحد من الضوضاء
- القضاء على ضوضاء الخلفية
- تحسين وضوح الصوت
ضغط النطاق الديناميكي
- التوازن بين النطاق الديناميكي الصوتي
- تعزيز الأداء العام

4. فحص الجودة ✅

التحقق من الجودة
- تحقق من جودة الصوت المعالجة
- تأكد من استيفاء متطلبات التدريب
ميزة التحقق من الصحة
- تحقق من معلمات ميزة الصوت
- ضمان استخراج ميزة فعالة

معالجة مخطط التدفق:

Input Audio ➡ Basic Preprocessing ➡ Quality Optimization ➡ Noise Processing ➡ Quality Check ➡ Output Audio

ملاحظات مهمة:

الحفاظ على سجلات المعالجة لكل خطوة
إجراء فحوصات الجودة في النقاط الرئيسية
الحفاظ على النسخ الاحتياطية الصوتية الأصلية
اضبط المعلمات بناءً على سيناريوهات تطبيق محددة

الوظائف الرئيسية

1. تحليل الصوت

توليد تقرير إحصائيات صاخبة مفصلة
توفير تصور توزيع الصوت
اقتراحات تحسين معلمة الإخراج

 from audio_analyzer import AudioAnalyzer

analyzer = AudioAnalyzer ()
results = analyzer . analyze_speaker_directory (
    base_dir = "raw_voices" ,  # Nested folders, i.e., a main folder containing several subfolders (with audio files)
    output_dir = "analysis_report" ,
    max_workers = 16
)

نتائج:

发现 49 个说话人目录
处理说话人:   0%|          | 0/49 [00:00<?, ?it/s]

分析说话人: 廉颇

分析音频:   0%|          | 0/118 [00:00<?, ?it/s]
分析音频:  25%|██▌       | 30/118 [00:00<00:00, 289.97it/s]
分析音频:  53%|█████▎    | 62/118 [00:00<00:00, 299.46it/s]
分析音频:  78%|███████▊  | 92/118 [00:00<00:00, 298.95it/s]
                                                           

音频分析报告 说话人: 廉颇:
--------------------------------------------------
分析的音频文件总数: 118

音量统计:

Mean Norm:
  mean: 0.053
  std: 0.010
  min: 0.032
  max: 0.082

RMS Amplitude:
  mean: 0.089
  std: 0.015
  min: 0.057
  max: 0.131

Max Amplitude:
  mean: 0.546
  std: 0.123
  min: 0.293
  max: 0.882
处理说话人:   2%|▏         | 1/49 [00:01<01:03,  1.31s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.053
2. 平衡设置 (确保清晰度): target_db = 0.063
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/廉颇

分析说话人: 小乔

分析音频:   0%|          | 0/201 [00:00<?, ?it/s]
分析音频:  14%|█▍        | 28/201 [00:00<00:00, 268.48it/s]
分析音频:  29%|██▉       | 58/201 [00:00<00:00, 283.83it/s]
分析音频:  43%|████▎     | 87/201 [00:00<00:00, 281.59it/s]
分析音频:  60%|█████▉    | 120/201 [00:00<00:00, 297.76it/s]
分析音频:  75%|███████▍  | 150/201 [00:00<00:00, 294.95it/s]
分析音频:  90%|████████▉ | 180/201 [00:00<00:00, 289.50it/s]
                                                            

音频分析报告 说话人: 小乔:
--------------------------------------------------
分析的音频文件总数: 201

音量统计:

Mean Norm:
  mean: 0.052
  std: 0.019
  min: 0.012
  max: 0.135

RMS Amplitude:
  mean: 0.086
  std: 0.030
  min: 0.024
  max: 0.209

Max Amplitude:
  mean: 0.495
  std: 0.143
  min: 0.163
  max: 0.943
处理说话人:   4%|▍         | 2/49 [00:02<01:09,  1.49s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.052
2. 平衡设置 (确保清晰度): target_db = 0.071
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/小乔

分析说话人: 赵云

分析音频:   0%|          | 0/142 [00:00<?, ?it/s]
分析音频:  20%|█▉        | 28/142 [00:00<00:00, 270.67it/s]
分析音频:  42%|████▏     | 60/142 [00:00<00:00, 294.19it/s]
分析音频:  63%|██████▎   | 90/142 [00:00<00:00, 291.33it/s]
分析音频:  85%|████████▍ | 120/142 [00:00<00:00, 283.42it/s]
                                                            

音频分析报告 说话人: 赵云:
--------------------------------------------------
分析的音频文件总数: 142

音量统计:

Mean Norm:
  mean: 0.050
  std: 0.019
  min: 0.018
  max: 0.124

RMS Amplitude:
  mean: 0.089
  std: 0.031
  min: 0.039
  max: 0.193

Max Amplitude:
  mean: 0.603
  std: 0.182
  min: 0.339
  max: 1.000
处理说话人:   6%|▌         | 3/49 [00:04<01:06,  1.45s/it]

推荐的target_db值:
1. 保守设置 (保持动态范围): target_db = 0.050
2. 平衡设置 (确保清晰度): target_db = 0.070
3. 安全设置: target_db = -3.000

分析结果已保存到: raw_voices/音频分析报告/赵云
...

شرح المقاييس الرئيسية :

1. يعني القاعدة

الأهمية العملية :
- يعكس مستوى الصوت بشكل عام من الصوت
- يمثل متوسط السعة المطلقة للإشارة الصوتية
- نطاق القيمة عادة ما بين 0-1
معنى القيمة :
- قيمة أعلى = التصور الكلي بصوت أعلى
- القيمة المنخفضة = الإدراك الكلي أكثر ليونة
- النطاق المثالي عادة ما بين 0.1-0.3
سيناريوهات التطبيق :
- تستخدم لتقييم ما إذا كان الصوت الصاخب المناسب مناسبًا
- يساعد في تحديد ما إذا كانت هناك حاجة إلى زيادة حجم الصوت

2. RMS السعة

الأهمية العملية :
- يعكس مستوى الطاقة الفعال للصوت
- أقرب إلى تصور الأذن البشرية للصوت
- يعتبر توزيع الطاقة مع مرور الوقت
معنى القيمة :
- قيمة أعلى = طاقة صوتية أقوى
- قيمة أقل = طاقة صوتية أضعف
- الموصى بها عادة ما بين 0.1-0.4
سيناريوهات التطبيق :
- تقييم النطاق الديناميكي الصوتي
- تحديد ما إذا كان الصوت يحتاج إلى ضغط أو توسيع
- استخدام شائع في تطبيع الصوت

3. الحد الأقصى السعة

الأهمية العملية :
- يعكس مستويات الذروة في الصوت
- يمثل أقصى قيمة لحظية للإشارة
- تستخدم لتحديد ما إذا كان القطع موجود
معنى القيمة :
- 1.0 = أقصى قيمة ممكنة للصوت الرقمي (القطع المحتمل)
- التحكم في الذروة الموصى به أقل من 0.9
- يشير منخفضة جدًا (على سبيل المثال ، <0.5) إلى أن الصوت قد يكون ناعمًا جدًا
سيناريوهات التطبيق :
- اكتشاف تشويه الصوت
- تقييم صوتية صوتية
- دليل إعدادات المحدد

العلاقة بين الثلاثة

العلاقة الهرمية :
- Max Amplitude> RMS Amplitude> يعني المعيار
- هذا بسبب طرق حسابهم المختلفة
التطبيق العملي :
- يعني المعيار: يستخدم لتقييم الحجم الكلي
- RMS: يستخدم للتحكم في مستوى الطاقة
- السعة القصوى: تستخدم للتحكم في الذروة

مرجع القيم المثالية

القيم المرجعية لإنتاج الصوت المهني :
- يعني المعيار: 0.1-0.3
- RMS: 0.1-0.4
- الحد الأقصى لسعة: 0.8-0.9

توصيات الاستخدام

تحقق أولاً من السعة القصوى لتجنب القطع
استخدام RMS لضمان أن تكون الطاقة الإجمالية مناسبة
متوسط المرجع المعيار لضبط الحجم الكلي
النظر في جميع المؤشرات الثلاثة في سياق تطبيق محدد

هذه المؤشرات تعمل معًا لمساعدتنا:

ضمان جودة الصوت
الحفاظ على اتساق الحجم
تجنب التشويه والضوضاء
تحسين تجربة الاستماع

2. تطبيع الصوت

الميزات الرئيسية لهذا الحل:

يستخدم تأثير Sox المعياري لتطبيع الصوت
يمكن معالجة الملفات الفردية أو عملية الدُفعات بأكملها أدلة
الإعدادات الافتراضية لتطبيع الصوت إلى -3db ، قابل للتعديل حسب الحاجة
يحافظ على جودة الصوت الأصلية ، ويقوم فقط بضبط مستوى الصوت

الاستخدام بسيط:

للحصول على ملف واحد: استدعاء مباشرة وظيفة abority_audio ()
بالنسبة للدليل بأكمله: استخدم وظيفة Batch_Normalize_Directory () يجب أن تحتوي ملفات الصوت المعالجة على مستويات حجم أكثر موحدة ، مما يحل مسألة الصوت غير المتسق. إذا كان الحجم الكلي لا يزال منخفضًا جدًا أو مرتفعًا ، فاضبط معلمة Target_DB.

 from tts_audio_normalizer import AudioProcessingParams , TTSAudioNormalizer

# Create parameter object and customize parameters
params = AudioProcessingParams ()
params . noise_reduction_strength = 0.8  # Increase noise reduction intensity
params . target_db = - 3  # Set target volume

# Process single file
#normalizer.normalize_audio("input.wav", "output.wav", params)

# Batch process directory
normalizer . batch_normalize_directory (
    input_dir = "./audio_segments" ,
    output_dir = "./audio_segments_normalized" ,
    params = params ,
    max_workers = 4
)

دليل تكوين المعلمة

1. المعلمات الأساسية

 # Basic format settings
rate : int = 44100            # Sample rate
channels : int = 1            # Number of channels
output_format : str = 'wav'   # Output format
target_db : float = - 3.0      # Target volume

2. معلمات تحسين جودة الصوت

 # Equalizer settings
equalizer_enabled : bool = True    # Enable equalizer
treble_frequency : float = 3000.0  # Treble center (2-8kHz)
mid_frequency : float = 1000.0     # Mid center (250Hz-2kHz)
bass_frequency : float = 100.0     # Bass center (80-250Hz)

3. معلمات تقليل الضوضاء

 # Noise processing
subsonic_filter_enabled : bool = True  # Subsonic filtering
compression_ratio : float = 2.5        # Compression ratio
threshold_db : float = - 15.0          # Noise threshold

توصيات تحسين المشهد

1. التكيف نوع الصوت

نوع الصوت	المعلمات الموصى بها
ذكر	bass_gain = 2.0 ، mid_frequency = 1200Hz
أنثى	treble_gain = 1.5 ، bass_gain = 1.5
طفل	mid_gain = 1.5 ، bass_gain = 1.0

2. تكوين المحدد

مستوى الضغط	مجموعة المعلمة
ضغط معتدل	Threshold_DB = -20 ، نسبة = 2 ، الهجوم = 0.3s
ضغط متوسط	Threshold_DB = -25 ، نسبة = 3 ، الهجوم = 0.2s
ضغط ثقيل	Threshold_DB = -30 ، نسبة = 4 ، الهجوم = 0.1s

3. تكوين المعادل

هدف جودة الصوت	مجموعة المعلمة
تعزيز الصوت	ثلاثي = 2.0 ، باس = 1.0
تعزيز الوضوح	ثلاثي = 3.0 ، باس = -1.0
لهجة دافئة	Treble = -1.0 ، باس = 2.0