klaam Download - تنزيل رمز المصدر klaam

klaam

كود الذكاء الاصطناعي

1.0.0

تنزيل

كلام

التعرف على الكلام العربي وتصنيفه ونص من النص إلى كلام باستخدام العديد من النماذج المتقدمة مثل Wave2Vec و Fastspeech2. يسمح هذا المستودع بالتدريب والتنبؤ باستخدام نماذج ما قبل المفعول.

1. الاستخدام

1.1 تصنيف الكلام

 from klaam import SpeechClassification
model = SpeechClassification ()
model . classify ( wav_file )

1.2 الكلام recongnition

 from klaam import SpeechRecognition
model = SpeechRecognition ()
model . transcribe ( wav_file )

1.3 رسالة نصية إلى الكلام

 from klaam import TextToSpeech
prepare_tts_model_path = "../cfgs/FastSpeech2/config/Arabic/preprocess.yaml"
model_config_path = "../cfgs/FastSpeech2/config/Arabic/model.yaml"
train_config_path = "../cfgs/FastSpeech2/config/Arabic/train.yaml"
vocoder_config_path = "../cfgs/FastSpeech2/model_config/hifigan/config.json"
speaker_pre_trained_path = "../data/model_weights/hifigan/generator_universal.pth.tar"

model = TextToSpeech ( prepare_tts_model_path , model_config_path , train_config_path , vocoder_config_path , speaker_pre_trained_path )

model . synthesize ( sample_text )

هناك نموذجان قابلان للاعتراف للاعتراف بالعربية المعيارية الحديثة (MSA) واللهجة المصرية (EGY). يمكنك تعيين أي منها باستخدام سمة lang .

 from klaam import SpeechRecognition
model = SpeechRecognition ( lang = 'msa' )
model . transcribe ( 'file.wav' )

2. مجموعات البيانات

مجموعة البيانات	وصف	وصلة
MGB-3	التعرف على الخطاب العربي المصري في البرية. كل جملة تم شرحها من قبل أربعة مراجعات. تم جمع أكثر من 15 ساعة من YouTube.	هنا [التسجيل مطلوب]
ADI-5	أكثر من 50 ساعة تم جمعها من تلفزيون Aljazerera. 4 الجدلية الإقليمية: المصرية (EGY) ، ليفانتين (LAV) ، الخليج (GLF) ، شمال إفريقيا (NOR) ، والعربية المعيارية الحديثة (MSA). مجموعة البيانات هذه هي جزء من تحدي MGB-3.	هنا [التسجيل مطلوب]
صوت مشترك	مجموعة بيانات متعددة اللجنة Avilable على luggingface	هنا.
مجموعة الكلام العربي	مجموعة البيانات العربية مع المحاذاة والنسخ	هنا.

3. النماذج

يدعم مشروعنا حاليًا أربعة نماذج ، ثلاثة منها قابلة للتنقل على المحولات.

لغة	وصف	مصدر
مصري	التعرف على الكلام	WAV2VEC2-LARGE-XLSR-53-ARABIC-EGYPTIAN
العربية القياسية	التعرف على الكلام	WAV2VEC2-LARGE-XLSR-53-ARABIC
egy ، لا ، LAV ، GLF ، MSA	تصنيف الكلام	WAV2VEC2-LARGE-XLSR-Dialect-Classification
العربية القياسية	نص إلى كلام	Fastspeech2

4. مثال دفاتر

اسم	وصف	دفتر
العرض التوضيحي	التصنيف وإعادة التدوين والنص إلى الكلام في بضعة أسطر من التعليمات البرمجية.
العرض التوضيحي مع الميكروفون	إعادة صوتية وتصنيف مع التسجيل.

5. التدريب

البرامج النصية هي تعديل من jqueguiner/wav2vec2-sprint.

5.1. تصنيف

يتم استخدام هذا البرنامج النصي لمهمة التصنيف على الفصول الخمسة.

python run_classifier.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --output_dir=/path/to/output 
    --cache_dir=/path/to/cache/ 
    --freeze_feature_extractor 
    --num_train_epochs= " 50 " 
    --per_device_train_batch_size= " 32 " 
    --preprocessing_num_workers= " 1 " 
    --learning_rate= " 3e-5 " 
    --warmup_steps= " 20 " 
    --evaluation_strategy= " steps " 
    --save_steps= " 100 " 
    --eval_steps= " 100 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 100 " 
    --do_eval 
    --do_train

5.2. تعرُّف

هذا البرنامج النصي هو التدريب على مجموعة البيانات للتدريب على مجموعة بيانات لهجات Egyption.

python run_mgb3.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --output_dir=/path/to/output 
    --cache_dir=/path/to/cache/ 
    --freeze_feature_extractor 
    --num_train_epochs= " 50 " 
    --per_device_train_batch_size= " 32 " 
    --preprocessing_num_workers= " 1 " 
    --learning_rate= " 3e-5 " 
    --warmup_steps= " 20 " 
    --evaluation_strategy= " steps " 
    --save_steps= " 100 " 
    --eval_steps= " 100 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 100 " 
    --do_eval 
    --do_train

يمكن استخدام هذا البرنامج النصي للتدريب الصوتي العربي المشترك

python run_common_voice.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --dataset_config_name= " ar " 
    --output_dir=/path/to/output/ 
    --cache_dir=/path/to/cache 
    --overwrite_output_dir 
    --num_train_epochs= " 1 " 
    --per_device_train_batch_size= " 32 " 
    --per_device_eval_batch_size= " 32 " 
    --evaluation_strategy= " steps " 
    --learning_rate= " 3e-4 " 
    --warmup_steps= " 500 " 
    --fp16 
    --freeze_feature_extractor 
    --save_steps= " 10 " 
    --eval_steps= " 10 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 10 " 
    --group_by_length 
    --feat_proj_dropout= " 0.0 " 
    --layerdrop= " 0.1 " 
    --gradient_checkpointing 
    --do_train --do_eval 
    --max_train_samples 100 --max_val_samples 100

5.3. رسالة نصية إلى الكلام

نستخدم تطبيق Pytorch لـ FastSpeade2 بواسطة Ming024.

الإجراء هو ما يلي:

قم بتنزيل مجموعة البيانات وفك ضغطها.

 wget http://en.arabicspeechcorpus.com/arabic-speech-corpus.zip
unzip arabic-speech-corpus.zip

إنشاء أدلة متعددة للبيانات

 mkdir -p raw_data/Arabic/Arabic preprocessed_data/Arabic/TextGrid/Arabic
cp arabic-speech-corpus/textgrid/* preprocessed_data/Arabic/TextGrid/Arabic

إعداد البيانات الوصفية

 import os
base_dir = '/content/arabic-speech-corpus'
lines = []
for lab_file in os . listdir ( f' { base_dir } /lab' ):
  lines . append ( lab_file [: - 4 ] + '|' + open ( f' { base_dir } /lab/ { lab_file } ' , 'r' ). read ())


open ( f' { base_dir } /metadata.csv' , 'w' ). write (( ' n ' ). join ( lines ))

استنساخ المستودع الخاص بي (Fastspeech2) وقم بتثبيت التبعيات المطلوبة.

git clone --depth 1 https://github.com/zaidalyafeai/FastSpeech2
cd FastSpeech2
pip install -r requirements.txt

إعداد المحاذاة والبيانات المعروفة مسبقا.

 python3 prepare_align.py config/Arabic/preprocess.yaml
python3 preprocess.py config/Arabic/preprocess.yaml

فوضى المتفتيرين.

 unzip hifigan/generator_LJSpeech.pth.tar.zip -d hifigan
unzip hifigan/generator_universal.pth.tar.zip -d hifigan

ابدأ التدريب.

 python3 train.py -p config/Arabic/preprocess.yaml -m config/Arabic/model.yaml -t config/Arabic/train.yaml

تم إنشاء هذا المستودع من قبل فريق ARBML. إذا كان لديك أي اقتراح أو مساهمة ، فلا تتردد في تقديم طلب سحب.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-21
الحجم 134.33MB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل