Unduh klaam - Unduh Kode Sumber klaam

klaam

Kode Sumber AI

1.0.0

Unduh

Klaam

Pengenalan ucapan Arab, klasifikasi dan teks-ke-speech menggunakan banyak model canggih seperti Wave2Vec dan FastSpeech2. Repositori ini memungkinkan pelatihan dan prediksi menggunakan model pretrained.

1. Penggunaan

1.1 Klasifikasi Pidato

 from klaam import SpeechClassification
model = SpeechClassification ()
model . classify ( wav_file )

1.2 Recongnition Pidato

 from klaam import SpeechRecognition
model = SpeechRecognition ()
model . transcribe ( wav_file )

1.3 Teks untuk berbicara

 from klaam import TextToSpeech
prepare_tts_model_path = "../cfgs/FastSpeech2/config/Arabic/preprocess.yaml"
model_config_path = "../cfgs/FastSpeech2/config/Arabic/model.yaml"
train_config_path = "../cfgs/FastSpeech2/config/Arabic/train.yaml"
vocoder_config_path = "../cfgs/FastSpeech2/model_config/hifigan/config.json"
speaker_pre_trained_path = "../data/model_weights/hifigan/generator_universal.pth.tar"

model = TextToSpeech ( prepare_tts_model_path , model_config_path , train_config_path , vocoder_config_path , speaker_pre_trained_path )

model . synthesize ( sample_text )

Ada dua model yang tersedia untuk pengakuan Trageting Modern Standard Arab (MSA) dan dialek Mesir (Mesir). Anda dapat mengatur salah satu dari mereka menggunakan atribut lang .

 from klaam import SpeechRecognition
model = SpeechRecognition ( lang = 'msa' )
model . transcribe ( 'file.wav' )

2. Dataset

Dataset	Keterangan	Link
MGB-3	Pengakuan Ucapan Arab Mesir di alam liar. Setiap kalimat dijelaskan oleh empat annotator. Lebih dari 15 jam telah dikumpulkan dari YouTube.	di sini [diperlukan register]
Adi-5	Lebih dari 50 jam dikumpulkan dari Aljazeera TV. 4 dialek regional: Mesir (Mesir), Levantine (LAV), Teluk (GLF), Afrika Utara (NOR), dan Modern Standard Arab (MSA). Dataset ini adalah bagian dari tantangan MGB-3.	di sini [diperlukan register]
Suara umum	Dataset multlilingual tersedia di Huggingface	Di Sini.
Corpus Pidato Arab	Dataset Arab dengan penyelarasan dan transkripsi	Di Sini.

3. model

Proyek kami saat ini mendukung empat model, tiga di antaranya tersedia di Transformers.

Bahasa	Keterangan	Sumber
Mesir	Pengakuan ucapan	WAV2VEC2-LARGE-XLSR-53-Arab-Egyptian
Standar Arab	Pengakuan ucapan	wav2vec2-large-xlsr-53-arabic
Egy, Nor, Lav, GLF, MSA	Klasifikasi Pidato	wav2vec2-large-xlsr-dialect-classification
Standar Arab	Teks-ke-speech	fastspeech2

4. Contoh notebook

Nama	Keterangan	Buku catatan
Demo	Klasifikasi, Recongisi, dan Teks-ke-Pidato dalam beberapa baris kode.
Demo dengan mic	Receongition dan klasifikasi audio dengan perekaman.

5. Pelatihan

Script adalah modifikasi JQueguiner/WAV2VEC2-SPRINT.

5.1. Klasifikasi

Script ini digunakan untuk tugas klasifikasi pada 5 kelas.

python run_classifier.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --output_dir=/path/to/output 
    --cache_dir=/path/to/cache/ 
    --freeze_feature_extractor 
    --num_train_epochs= " 50 " 
    --per_device_train_batch_size= " 32 " 
    --preprocessing_num_workers= " 1 " 
    --learning_rate= " 3e-5 " 
    --warmup_steps= " 20 " 
    --evaluation_strategy= " steps " 
    --save_steps= " 100 " 
    --eval_steps= " 100 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 100 " 
    --do_eval 
    --do_train

5.2. Pengakuan

Script ini untuk pelatihan tentang dataset untuk pretraining pada dataset dialek Mesir.

python run_mgb3.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --output_dir=/path/to/output 
    --cache_dir=/path/to/cache/ 
    --freeze_feature_extractor 
    --num_train_epochs= " 50 " 
    --per_device_train_batch_size= " 32 " 
    --preprocessing_num_workers= " 1 " 
    --learning_rate= " 3e-5 " 
    --warmup_steps= " 20 " 
    --evaluation_strategy= " steps " 
    --save_steps= " 100 " 
    --eval_steps= " 100 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 100 " 
    --do_eval 
    --do_train

Script ini dapat digunakan untuk pelatihan suara umum Arab

python run_common_voice.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --dataset_config_name= " ar " 
    --output_dir=/path/to/output/ 
    --cache_dir=/path/to/cache 
    --overwrite_output_dir 
    --num_train_epochs= " 1 " 
    --per_device_train_batch_size= " 32 " 
    --per_device_eval_batch_size= " 32 " 
    --evaluation_strategy= " steps " 
    --learning_rate= " 3e-4 " 
    --warmup_steps= " 500 " 
    --fp16 
    --freeze_feature_extractor 
    --save_steps= " 10 " 
    --eval_steps= " 10 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 10 " 
    --group_by_length 
    --feat_proj_dropout= " 0.0 " 
    --layerdrop= " 0.1 " 
    --gradient_checkpointing 
    --do_train --do_eval 
    --max_train_samples 100 --max_val_samples 100

5.3. Teks untuk berbicara

Kami menggunakan implementasi Pytorch dari FastSpeech2 oleh MING024.

Prosedurnya adalah sebagai berikut:

Unduh dataset dan unzip.

 wget http://en.arabicspeechcorpus.com/arabic-speech-corpus.zip
unzip arabic-speech-corpus.zip

Buat beberapa direktori untuk data

 mkdir -p raw_data/Arabic/Arabic preprocessed_data/Arabic/TextGrid/Arabic
cp arabic-speech-corpus/textgrid/* preprocessed_data/Arabic/TextGrid/Arabic

Siapkan metadata

 import os
base_dir = '/content/arabic-speech-corpus'
lines = []
for lab_file in os . listdir ( f' { base_dir } /lab' ):
  lines . append ( lab_file [: - 4 ] + '|' + open ( f' { base_dir } /lab/ { lab_file } ' , 'r' ). read ())


open ( f' { base_dir } /metadata.csv' , 'w' ). write (( ' n ' ). join ( lines ))

Klone repositori saya (fastspeech2) dan installl dependensi yang diperlukan.

git clone --depth 1 https://github.com/zaidalyafeai/FastSpeech2
cd FastSpeech2
pip install -r requirements.txt

Siapkan keselarasan dan data yang difesialisasi sebelumnya.

 python3 prepare_align.py config/Arabic/preprocess.yaml
python3 preprocess.py config/Arabic/preprocess.yaml

Unzip vocoders.

 unzip hifigan/generator_LJSpeech.pth.tar.zip -d hifigan
unzip hifigan/generator_universal.pth.tar.zip -d hifigan

Mulailah pelatihan.

 python3 train.py -p config/Arabic/preprocess.yaml -m config/Arabic/model.yaml -t config/Arabic/train.yaml

Repositori ini dibuat oleh tim ARBML. Jika Anda memiliki saran atau kontribusi, jangan ragu untuk membuat permintaan tarik.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-21
ukuran 134.33MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua