klaam скачать - скачать исходный код klaam

klaam

AI Исходный код

1.0.0

Скачать

Клаам

Арабское распознавание речи, классификация и текст в речь с использованием многих передовых моделей, таких как Wave2VEC и Fastspeech2. Этот репозиторий позволяет обучать и прогнозировать с использованием предварительно проведенных моделей.

1. Использование

1.1 Классификация речи

 from klaam import SpeechClassification
model = SpeechClassification ()
model . classify ( wav_file )

1.2 Речь. Регниция

 from klaam import SpeechRecognition
model = SpeechRecognition ()
model . transcribe ( wav_file )

1.3 Текст на речь

 from klaam import TextToSpeech
prepare_tts_model_path = "../cfgs/FastSpeech2/config/Arabic/preprocess.yaml"
model_config_path = "../cfgs/FastSpeech2/config/Arabic/model.yaml"
train_config_path = "../cfgs/FastSpeech2/config/Arabic/train.yaml"
vocoder_config_path = "../cfgs/FastSpeech2/model_config/hifigan/config.json"
speaker_pre_trained_path = "../data/model_weights/hifigan/generator_universal.pth.tar"

model = TextToSpeech ( prepare_tts_model_path , model_config_path , train_config_path , vocoder_config_path , speaker_pre_trained_path )

model . synthesize ( sample_text )

Существует две модели для признания трагирования современного стандартного арабского (MSA) и египетского диалекта (Egy). Вы можете установить любой из них, используя атрибут lang .

 from klaam import SpeechRecognition
model = SpeechRecognition ( lang = 'msa' )
model . transcribe ( 'file.wav' )

2. Наборы данных

Набор данных	Описание	Связь
MGB-3	Познавление египетской арабской речи в дикой природе. Каждое предложение было аннотировано четырьмя аннотаторами. Более 15 часов было собрано с YouTube.	Здесь [требуется регистрация]
Ади-5	Более 50 часов, собранных с Aljazeera TV. 4 Региональный диалект: египетский (Еги), Левантин (Лав), залив (GLF), Северная Африка (NOR) и современный стандартный арабский язык (MSA). Этот набор данных является частью вызова MGB-3.	Здесь [требуется регистрация]
Общий голос	Многоязычный набор данных Avilable on guggingface	здесь.
Арабский речевой корпус	Арабский набор данных с выравниванием и транскрипциями	здесь.

3. Модели

Наш проект в настоящее время поддерживает четыре модели, три из них поддаются трансформаторам.

Язык	Описание	Источник
Египетский	Распознавание речи	wav2vec2-large-xlsr-53-arabic-egyptian
Стандартный арабский	Распознавание речи	wav2vec2-large-xlsr-53-arabic
Еги, Нор, Лав, GLF, MSA	Речевая классификация	WAV2VEC2-LARGE-XLSR-DIALECT-CLASSICation
Стандартный арабский	Текст в речь	Fastspeech2

4. Пример ноутбуков

Имя	Описание	Блокнот
Демо	Классификация, переработка и текст в речь в нескольких строках кода.
Демо с микрофоном	Аудиореагирование и классификация с записи.

5. Обучение

Сценарии представляют собой модификацию jqueguiner/wav2vec2-sprint.

5.1. Классификация

Этот скрипт используется для задачи классификации в 5 классах.

python run_classifier.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --output_dir=/path/to/output 
    --cache_dir=/path/to/cache/ 
    --freeze_feature_extractor 
    --num_train_epochs= " 50 " 
    --per_device_train_batch_size= " 32 " 
    --preprocessing_num_workers= " 1 " 
    --learning_rate= " 3e-5 " 
    --warmup_steps= " 20 " 
    --evaluation_strategy= " steps " 
    --save_steps= " 100 " 
    --eval_steps= " 100 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 100 " 
    --do_eval 
    --do_train

5.2. Признание

Этот скрипт предназначен для обучения в наборе данных для предварительной подготовки на наборе данных диалектов Egyption.

python run_mgb3.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --output_dir=/path/to/output 
    --cache_dir=/path/to/cache/ 
    --freeze_feature_extractor 
    --num_train_epochs= " 50 " 
    --per_device_train_batch_size= " 32 " 
    --preprocessing_num_workers= " 1 " 
    --learning_rate= " 3e-5 " 
    --warmup_steps= " 20 " 
    --evaluation_strategy= " steps " 
    --save_steps= " 100 " 
    --eval_steps= " 100 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 100 " 
    --do_eval 
    --do_train

Этот сценарий можно использовать для арабского общего голоса обучения

python run_common_voice.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --dataset_config_name= " ar " 
    --output_dir=/path/to/output/ 
    --cache_dir=/path/to/cache 
    --overwrite_output_dir 
    --num_train_epochs= " 1 " 
    --per_device_train_batch_size= " 32 " 
    --per_device_eval_batch_size= " 32 " 
    --evaluation_strategy= " steps " 
    --learning_rate= " 3e-4 " 
    --warmup_steps= " 500 " 
    --fp16 
    --freeze_feature_extractor 
    --save_steps= " 10 " 
    --eval_steps= " 10 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 10 " 
    --group_by_length 
    --feat_proj_dropout= " 0.0 " 
    --layerdrop= " 0.1 " 
    --gradient_checkpointing 
    --do_train --do_eval 
    --max_train_samples 100 --max_val_samples 100

5.3. Текст на речь

Мы используем реализацию Pytorch Fastspeech2 с помощью Ming024.

Процедура как следующая:

Загрузите набор данных и раскрипируйте его.

 wget http://en.arabicspeechcorpus.com/arabic-speech-corpus.zip
unzip arabic-speech-corpus.zip

Создайте несколько каталогов для данных

 mkdir -p raw_data/Arabic/Arabic preprocessed_data/Arabic/TextGrid/Arabic
cp arabic-speech-corpus/textgrid/* preprocessed_data/Arabic/TextGrid/Arabic

Подготовьте метаданные

 import os
base_dir = '/content/arabic-speech-corpus'
lines = []
for lab_file in os . listdir ( f' { base_dir } /lab' ):
  lines . append ( lab_file [: - 4 ] + '|' + open ( f' { base_dir } /lab/ { lab_file } ' , 'r' ). read ())


open ( f' { base_dir } /metadata.csv' , 'w' ). write (( ' n ' ). join ( lines ))

Клонировать мой репозиторий (Fastspeech2) и установить необходимые зависимости.

git clone --depth 1 https://github.com/zaidalyafeai/FastSpeech2
cd FastSpeech2
pip install -r requirements.txt

Подготовьте выравнивания и предварительные данные.

 python3 prepare_align.py config/Arabic/preprocess.yaml
python3 preprocess.py config/Arabic/preprocess.yaml

Разип -вокалки.

 unzip hifigan/generator_LJSpeech.pth.tar.zip -d hifigan
unzip hifigan/generator_universal.pth.tar.zip -d hifigan

Начните обучение.

 python3 train.py -p config/Arabic/preprocess.yaml -m config/Arabic/model.yaml -t config/Arabic/train.yaml

Этот репозиторий был создан командой ARBML. Если у вас есть какие -либо предложения или вклад, не стесняйтесь сделать запрос на вытягивание.

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-08-21
размер 134.33MB
От Github

Связанные приложения

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

klaam

Клаам

1. Использование

1.1 Классификация речи

1.2 Речь. Регниция

1.3 Текст на речь

2. Наборы данных

3. Модели

4. Пример ноутбуков

5. Обучение

5.1. Классификация

5.2. Признание

5.3. Текст на речь

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express