Download de klaam - Download do código fonte de klaam

klaam

Código-Fonte de IA

1.0.0

Baixar

Klaam

Reconhecimento de fala, classificação e fala em fala em árabe usando muitos modelos avançados como WAVE2VEC e FASTSPEECH2. Esse repositório permite treinamento e previsão usando modelos pré -tenhados.

1. Uso

1.1 Classificação da fala

 from klaam import SpeechClassification
model = SpeechClassification ()
model . classify ( wav_file )

1.2 Reconomação da fala

 from klaam import SpeechRecognition
model = SpeechRecognition ()
model . transcribe ( wav_file )

1.3 Texto para a fala

 from klaam import TextToSpeech
prepare_tts_model_path = "../cfgs/FastSpeech2/config/Arabic/preprocess.yaml"
model_config_path = "../cfgs/FastSpeech2/config/Arabic/model.yaml"
train_config_path = "../cfgs/FastSpeech2/config/Arabic/train.yaml"
vocoder_config_path = "../cfgs/FastSpeech2/model_config/hifigan/config.json"
speaker_pre_trained_path = "../data/model_weights/hifigan/generator_universal.pth.tar"

model = TextToSpeech ( prepare_tts_model_path , model_config_path , train_config_path , vocoder_config_path , speaker_pre_trained_path )

model . synthesize ( sample_text )

Existem dois modelos avisos para o reconhecimento que tragam o dialeto árabe padrão moderno (MSA) e egípcio (EGY). Você pode definir qualquer um deles usando o atributo lang .

 from klaam import SpeechRecognition
model = SpeechRecognition ( lang = 'msa' )
model . transcribe ( 'file.wav' )

2. Conjuntos de dados

Conjunto de dados	Descrição	Link
MGB-3	Reconhecimento de fala árabe egípcio na natureza. Cada frase foi anotada por quatro anotadores. Mais de 15 horas foram coletadas no YouTube.	Aqui [Registração necessária]
Adi-5	Mais de 50 horas coletadas na Aljazeera TV. 4 Dialetal Regional: Egípcio (Egy), Levantino (LAV), Golfo (GLF), Norte da África (NOR) e árabe padrão moderno (MSA). Esse conjunto de dados faz parte do desafio MGB-3.	Aqui [Registração necessária]
Voz comum	Conjunto de dados multlilingual avólico em huggingface	aqui.
Corpus de fala árabe	Conjunto de dados árabe com alinhamento e transcrições	aqui.

3. Modelos

Atualmente, nosso projeto suporta quatro modelos, três deles são avisos em transformadores.

Linguagem	Descrição	Fonte
egípcio	Reconhecimento de fala	WAV2VEC2-LARGE-XLSR-53-ARABIC-EGYPTIAN
Árabe padrão	Reconhecimento de fala	WAV2VEC2-LARGE-XLSR-53-ARABIC
Egy, nem, Lav, Glf, MSA	Classificação da fala	WAV2VEC2-Large-XLSR-Dialect-Classification
Árabe padrão	Texto para fala	FastSpeech2

4. Notebooks de exemplo

Nome	Descrição	Caderno
Demonstração	Classificação, Recongamento e Text-to-Speech em algumas linhas de código.
Demonstração com microfone	Recongreio e classificação de áudio com gravação.

5. Treinamento

Os scripts são uma modificação do JqueGuiner/WAV2VEC2-Sprint.

5.1. Classificação

Este script é usado para a tarefa de classificação nas 5 classes.

python run_classifier.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --output_dir=/path/to/output 
    --cache_dir=/path/to/cache/ 
    --freeze_feature_extractor 
    --num_train_epochs= " 50 " 
    --per_device_train_batch_size= " 32 " 
    --preprocessing_num_workers= " 1 " 
    --learning_rate= " 3e-5 " 
    --warmup_steps= " 20 " 
    --evaluation_strategy= " steps " 
    --save_steps= " 100 " 
    --eval_steps= " 100 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 100 " 
    --do_eval 
    --do_train

5.2. Reconhecimento

Este script é para treinamento no conjunto de dados para pré -treinamento no conjunto de dados de dialetos da egyption.

python run_mgb3.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --output_dir=/path/to/output 
    --cache_dir=/path/to/cache/ 
    --freeze_feature_extractor 
    --num_train_epochs= " 50 " 
    --per_device_train_batch_size= " 32 " 
    --preprocessing_num_workers= " 1 " 
    --learning_rate= " 3e-5 " 
    --warmup_steps= " 20 " 
    --evaluation_strategy= " steps " 
    --save_steps= " 100 " 
    --eval_steps= " 100 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 100 " 
    --do_eval 
    --do_train

Este script pode ser usado para treinamento de voz comum em árabe

python run_common_voice.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --dataset_config_name= " ar " 
    --output_dir=/path/to/output/ 
    --cache_dir=/path/to/cache 
    --overwrite_output_dir 
    --num_train_epochs= " 1 " 
    --per_device_train_batch_size= " 32 " 
    --per_device_eval_batch_size= " 32 " 
    --evaluation_strategy= " steps " 
    --learning_rate= " 3e-4 " 
    --warmup_steps= " 500 " 
    --fp16 
    --freeze_feature_extractor 
    --save_steps= " 10 " 
    --eval_steps= " 10 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 10 " 
    --group_by_length 
    --feat_proj_dropout= " 0.0 " 
    --layerdrop= " 0.1 " 
    --gradient_checkpointing 
    --do_train --do_eval 
    --max_train_samples 100 --max_val_samples 100

5.3. Texto para fala

Utilizamos a implementação do Pytorch do FastSpeech2 pelo Ming024.

O procedimento é o seguinte:

Faça o download do conjunto de dados e descompacte -o.

 wget http://en.arabicspeechcorpus.com/arabic-speech-corpus.zip
unzip arabic-speech-corpus.zip

Crie vários diretórios para dados

 mkdir -p raw_data/Arabic/Arabic preprocessed_data/Arabic/TextGrid/Arabic
cp arabic-speech-corpus/textgrid/* preprocessed_data/Arabic/TextGrid/Arabic

Prepare metadados

 import os
base_dir = '/content/arabic-speech-corpus'
lines = []
for lab_file in os . listdir ( f' { base_dir } /lab' ):
  lines . append ( lab_file [: - 4 ] + '|' + open ( f' { base_dir } /lab/ { lab_file } ' , 'r' ). read ())


open ( f' { base_dir } /metadata.csv' , 'w' ). write (( ' n ' ). join ( lines ))

Clone meu repositório (FastSpeech2) e instale as dependências necessárias.

git clone --depth 1 https://github.com/zaidalyafeai/FastSpeech2
cd FastSpeech2
pip install -r requirements.txt

Prepare alinhamentos e dados preparados.

 python3 prepare_align.py config/Arabic/preprocess.yaml
python3 preprocess.py config/Arabic/preprocess.yaml

Vocoders descompactados.

 unzip hifigan/generator_LJSpeech.pth.tar.zip -d hifigan
unzip hifigan/generator_universal.pth.tar.zip -d hifigan

Comece o treinamento.

 python3 train.py -p config/Arabic/preprocess.yaml -m config/Arabic/model.yaml -t config/Arabic/train.yaml

Este repositório foi criado pela equipe ARBML. Se você tiver alguma sugestão ou contribuição, sinta -se à vontade para fazer uma solicitação de tração.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 134.33MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos