Descarga de klaam - Descarga del código fuente klaam

klaam

Código Fuente de IA

1.0.0

Descargar

klaam

Reconocimiento de voz en árabe, clasificación y texto a voz utilizando muchos modelos avanzados como Wave2VEC y FastSpeech2. Este repositorio permite la capacitación y la predicción utilizando modelos previos a la aparición.

1. Uso

1.1 Clasificación del habla

 from klaam import SpeechClassification
model = SpeechClassification ()
model . classify ( wav_file )

1.2 Recongnición del discurso

 from klaam import SpeechRecognition
model = SpeechRecognition ()
model . transcribe ( wav_file )

1.3 Texto al habla

 from klaam import TextToSpeech
prepare_tts_model_path = "../cfgs/FastSpeech2/config/Arabic/preprocess.yaml"
model_config_path = "../cfgs/FastSpeech2/config/Arabic/model.yaml"
train_config_path = "../cfgs/FastSpeech2/config/Arabic/train.yaml"
vocoder_config_path = "../cfgs/FastSpeech2/model_config/hifigan/config.json"
speaker_pre_trained_path = "../data/model_weights/hifigan/generator_universal.pth.tar"

model = TextToSpeech ( prepare_tts_model_path , model_config_path , train_config_path , vocoder_config_path , speaker_pre_trained_path )

model . synthesize ( sample_text )

Hay dos modelos avilables para el reconocimiento tragetiendo el árabe estándar moderno (MSA) y el dialecto egipcio (EGY). Puede configurar cualquiera de ellos usando el atributo lang .

 from klaam import SpeechRecognition
model = SpeechRecognition ( lang = 'msa' )
model . transcribe ( 'file.wav' )

2. Conjuntos de datos

Conjunto de datos	Descripción	Enlace
MGB-3	Reconocimiento del habla árabe egipcio en la naturaleza. Cada oración fue anotada por cuatro anotadores. Se han recogido más de 15 horas de YouTube.	Aquí [requerido el registro]
ADI-5	Más de 50 horas recolectadas de Aljazeera TV. 4 Dialectal regional: egipcio (Egy), levantino (LAV), Golfo (GLF), África del Norte (NOR) y árabe estándar moderno (MSA). Este conjunto de datos es parte del desafío MGB-3.	Aquí [requerido el registro]
Voz común	Conjunto de datos multlilingüe Avilable en Huggingface	aquí.
Corpus del habla árabe	Conjunto de datos árabe con alineación y transcripciones	aquí.

3. Modelos

Actualmente, nuestro proyecto admite cuatro modelos, tres de ellos están avilables en Transformers.

Idioma	Descripción	Fuente
egipcio	Reconocimiento de voz	WAV2VEC2-LARGE-XLSR-53-ARABIC-EGIPIPO
Árabe estándar	Reconocimiento de voz	WAV2VEC2-LARGE-XLSR-53-árabe
Egy, Nor, Lav, GLF, MSA	Clasificación del habla	WAV2VEC2-LARGE-XLSR-DIALECT-Clasificación
Árabe estándar	Texto a voz	FastSpeech2

4. Ejemplo de cuadernos

Nombre	Descripción	Computadora portátil
Manifestación	Clasificación, recongación y texto a voz en algunas líneas de código.
Demostración con micrófono	Recongación de audio y clasificación con grabación.

5. Entrenamiento

Los scripts son una modificación de JQueguiner/WAV2VEC2-SPRINT.

5.1. Clasificación

Este script se utiliza para la tarea de clasificación en las 5 clases.

python run_classifier.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --output_dir=/path/to/output 
    --cache_dir=/path/to/cache/ 
    --freeze_feature_extractor 
    --num_train_epochs= " 50 " 
    --per_device_train_batch_size= " 32 " 
    --preprocessing_num_workers= " 1 " 
    --learning_rate= " 3e-5 " 
    --warmup_steps= " 20 " 
    --evaluation_strategy= " steps " 
    --save_steps= " 100 " 
    --eval_steps= " 100 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 100 " 
    --do_eval 
    --do_train

5.2. Reconocimiento

Este script es para capacitar en el conjunto de datos para que se prableen en el conjunto de datos de dialectos egiption.

python run_mgb3.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --output_dir=/path/to/output 
    --cache_dir=/path/to/cache/ 
    --freeze_feature_extractor 
    --num_train_epochs= " 50 " 
    --per_device_train_batch_size= " 32 " 
    --preprocessing_num_workers= " 1 " 
    --learning_rate= " 3e-5 " 
    --warmup_steps= " 20 " 
    --evaluation_strategy= " steps " 
    --save_steps= " 100 " 
    --eval_steps= " 100 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 100 " 
    --do_eval 
    --do_train

Este guión se puede utilizar para el entrenamiento de voz común en árabe

python run_common_voice.py 
    --model_name_or_path= " facebook/wav2vec2-large-xlsr-53 " 
    --dataset_config_name= " ar " 
    --output_dir=/path/to/output/ 
    --cache_dir=/path/to/cache 
    --overwrite_output_dir 
    --num_train_epochs= " 1 " 
    --per_device_train_batch_size= " 32 " 
    --per_device_eval_batch_size= " 32 " 
    --evaluation_strategy= " steps " 
    --learning_rate= " 3e-4 " 
    --warmup_steps= " 500 " 
    --fp16 
    --freeze_feature_extractor 
    --save_steps= " 10 " 
    --eval_steps= " 10 " 
    --save_total_limit= " 1 " 
    --logging_steps= " 10 " 
    --group_by_length 
    --feat_proj_dropout= " 0.0 " 
    --layerdrop= " 0.1 " 
    --gradient_checkpointing 
    --do_train --do_eval 
    --max_train_samples 100 --max_val_samples 100

5.3. Texto a discurso

Utilizamos la implementación de Pytorch de FastSpeech2 por Ming024.

El procedimiento es como el siguiente:

Descargue el conjunto de datos y descomprima.

 wget http://en.arabicspeechcorpus.com/arabic-speech-corpus.zip
unzip arabic-speech-corpus.zip

Crear múltiples directorios para datos

 mkdir -p raw_data/Arabic/Arabic preprocessed_data/Arabic/TextGrid/Arabic
cp arabic-speech-corpus/textgrid/* preprocessed_data/Arabic/TextGrid/Arabic

Preparar metadatos

 import os
base_dir = '/content/arabic-speech-corpus'
lines = []
for lab_file in os . listdir ( f' { base_dir } /lab' ):
  lines . append ( lab_file [: - 4 ] + '|' + open ( f' { base_dir } /lab/ { lab_file } ' , 'r' ). read ())


open ( f' { base_dir } /metadata.csv' , 'w' ). write (( ' n ' ). join ( lines ))

Clonar mi repositorio (FastSpeech2) e instalar las dependencias requeridas.

git clone --depth 1 https://github.com/zaidalyafeai/FastSpeech2
cd FastSpeech2
pip install -r requirements.txt

Prepare alineaciones y datos preparados.

 python3 prepare_align.py config/Arabic/preprocess.yaml
python3 preprocess.py config/Arabic/preprocess.yaml

Vocodadores descomprimidos.

 unzip hifigan/generator_LJSpeech.pth.tar.zip -d hifigan
unzip hifigan/generator_universal.pth.tar.zip -d hifigan

Comience el entrenamiento.

 python3 train.py -p config/Arabic/preprocess.yaml -m config/Arabic/model.yaml -t config/Arabic/train.yaml

Este repositorio fue creado por el equipo ARBML. Si tiene alguna sugerencia o contribución, no dude en hacer una solicitud de extracción.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 134.33MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo