Descarga Automatic Speech Recognition - Descargar el código fuente Automatic Speech Recognition

Automatic Speech Recognition

Código Fuente de IA

1.0.0

Descargar

Reconocimiento automático de voz

El objetivo del proyecto es destilar la investigación automática de reconocimiento de voz. Al principio, puede cargar una tubería lista para usar con un modelo previamente capacitado. Beneficiarse del ansioso TensorFlow 2.0 y monitoree libremente los pesos, activaciones o gradientes del modelo.

 import automatic_speech_recognition as asr

file = 'to/test/sample.wav'  # sample rate 16 kHz, and 16 bit depth
sample = asr . utils . read_audio ( file )
pipeline = asr . load ( 'deepspeech2' , lang = 'en' )
pipeline . model . summary ()     # TensorFlow model
sentences = pipeline . predict ([ sample ])

Apoyamos el inglés (gracias a Open SEQ2SEQ). Los resultados de la evaluación del punto de referencia en inglés Librispeech Dev-Clean están en la tabla. Para hacer referencia, el intervalo profundo (Mozilla) logra alrededor del 7,5% de WER, mientras que el estado del arte (RWTH Aachen University) equivale al 2.3% WER (los resultados de la evaluación recientes se pueden encontrar aquí). Ambos, usan el modelo de lenguaje externo para aumentar los resultados. En comparación, los humanos logran 5.83% fueron aquí (Librispeech Dev-Clean)

Nombre del modelo	Descifrador	Wer-Dev
`deepspeech2`	avaro	6.71

En breve resulta que necesita ajustar un poco la tubería. Eche un vistazo a la tubería CTC. La tubería es responsable de conectar un modelo de red neuronal con todas las transformaciones no diferenciales (características de extracción o decodificación de predicción). Los componentes de la tubería son independientes. Puede ajustarlos a sus necesidades, por ejemplo, Use la extracción de características más sofisticada, el aumento de los datos de diferentes datos o agregar el decodificador del modelo de lenguaje (n-gramos estáticos o enormes transformadores). Puede hacer mucho más como distribuir la capacitación utilizando la estrategia o experimentar con una política de precisión mixta.

 import numpy as np
import tensorflow as tf
import automatic_speech_recognition as asr

dataset = asr . dataset . Audio . from_csv ( 'train.csv' , batch_size = 32 )
dev_dataset = asr . dataset . Audio . from_csv ( 'dev.csv' , batch_size = 32 )
alphabet = asr . text . Alphabet ( lang = 'en' )
features_extractor = asr . features . FilterBanks (
    features_num = 160 ,
    winlen = 0.02 ,
    winstep = 0.01 ,
    winfunc = np . hanning
)
model = asr . model . get_deepspeech2 (
    input_dim = 160 ,
    output_dim = 29 ,
    rnn_units = 800 ,
    is_mixed_precision = False
)
optimizer = tf . optimizers . Adam (
    lr = 1e-4 ,
    beta_1 = 0.9 ,
    beta_2 = 0.999 ,
    epsilon = 1e-8
)
decoder = asr . decoder . GreedyDecoder ()
pipeline = asr . pipeline . CTCPipeline (
    alphabet , features_extractor , model , optimizer , decoder
)
pipeline . fit ( dataset , dev_dataset , epochs = 25 )
pipeline . save ( '/checkpoint' )

test_dataset = asr . dataset . Audio . from_csv ( 'test.csv' )
wer , cer = asr . evaluate . calculate_error_rates ( pipeline , test_dataset )
print ( f'WER: { wer }   CER: { cer } ' )

Instalación

Puedes usar pip:

pip install automatic-speech-recognition

De lo contrario, clona el código y cree un nuevo entorno a través de Conda:

git clone https://github.com/rolczynski/Automatic-Speech-Recognition.git
conda env create -f=environment.yml     # or use: environment-gpu.yml
conda activate Automatic-Speech-Recognition

Referencias

Los repositorios fundamentales:

Baidu - DeepSpeech2 - Una implementación de Paddlepaddle de la arquitectura DeepSpeech2 para ASR
NVIDIA - Kit de herramientas para experimentación eficiente con reconocimiento de voz, Text2Speech y NLP
RWTH Aachen University: el marco de capacitación extensible de RWTH para redes neuronales recurrentes universales
TensorFlow: la implementación del modelo DeepSpeech2
Mozilla - DeepSpeech - Una implementación de TensorFlow de la arquitectura de baidu profundo
ESPNET-Kit de herramientas de procesamiento de voz de extremo a extremo
Sean Naren - Reconocimiento de voz usando DeepSpeech2

Además, puede explorar el GitHub utilizando frases clave como ASR , DeepSpeech o Speech-To-Text . La lista Wer_are_we, un intento de rastrear estados del arte, también puede ser útil.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-09
tamaño 162.91KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo