Download Automatic Speech Recognition - Download Automatic Speech Recognition

Automatic Speech Recognition

Código-Fonte de IA

1.0.0

Baixar

Reconhecimento automático de fala

O objetivo do projeto é destilar a pesquisa automática de reconhecimento de fala. No início, você pode carregar um pipeline pronto para uso com um modelo pré-treinado. Beneficie -se do Aleght TensorFlow 2.0 e monitore livremente os pesos do modelo, ativações ou gradientes.

 import automatic_speech_recognition as asr

file = 'to/test/sample.wav'  # sample rate 16 kHz, and 16 bit depth
sample = asr . utils . read_audio ( file )
pipeline = asr . load ( 'deepspeech2' , lang = 'en' )
pipeline . model . summary ()     # TensorFlow model
sentences = pipeline . predict ([ sample ])

Apoiamos o inglês (graças ao Open SEQ2SEQ). Os resultados da avaliação do referência inglesa de Librisseech Dev-Clean estão na tabela. Para referência, o DeepSpeech (Mozilla) alcança cerca de 7,5%, enquanto o estado da arte (Universidade RWTH Aachen) é igual a 2,3% (resultados recentes de avaliação podem ser encontrados aqui). Ambos, use o modelo de idioma externo para aumentar os resultados. Em comparação, os seres humanos alcançam 5,83% aqui (LibreseChEech Dev-Clean)

Nome do modelo	Decodificador	Wer-dev
`deepspeech2`	ambicioso	6.71

Logo, acontece que você precisa ajustar um pouco o pipeline. Dê uma olhada no pipeline da CTC. O pipeline é responsável por conectar um modelo de rede neural com todas as transformações não diferenciais (apresenta decodificação de extração ou previsão). Os componentes do pipeline são independentes. Você pode ajustá-los às suas necessidades, por exemplo, usar extração de recursos mais sofisticada, aumento de dados diferentes ou adicionar o decodificador do modelo de idioma (gramas estáticas ou enormes transformadores). Você pode fazer muito mais como distribuir o treinamento usando a estratégia ou experimentar a política de precisão mista.

 import numpy as np
import tensorflow as tf
import automatic_speech_recognition as asr

dataset = asr . dataset . Audio . from_csv ( 'train.csv' , batch_size = 32 )
dev_dataset = asr . dataset . Audio . from_csv ( 'dev.csv' , batch_size = 32 )
alphabet = asr . text . Alphabet ( lang = 'en' )
features_extractor = asr . features . FilterBanks (
    features_num = 160 ,
    winlen = 0.02 ,
    winstep = 0.01 ,
    winfunc = np . hanning
)
model = asr . model . get_deepspeech2 (
    input_dim = 160 ,
    output_dim = 29 ,
    rnn_units = 800 ,
    is_mixed_precision = False
)
optimizer = tf . optimizers . Adam (
    lr = 1e-4 ,
    beta_1 = 0.9 ,
    beta_2 = 0.999 ,
    epsilon = 1e-8
)
decoder = asr . decoder . GreedyDecoder ()
pipeline = asr . pipeline . CTCPipeline (
    alphabet , features_extractor , model , optimizer , decoder
)
pipeline . fit ( dataset , dev_dataset , epochs = 25 )
pipeline . save ( '/checkpoint' )

test_dataset = asr . dataset . Audio . from_csv ( 'test.csv' )
wer , cer = asr . evaluate . calculate_error_rates ( pipeline , test_dataset )
print ( f'WER: { wer }   CER: { cer } ' )

Instalação

Você pode usar o PIP:

pip install automatic-speech-recognition

Caso contrário, clone o código e crie um novo ambiente via conda:

git clone https://github.com/rolczynski/Automatic-Speech-Recognition.git
conda env create -f=environment.yml     # or use: environment-gpu.yml
conda activate Automatic-Speech-Recognition

Referências

Os repositórios fundamentais:

Baidu - DeepSpeech2 - Uma implementação Paddlepddle da arquitetura DeepSpeech2 para ASR
NVIDIA - Kit de ferramentas para experimentação eficiente com reconhecimento de fala, text2speech e NLP
RWTH AACHEN UNIVERSIDADE - A estrutura de treinamento extensível RWTH para redes neurais recorrentes universais
Tensorflow - a implementação do modelo DeepSpeech2
Mozilla - DeepSpeech - Uma implementação do tensorflow da arquitetura DeepSpeech do Baidu
ESPNET-Kit de ferramentas de processamento de fala de ponta a ponta
Sean Naren - reconhecimento de fala usando DeepSpeech2

Além disso, você pode explorar o github usando frases-chave como ASR , DeepSpeech ou Speech-To-Text . A lista wer_are_we, uma tentativa de rastrear estados da arte, também pode ser útil.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-09
tamanho 162.91KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos