Téléchargement Automatic Speech Recognition - Téléchargement de code source Automatic Speech Recognition

Automatic Speech Recognition

Code Source AI

1.0.0

Télécharger

Reconnaissance automatique de la parole

L'objectif du projet est de distiller la recherche automatique de reconnaissance vocale. Au début, vous pouvez charger un pipeline prêt à l'emploi avec un modèle pré-formé. Bénéficier de la TensorFlow 2.0 avides et surveillez librement les poids, activations ou gradients du modèle.

 import automatic_speech_recognition as asr

file = 'to/test/sample.wav'  # sample rate 16 kHz, and 16 bit depth
sample = asr . utils . read_audio ( file )
pipeline = asr . load ( 'deepspeech2' , lang = 'en' )
pipeline . model . summary ()     # TensorFlow model
sentences = pipeline . predict ([ sample ])

Nous soutenons l'anglais (grâce à l'Open SEQ2SEQ). Les résultats de l'évaluation de l'anglais Benchmark LibRispenech Dev-Clean sont dans le tableau. Pour référence, le DeepSpeech (Mozilla) atteint environ 7,5% WER, tandis que l'état de la technologie (Université Aachen RWTH) est égal à 2,3% (les résultats de l'évaluation récents peuvent être trouvés ici). Tous deux, utilisez le modèle de langue externe pour augmenter les résultats. En comparaison, les humains atteignent 5,83% de Wer ici (LibRispeech Dev-Clean)

Nom du modèle	Décodeur	Wer-dev
`deepspeech2`	cupide	6.71

Peu de temps en temps, il vous convient de régler un peu le pipeline. Jetez un œil au pipeline CTC. Le pipeline est responsable de la connexion d'un modèle de réseau neuronal avec toutes les transformations non différentiels (caractéristiques d'extraction ou de décodage de prédiction). Les composants du pipeline sont indépendants. Vous pouvez les ajuster à vos besoins, par exemple, utilisez une extraction de fonctionnalités plus sophistiquée, une augmentation des données différentes ou ajouter le décodeur de modèle de langue (n-grammes statiques ou transformateurs énormes). Vous pouvez faire beaucoup plus comme distribuer la formation en utilisant la stratégie ou expérimenter avec une politique de précision mixte.

 import numpy as np
import tensorflow as tf
import automatic_speech_recognition as asr

dataset = asr . dataset . Audio . from_csv ( 'train.csv' , batch_size = 32 )
dev_dataset = asr . dataset . Audio . from_csv ( 'dev.csv' , batch_size = 32 )
alphabet = asr . text . Alphabet ( lang = 'en' )
features_extractor = asr . features . FilterBanks (
    features_num = 160 ,
    winlen = 0.02 ,
    winstep = 0.01 ,
    winfunc = np . hanning
)
model = asr . model . get_deepspeech2 (
    input_dim = 160 ,
    output_dim = 29 ,
    rnn_units = 800 ,
    is_mixed_precision = False
)
optimizer = tf . optimizers . Adam (
    lr = 1e-4 ,
    beta_1 = 0.9 ,
    beta_2 = 0.999 ,
    epsilon = 1e-8
)
decoder = asr . decoder . GreedyDecoder ()
pipeline = asr . pipeline . CTCPipeline (
    alphabet , features_extractor , model , optimizer , decoder
)
pipeline . fit ( dataset , dev_dataset , epochs = 25 )
pipeline . save ( '/checkpoint' )

test_dataset = asr . dataset . Audio . from_csv ( 'test.csv' )
wer , cer = asr . evaluate . calculate_error_rates ( pipeline , test_dataset )
print ( f'WER: { wer }   CER: { cer } ' )

Installation

Vous pouvez utiliser PIP:

pip install automatic-speech-recognition

Sinon, clonez le code et créez un nouvel environnement via Conda:

git clone https://github.com/rolczynski/Automatic-Speech-Recognition.git
conda env create -f=environment.yml     # or use: environment-gpu.yml
conda activate Automatic-Speech-Recognition

Références

Les référentiels fondamentaux:

Baidu - DeepSpeech2 - Une mise en œuvre de paddlepaddle de DeepSpeech2 Architecture pour ASR
Nvidia - Toolkit pour une expérimentation efficace avec la reconnaissance vocale, Text2Speech et NLP
RWTH Aachen University - Le cadre de formation extensible RWTH pour les réseaux de neurones récurrents universels
TensorFlow - L'implémentation du modèle DeepSpeech2
Mozilla - DeepSpeech - une implémentation Tensorflow de l'architecture DeepSpeech de Baidu
ESPNET - boîte à outils de traitement de la parole de bout en bout
Sean Naren - Reconnaissance de la parole utilisant DeepSpeech2

De plus, vous pouvez explorer le github à l'aide de phrases clés comme ASR , DeepSpeech ou Speech-To-Text . La liste wer_are_we, une tentative de suivi des états de l'art, peut également être utile.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-09
taille 162.91KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout