Unduh Automatic Speech Recognition - Unduh Kode Sumber Automatic Speech Recognition

Automatic Speech Recognition

Kode Sumber AI

1.0.0

Unduh

Pengenalan ucapan otomatis

Tujuan proyek adalah untuk menyaring penelitian pengenalan suara otomatis. Pada awalnya, Anda dapat memuat pipa siap pakai dengan model yang sudah terlatih. Manfaat dari TensorFlow 2.0 yang bersemangat dan secara bebas memantau bobot model, aktivasi atau gradien.

 import automatic_speech_recognition as asr

file = 'to/test/sample.wav'  # sample rate 16 kHz, and 16 bit depth
sample = asr . utils . read_audio ( file )
pipeline = asr . load ( 'deepspeech2' , lang = 'en' )
pipeline . model . summary ()     # TensorFlow model
sentences = pipeline . predict ([ sample ])

Kami mendukung bahasa Inggris (terima kasih kepada Open SEQ2SEQ). Hasil evaluasi dari tolok ukur bahasa Inggris Librispeech Dev-Clean ada di meja. Untuk referensi, Deepspeech (Mozilla) mencapai sekitar 7,5%, sedangkan canggih (RWTH Aachen University) sama dengan 2,3% WER (hasil evaluasi terbaru dapat ditemukan di sini). Keduanya, gunakan model bahasa eksternal untuk meningkatkan hasil. Sebagai perbandingan, manusia mencapai 5,83% di sini (librispeech dev-clean)

Nama model	Decoder	Wer-dev
`deepspeech2`	tamak	6.71

Ternyata Anda perlu menyesuaikan pipa sedikit. Lihatlah pipa CTC. Pipa bertanggung jawab untuk menghubungkan model jaringan saraf dengan semua transformasi non-diferensial (fitur ekstraksi atau decoding prediksi). Komponen pipa independen. Anda dapat menyesuaikannya dengan kebutuhan Anda misalnya menggunakan ekstraksi fitur yang lebih canggih, augmentasi data yang berbeda, atau menambahkan dekoder model bahasa (statis N-gram atau transformator besar). Anda dapat melakukan lebih banyak seperti mendistribusikan pelatihan menggunakan strategi, atau bereksperimen dengan kebijakan presisi campuran.

 import numpy as np
import tensorflow as tf
import automatic_speech_recognition as asr

dataset = asr . dataset . Audio . from_csv ( 'train.csv' , batch_size = 32 )
dev_dataset = asr . dataset . Audio . from_csv ( 'dev.csv' , batch_size = 32 )
alphabet = asr . text . Alphabet ( lang = 'en' )
features_extractor = asr . features . FilterBanks (
    features_num = 160 ,
    winlen = 0.02 ,
    winstep = 0.01 ,
    winfunc = np . hanning
)
model = asr . model . get_deepspeech2 (
    input_dim = 160 ,
    output_dim = 29 ,
    rnn_units = 800 ,
    is_mixed_precision = False
)
optimizer = tf . optimizers . Adam (
    lr = 1e-4 ,
    beta_1 = 0.9 ,
    beta_2 = 0.999 ,
    epsilon = 1e-8
)
decoder = asr . decoder . GreedyDecoder ()
pipeline = asr . pipeline . CTCPipeline (
    alphabet , features_extractor , model , optimizer , decoder
)
pipeline . fit ( dataset , dev_dataset , epochs = 25 )
pipeline . save ( '/checkpoint' )

test_dataset = asr . dataset . Audio . from_csv ( 'test.csv' )
wer , cer = asr . evaluate . calculate_error_rates ( pipeline , test_dataset )
print ( f'WER: { wer }   CER: { cer } ' )

Instalasi

Anda dapat menggunakan PIP:

pip install automatic-speech-recognition

Kalau tidak, klon kode dan buat lingkungan baru melalui Conda:

git clone https://github.com/rolczynski/Automatic-Speech-Recognition.git
conda env create -f=environment.yml     # or use: environment-gpu.yml
conda activate Automatic-Speech-Recognition

Referensi

Repositori fundamental:

Baidu - Deepspeech2 - Implementasi PaddlePaddle dari Arsitektur DeepSpeech2 untuk ASR
NVIDIA - Toolkit untuk Eksperimen yang Efisien dengan Pengenalan Pidato, Text2Speech dan NLP
RWTH Aachen University - Kerangka pelatihan yang dapat diperluas untuk jaringan saraf berulang universal
TensorFlow - Implementasi model DeepSpeech2
Mozilla - Deepspeech - Implementasi TensorFlow dari Arsitektur Deepspeech Baidu
ESPNET-Toolkit Pemrosesan Pidato End-to-End
Sean Naren - Pengenalan Pidato Menggunakan DeepSpeech2

Selain itu, Anda dapat menjelajahi github menggunakan frasa kunci seperti ASR , DeepSpeech , atau Speech-To-Text . Daftar Wer_are_we, upaya melacak status seni, dapat membantu juga.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-09
ukuran 162.91KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua