تنزيل Automatic Speech Recognition - تنزيل رمز مصدر Automatic Speech Recognition

Automatic Speech Recognition

كود الذكاء الاصطناعي

1.0.0

تنزيل

التعرف على الكلام التلقائي

الهدف من المشروع هو تقطير أبحاث التعرف على الكلام التلقائي. في البداية ، يمكنك تحميل خط أنابيب جاهز للاستخدام مع طراز تدريب مسبقًا. الاستفادة من TensorFlow 2.0 المتحمسين ومراقبة الأوزان النموذجية أو التنشيطات أو التدرجات بحرية.

 import automatic_speech_recognition as asr

file = 'to/test/sample.wav'  # sample rate 16 kHz, and 16 bit depth
sample = asr . utils . read_audio ( file )
pipeline = asr . load ( 'deepspeech2' , lang = 'en' )
pipeline . model . summary ()     # TensorFlow model
sentences = pipeline . predict ([ sample ])

نحن ندعم اللغة الإنجليزية (بفضل Open Seq2Seq). توجد نتائج التقييم للمعيار الإنجليزي Librispeech Dev-Clean في الجدول. للإشارة ، يحقق Deepspeech (Mozilla) حوالي 7.5 ٪ من WER ، في حين أن أحدث أحدث (جامعة RWTH Aachen) تساوي 2.3 ٪ (يمكن العثور على نتائج التقييم الحديثة هنا). كلاهما ، استخدم نموذج اللغة الخارجي لزيادة النتائج. بالمقارنة ، يحقق البشر 5.83 ٪ هنا (Librispeech dev-Clean)

اسم النموذج	فك التشفير	وير ديف
`deepspeech2`	طماع	6.71

بعد فترة وجيزة اتضح أنك تحتاج إلى ضبط خط الأنابيب قليلاً. ألق نظرة على خط أنابيب CTC. خط الأنابيب مسؤول عن توصيل نموذج الشبكة العصبية بجميع التحولات غير المتمايزة (ميزات استخراج أو فك تشفير التنبؤ). مكونات خط الأنابيب مستقلة. يمكنك ضبطها على احتياجاتك على سبيل المثال ، استخدم استخراج ميزة أكثر تطوراً ، أو زيادة البيانات المختلفة ، أو إضافة وحدة فك ترميز نموذج اللغة (n-grams ثابتة أو محولات ضخمة). يمكنك أن تفعل أكثر مثل توزيع التدريب باستخدام الاستراتيجية ، أو تجربة سياسة دقة مختلطة.

 import numpy as np
import tensorflow as tf
import automatic_speech_recognition as asr

dataset = asr . dataset . Audio . from_csv ( 'train.csv' , batch_size = 32 )
dev_dataset = asr . dataset . Audio . from_csv ( 'dev.csv' , batch_size = 32 )
alphabet = asr . text . Alphabet ( lang = 'en' )
features_extractor = asr . features . FilterBanks (
    features_num = 160 ,
    winlen = 0.02 ,
    winstep = 0.01 ,
    winfunc = np . hanning
)
model = asr . model . get_deepspeech2 (
    input_dim = 160 ,
    output_dim = 29 ,
    rnn_units = 800 ,
    is_mixed_precision = False
)
optimizer = tf . optimizers . Adam (
    lr = 1e-4 ,
    beta_1 = 0.9 ,
    beta_2 = 0.999 ,
    epsilon = 1e-8
)
decoder = asr . decoder . GreedyDecoder ()
pipeline = asr . pipeline . CTCPipeline (
    alphabet , features_extractor , model , optimizer , decoder
)
pipeline . fit ( dataset , dev_dataset , epochs = 25 )
pipeline . save ( '/checkpoint' )

test_dataset = asr . dataset . Audio . from_csv ( 'test.csv' )
wer , cer = asr . evaluate . calculate_error_rates ( pipeline , test_dataset )
print ( f'WER: { wer }   CER: { cer } ' )

تثبيت

يمكنك استخدام PIP:

pip install automatic-speech-recognition

خلاف ذلك استنساخ الرمز وإنشاء بيئة جديدة عبر كوندا:

git clone https://github.com/rolczynski/Automatic-Speech-Recognition.git
conda env create -f=environment.yml     # or use: environment-gpu.yml
conda activate Automatic-Speech-Recognition

مراجع

المستودعات الأساسية:

Baidu - DeepSpeech2 - تنفيذ PaddlePaddle للعمارة DeepSpeade2 لـ ASR
NVIDIA - مجموعة أدوات للتجربة الفعالة مع التعرف على الكلام ، Text2Speech و NLP
جامعة RWTH Aachen - إطار التدريب القابل للتوسع في RWTH للشبكات العصبية المتكررة الشاملة
TensorFlow - تنفيذ نموذج DeepSpech2
Mozilla - Deepspeech - تنفيذ TensorFlow لهندسة Baidu Deepspeech
ESPNET-مجموعة أدوات معالجة الكلام من طرف إلى طرف
شون نارين - التعرف على الكلام باستخدام DeepSpech2

علاوة على ذلك ، يمكنك استكشاف github باستخدام عبارات رئيسية مثل ASR أو DeepSpeech أو Speech-To-Text . يمكن أن تكون القائمة WER_ARE_WE ، وهي محاولة لتتبع حالات الفن ، مفيدة أيضًا.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-09
الحجم 162.91KB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل