Pada bulan Agustus 2022, kami berada di peringkat #1 pada "Pengenalan Pidato pada Jerman Voice Common (menggunakan data pelatihan tambahan)" dengan tingkat kesalahan kata 3,64%. Dengan demikian, kinerja alat ini dianggap sebagai yang terbaik dari apa yang saat ini mungkin dalam pengakuan ucapan Jerman:
L175-L185 Muat file WAV. L189-L229 menjalankan model AI akustik. L260-L275 Konversikan logit token yang diprediksi menjadi cuplikan string. L73-L162 Menerapkan skore pencarian balok berdasarkan model bahasa Kenlm.
Jika Anda ingin tahu bagaimana model AI akustik bekerja dan mengapa saya merancangnya seperti itu, inilah kertasnya: https://arxiv.org/abs/2206.12693 dan inilah model transformator hugging-revace yang sudah dilatih sebelumnya: https://huggingface.co/fxtentacle/wav2vec2-hugging
Unduh tevr_asr_tool-1.0.0-Linux-x86_64.deb dari github dan ekstrak zip multipart:
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zipInstal:
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.debUnduh Submodules:
git submodule update --initCMake Mengkonfigurasi dan Bangun:
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16Buat Paket Debian:
(cd build && cpack -G DEB)Instal:
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt harus menampilkan transkripsi yang benar mückenstiche sollte man nicht aufkratzen . Dan log.txt akan berisi diagnostik dan kemajuan yang dicatat ke Stderr selama eksekusi.
Saya berencana untuk merilis perangkat lunak transkripsi latensi rendah-waktu Vulkan & OpenGL yang dipercepat untuk pengembang segera. Ini akan menjalankan 100% pribadi + 100% offline seperti alat ini, tetapi alih-alih memproses file WAV di CPU itu akan mengalirkan transkripsi GPU real-time dari input mikrofon Anda melalui API REST yang dapat dikendalikan oleh WEBRTC sehingga Anda dapat dengan mudah mengintegrasikannya dengan proyek yang dikendalikan oleh suara Anda sendiri. Misalnya, itu akan memungkinkan pengetikan suara yang dapat diretas bersama dengan pynput.keyboard .
Jika Anda ingin diberitahu saat diluncurkan, silakan masukkan email Anda di https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join
Alat ini sendiri bebas digunakan juga untuk penggunaan komersial. Dan tentu saja itu datang tanpa jaminan apa pun.
Tetapi jika Anda memiliki ide untuk kasus penggunaan komersial untuk versi khusus dari alat ini atau untuk teknologi serupa - idealnya sesuatu yang membantu bisnis kecil dan menengah di Jerman utara menjadi lebih kompetitif - maka silakan hubungi saya di [email protected]
Jika Anda menggunakan ini untuk penelitian, silakan kutip:
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}Model AI Jerman dan skrip pelatihan saya dapat ditemukan di HuggingFace: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr
Model ini telah mengalami pra-pelatihan lintas-bahasa XLS-R. Anda dapat langsung menyempurnakannya dengan dataset bahasa yang berbeda-misalnya CommonVoice English-dan kemudian mengekspor kembali file-file di folder tevr-asr-data .
Atau, Anda dapat menyumbangkan sekitar 2 minggu dari kredit GPU A100 untuk saya dan saya akan melatih model pengakuan yang sesuai dan mengunggahnya ke Huggingface.