في أغسطس 2022 ، احتلنا المرتبة الأولى في "التعرف على الكلام على الصوتية الألمانية المشتركة (باستخدام بيانات التدريب الإضافية)" بمعدل خطأ في الكلمات بنسبة 3.64 ٪. وفقًا لذلك ، يعتبر أداء هذه الأداة أفضل ما هو ممكن حاليًا في التعرف على الكلام الألماني:
L175-L185 قم بتحميل ملف WAV. L189-L229 تنفيذ نموذج AI الصوتي. L260-L275 قم بتحويل سجلات الرمز المميز المتوقع إلى مقتطفات سلسلة. L73-L162 قم بتنفيذ إعادة تسجيل البحث عن شعاع استنادًا إلى نموذج لغة Kenlm.
إذا كنت مهتمًا بالفضول حول كيفية عمل نموذج الذكاء الاصطناعي الصوتي ولماذا صممتها بهذه الطريقة ، فإليك الورقة: https://arxiv.org/abs/2206.12693 ، وهنا نموذج محولات معانقة مسبقًا: https://hugging.co/fxtentacle/wav2vec2-xls
قم بتنزيل tevr_asr_tool-1.0.0-Linux-x86_64.deb
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zipتثبيته:
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.debتنزيل العارض الفرعي:
git submodule update --initcmake تكوين وبناء:
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16إنشاء حزمة Debian:
(cd build && cpack -G DEB)تثبيته:
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt يجب عرض النسخ الصحيح mückenstiche sollte man nicht aufkratzen . وسيحتوي log.txt على التشخيص والتقدم الذي تم تسجيله إلى Stderr أثناء التنفيذ.
أخطط لإصدار برنامج النسخ المنخفض للتكليف في الوقت الفعلي في Vulkan & OpenGL للمطورين قريبًا. ستقوم بتشغيل 100 ٪ بنسبة 100 ٪ غير متصل بالإنترنت تمامًا مثل هذه الأداة ، ولكن بدلاً من معالجة ملف WAV على وحدة المعالجة المركزية ، ستقوم ببث نسخ GPU في الوقت الفعلي لإدخال الميكروفون الخاص بك من خلال واجهة برمجة تطبيقات REST التي تتوافق مع WEBRTC بحيث يمكنك بسهولة دمجها مع مشاريعك التي تسيطر عليها الصوت. على سبيل المثال ، سوف يمكّن الكتابة الصوتية القابلة للاختراق مع pynput.keyboard .
إذا كنت ترغب في الإخطار عند إطلاقه ، فيرجى إدخال بريدك الإلكتروني على https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join
هذه الأداة نفسها مجانية لاستخدامها أيضًا للاستخدام التجاري. وبالطبع يأتي مع عدم وجود ضمان من أي نوع.
ولكن إذا كان لديك فكرة عن حالة استخدام تجارية لإصدار مخصص من هذه الأداة أو لتكنولوجيا مماثلة - من الناحية المثالية ، يساعد الشركات الصغيرة والمتوسطة الحجم في شمال ألمانيا أكثر تنافسية - يرجى الاتصال بي على [email protected]
إذا كنت تستخدم هذا للبحث ، يرجى الاستشهاد:
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}يمكن العثور على نموذج AI الألماني ونصوص التدريب الخاصة بي على Luggingface: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr
لقد خضع النموذج قبل التدريب المسبق لـ XLS-R. يمكنك ضبطها مباشرة مع مجموعة بيانات لغوية مختلفة-على سبيل المثال CommonVoice English-ثم إعادة تصدير الملفات في مجلد tevr-asr-data .
بدلاً من ذلك ، يمكنك التبرع بحوالي أسبوعين من اعتمادات GPU A100 بالنسبة لي وسأقوم بتدريب نموذج التعرف المناسب وتحميله على Luggingface.