ในเดือนสิงหาคม 2565 เราได้อันดับ ที่ 1 ใน "การรู้จำเสียงพูดเรื่องเสียงทั่วไปภาษาเยอรมัน (ใช้ข้อมูลการฝึกอบรมเพิ่มเติม)" ด้วยอัตราข้อผิดพลาดคำ 3.64% ดังนั้นประสิทธิภาพของเครื่องมือนี้จึงถือเป็นสิ่งที่ดีที่สุดในสิ่งที่เป็นไปได้ในการรู้จำเสียงพูดภาษาเยอรมัน:
L175-L185 โหลดไฟล์ WAV L189-L229 ดำเนินการโมเดล ACOUSTIC AI L260-L275 แปลงบันทึกโทเค็นที่คาดการณ์ไว้เป็นตัวอย่างสตริง L73-L162 ใช้การค้นหาลำแสงใหม่ตามรูปแบบภาษา Kenlm
หากคุณอยากรู้ว่าโมเดลอะคูสติก AI ทำงานได้อย่างไรและทำไมฉันถึงออกแบบมันด้วยวิธีนี้นี่คือกระดาษ: https://arxiv.org/abs/2206.12693 และนี่คือรูปแบบการฝึกฝน HuggingFace ก่อนหน้านี้: https://huggingface.co/fxtentacle
ดาวน์โหลด tevr_asr_tool-1.0.0-Linux-x86_64.deb จาก gitHub และแยกซิปหลายส่วน:
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zipติดตั้ง:
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.debดาวน์โหลด submodules:
git submodule update --initcmake กำหนดค่าและสร้าง:
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16สร้างแพ็คเกจ Debian:
(cd build && cpack -G DEB)ติดตั้ง:
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt ควรแสดงการถอดความที่ถูกต้อง mückenstiche sollte man nicht aufkratzen และ log.txt จะมีการวินิจฉัยและความคืบหน้าที่บันทึกไปยัง stderr ระหว่างการดำเนินการ
ฉันวางแผนที่จะเปิดตัวซอฟต์แวร์การถอดรหัสการถอดรหัสต่ำแบบเรียลไทม์แบบเรียลไทม์แบบเรียลไทม์สำหรับนักพัฒนาในไม่ช้า มันจะเรียกใช้ส่วนตัว 100% + 100% ออฟไลน์เช่นเดียวกับเครื่องมือนี้ แต่แทนที่จะประมวลผลไฟล์ WAV บน CPU มันจะสตรีมการถอดรหัส GPU แบบเรียลไทม์ของอินพุตไมโครโฟนของคุณผ่าน API REST ที่สามารถใช้งานได้ WEBRTC เพื่อให้คุณสามารถรวมเข้ากับโครงการที่ควบคุมด้วยเสียงของคุณเองได้อย่างง่ายดาย ตัวอย่างเช่นนั่นจะเปิดใช้งานการพิมพ์เสียงที่แฮ็กได้พร้อมกับ pynput.keyboard
หากคุณต้องการได้รับการแจ้งเตือนเมื่อเปิดตัวโปรดป้อนอีเมลของคุณที่ https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join
เครื่องมือนี้มีอิสระที่จะใช้สำหรับการใช้งานเชิงพาณิชย์ และแน่นอนว่ามันมาพร้อมกับการรับประกันใด ๆ
แต่ถ้าคุณมีความคิดสำหรับกรณีการใช้งานเชิงพาณิชย์สำหรับรุ่นที่กำหนดเองของเครื่องมือนี้หรือสำหรับเทคโนโลยีที่คล้ายกัน - บางสิ่งบางอย่างที่ช่วยให้ธุรกิจขนาดเล็กและขนาดกลางในภาคเหนือของเยอรมนีสามารถแข่งขันได้มากขึ้น - โปรดติดต่อฉันที่ [email protected]
หากคุณใช้สิ่งนี้เพื่อการวิจัยโปรดอ้างอิง:
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}โมเดล AI ของเยอรมันและสคริปต์การฝึกอบรมของฉันสามารถพบได้ใน HuggingFace: https://huggingface.co/fxtentacle/wav2Vec2-xls-R-1B-TEVR
แบบจำลองนี้ได้รับการฝึกอบรมล่วงหน้า XLS-R Cross-Language คุณสามารถปรับแต่งได้โดยตรงด้วยชุดข้อมูลภาษาอื่น-ตัวอย่างเช่น Commonvoice English-จากนั้นส่งออกไฟล์ในโฟลเดอร์ tevr-asr-data อีกครั้ง
หรือคุณสามารถบริจาคเครดิต A100 GPU ให้ฉันได้ประมาณ 2 สัปดาห์และฉันจะฝึกอบรมรูปแบบการจดจำที่เหมาะสมและอัปโหลดไปยัง HuggingFace