ดาวน์โหลด tevr asr tool - tevr asr tool Source Source Download

tevr asr tool

โค้ดแหล่งที่มา AI

v1.0.0

ดาวน์โหลด

เครื่องมือ Tevr ASR

ประสิทธิภาพที่ทันสมัย
- 3.64% ใช้เสียงทั่วไปภาษาเยอรมัน
- อันดับ #1 บน paperswithcode.com
ไม่จำเป็นต้องใช้ GPU
ออฟไลน์ 100%
ส่วนตัว 100%
ฟรี 100%
ใบอนุญาต MIT
Linux x86_64
เครื่องมือบรรทัดคำสั่ง
เข้าใจง่าย
- รหัส C ++ เพียง 284 บรรทัด
- โมเดล AI บน HuggingFace

คุณภาพการถอดความสูง

ในเดือนสิงหาคม 2565 เราได้อันดับ ที่ 1 ใน "การรู้จำเสียงพูดเรื่องเสียงทั่วไปภาษาเยอรมัน (ใช้ข้อมูลการฝึกอบรมเพิ่มเติม)" ด้วยอัตราข้อผิดพลาดคำ 3.64% ดังนั้นประสิทธิภาพของเครื่องมือนี้จึงถือเป็นสิ่งที่ดีที่สุดในสิ่งที่เป็นไปได้ในการรู้จำเสียงพูดภาษาเยอรมัน:

งานนี้ทำงานอย่างไร?

L175-L185 โหลดไฟล์ WAV L189-L229 ดำเนินการโมเดล ACOUSTIC AI L260-L275 แปลงบันทึกโทเค็นที่คาดการณ์ไว้เป็นตัวอย่างสตริง L73-L162 ใช้การค้นหาลำแสงใหม่ตามรูปแบบภาษา Kenlm

หากคุณอยากรู้ว่าโมเดลอะคูสติก AI ทำงานได้อย่างไรและทำไมฉันถึงออกแบบมันด้วยวิธีนี้นี่คือกระดาษ: https://arxiv.org/abs/2206.12693 และนี่คือรูปแบบการฝึกฝน HuggingFace ก่อนหน้านี้: https://huggingface.co/fxtentacle

ติดตั้งแพ็คเกจ Debian/Ubuntu

ดาวน์โหลด tevr_asr_tool-1.0.0-Linux-x86_64.deb จาก gitHub และแยกซิปหลายส่วน:

wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zip

ติดตั้ง:

sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.deb

ติดตั้งจากซอร์สโค้ด

ดาวน์โหลด submodules:

git submodule update --init

cmake กำหนดค่าและสร้าง:

cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16

สร้างแพ็คเกจ Debian:

(cd build && cpack -G DEB)

ติดตั้ง:

sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.deb

การใช้งาน

tevr_asr_tool --target_file=test_audio.wav 2> log.txt

ควรแสดงการถอดความที่ถูกต้อง mückenstiche sollte man nicht aufkratzen และ log.txt จะมีการวินิจฉัยและความคืบหน้าที่บันทึกไปยัง stderr ระหว่างการดำเนินการ

การเร่งความเร็ว GPU สำหรับนักพัฒนา

ฉันวางแผนที่จะเปิดตัวซอฟต์แวร์การถอดรหัสการถอดรหัสต่ำแบบเรียลไทม์แบบเรียลไทม์แบบเรียลไทม์สำหรับนักพัฒนาในไม่ช้า มันจะเรียกใช้ส่วนตัว 100% + 100% ออฟไลน์เช่นเดียวกับเครื่องมือนี้ แต่แทนที่จะประมวลผลไฟล์ WAV บน CPU มันจะสตรีมการถอดรหัส GPU แบบเรียลไทม์ของอินพุตไมโครโฟนของคุณผ่าน API REST ที่สามารถใช้งานได้ WEBRTC เพื่อให้คุณสามารถรวมเข้ากับโครงการที่ควบคุมด้วยเสียงของคุณเองได้อย่างง่ายดาย ตัวอย่างเช่นนั่นจะเปิดใช้งานการพิมพ์เสียงที่แฮ็กได้พร้อมกับ pynput.keyboard

หากคุณต้องการได้รับการแจ้งเตือนเมื่อเปิดตัวโปรดป้อนอีเมลของคุณที่ https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join

การปรับแต่งเชิงพาณิชย์

เครื่องมือนี้มีอิสระที่จะใช้สำหรับการใช้งานเชิงพาณิชย์ และแน่นอนว่ามันมาพร้อมกับการรับประกันใด ๆ

แต่ถ้าคุณมีความคิดสำหรับกรณีการใช้งานเชิงพาณิชย์สำหรับรุ่นที่กำหนดเองของเครื่องมือนี้หรือสำหรับเทคโนโลยีที่คล้ายกัน - บางสิ่งบางอย่างที่ช่วยให้ธุรกิจขนาดเล็กและขนาดกลางในภาคเหนือของเยอรมนีสามารถแข่งขันได้มากขึ้น - โปรดติดต่อฉันที่ [email protected]

การอ้างอิงการวิจัย

หากคุณใช้สิ่งนี้เพื่อการวิจัยโปรดอ้างอิง:

 @misc { https://doi.org/10.48550/arxiv.2206.12693 ,
  doi = { 10.48550/ARXIV.2206.12693 } ,
  url = { https://arxiv.org/abs/2206.12693 } ,
  author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,  
  keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,  
  title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,  
  publisher = { arXiv } ,  
  year = { 2022 } , 
  copyright = { Creative Commons Attribution 4.0 International }
}

แทนที่โมเดล AI

โมเดล AI ของเยอรมันและสคริปต์การฝึกอบรมของฉันสามารถพบได้ใน HuggingFace: https://huggingface.co/fxtentacle/wav2Vec2-xls-R-1B-TEVR

แบบจำลองนี้ได้รับการฝึกอบรมล่วงหน้า XLS-R Cross-Language คุณสามารถปรับแต่งได้โดยตรงด้วยชุดข้อมูลภาษาอื่น-ตัวอย่างเช่น Commonvoice English-จากนั้นส่งออกไฟล์ในโฟลเดอร์ tevr-asr-data อีกครั้ง

หรือคุณสามารถบริจาคเครดิต A100 GPU ให้ฉันได้ประมาณ 2 สัปดาห์และฉันจะฝึกอบรมรูปแบบการจดจำที่เหมาะสมและอัปโหลดไปยัง HuggingFace

ขยาย

ข้อมูลเพิ่มเติม