2022 년 8 월, 우리는 "Common Voice German (추가 교육 데이터 사용)에서의 음성 인식"에서 1 위를 차지했습니다. 따라서이 도구의 성능은 독일의 음성 인식에서 현재 가능한 것 중 최고로 간주됩니다.
L175-L185 WAV 파일을로드하십시오. L189-L229 음향 AI 모델을 실행합니다. L260-L275 예측 된 토큰 로이트를 문자열 스 니펫으로 변환합니다. L73-L162 Kenlm 언어 모델을 기반으로 빔 검색 리 스코어링을 구현하십시오.
어쿠스틱 AI 모델이 어떻게 작동하는지, 왜 그런 식으로 설계했는지 궁금하다면 다음은 다음과 같습니다. https://arxiv.org/abs/2206.12693 및 여기에 미리 훈련 된 Huggingface Transformers 모델이 있습니다.
GitHub에서 tevr_asr_tool-1.0.0-Linux-x86_64.deb 다운로드하고 Multipart Zip을 추출하십시오.
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zip설치 :
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.deb하위 모듈 다운로드 :
git submodule update --initcmake 구성 및 빌드 :
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16데비안 패키지 만들기 :
(cd build && cpack -G DEB)설치 :
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt 올바른 전사 mückenstiche sollte man nicht aufkratzen 표시해야합니다. log.txt 에는 실행 중에 STDERR에 기록 된 진단 및 진행 상황이 포함됩니다.
곧 개발자를위한 Vulkan & Opengl-Accelerated 실시간 저도 전사 소프트웨어를 출시 할 계획입니다. 이 도구와 마찬가지로 100% Private + 100% 오프라인으로 실행되지만 CPU에서 WAV 파일을 처리하는 대신 WEBRTC 가능 REST API를 통해 마이크 입력의 실시간 GPU 전사를 스트리밍하여 자체 음성 제어 프로젝트와 쉽게 통합 할 수 있습니다. 예를 들어, pynput.keyboard 와 함께 해킹 가능한 음성 입력이 가능합니다.
출시시 알림을 받으려면 https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join으로 이메일을 입력하십시오.
이 도구 자체는 상업용으로도 무료로 사용할 수 있습니다. 물론 그것은 어떤 종류의 보증도 제공하지 않습니다.
그러나이 도구의 맞춤형 버전 또는 유사한 기술에 대한 상업용 이용 사례에 대한 아이디어가 있다면, 독일 북부의 중소기업이 경쟁력이 높아지는 데 도움이되는 이상적으로 [email protected]로 연락하십시오.
이것을 연구에 사용하는 경우 다음을 인용하십시오.
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}독일 AI 모델과 내 교육 스크립트는 Huggingface에서 찾을 수 있습니다 : https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr
이 모델은 XLS-R 교차 언어 사전 훈련을 받았습니다. 다른 언어 데이터 세트 (예 : CommonVoice English)로 직접 미세 조정 한 다음 tevr-asr-data 폴더에서 파일을 다시 수출 할 수 있습니다.
또는 약 2 주 동안 A100 GPU 크레딧을 기부 할 수 있으며 적절한 인식 모델을 훈련시키고 HuggingFace에 업로드 할 것입니다.