在2022年8月,我們在“普通語音德語(使用額外的培訓數據)上的語音識別”上排名第一,單詞錯誤率為3.64%。因此,該工具的性能被認為是德國語音識別當前可能的最好的:
L175-L185加載WAV文件。 L189-L229執行聲學AI模型。 L260-L275將預測的令牌logits轉換為字符串片段。 L73-L162基於KENLM語言模型實現了梁搜索重新評分。
如果您很好奇聲學AI模型是如何工作的以及為什麼我這樣設計的,這是論文:https://arxiv.org/abs/2206.12693,這是預先訓練的Huggingface Transformers模型:https://huggingface.co/fxtententacle.co/fxtententacle/wwav2vec2-xls-xls-r-1b-1b-1b-1b-1b-1b-1b-b------b------------------------------b-1b-------------b-tevver
從github下載tevr_asr_tool-1.0.0-Linux-x86_64.deb ,然後提取多部分zip:
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zip安裝它:
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.deb下載子模型:
git submodule update --initCMAKE配置和構建:
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16創建Debian軟件包:
(cd build && cpack -G DEB)安裝它:
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt應顯示正確的轉錄mückenstiche sollte man nicht aufkratzen 。 log.txt將包含執行過程中記錄到stderr的診斷和進度。
我計劃很快為開發人員發布一個Vulkan&OpenGL加速實時低延遲轉錄軟件。就像此工具一樣,它將運行100%的私有 + 100%離線,但是不用處理CPU上的WAV文件,而是通過具有WEBRTC的REST REST API來流傳輸麥克風輸入的實時GPU轉錄,以便您可以輕鬆地將其與自己的語音控制項目集成在一起。例如,這將啟用可黑客的語音與pynput.keyboard一起鍵入。
如果您想在啟動時獲得通知,請通過https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join輸入您的電子郵件
此工具本身也可以免費用於商業用途。當然,它沒有任何形式的保證。
但是,如果您想對此工具的定製版本或類似技術的商業用例有一個想法 - 理想情況下,可以幫助德國北部的中小型企業變得更加競爭力 - 請通過[email protected]與我聯繫。
如果您將其用於研究,請引用:
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}可以在huggingface上找到德國AI模型和我的培訓腳本:https://huggingface.co/fxtentacle/wav2vec2-xls-rs-r-1b-tevr
該模型經歷了XLS-R跨語言預訓練。您可以使用其他語言數據集(例如CommonVoice English)直接對其進行調整,然後重新將文件重新輸入tevr-asr-data文件夾中的文件。
另外,您可以向我捐贈大約2週的A100 GPU積分,然後將培訓合適的識別模型並將其上傳到Huggingface。