2022年8月、3.64%のワードエラー率で「Common Voice Derman(追加のトレーニングデータを使用)の音声認識」で1位にランクされました。したがって、このツールのパフォーマンスは、ドイツの音声認識で現在可能なことの中で最高と考えられています。
L175-L185 WAVファイルをロードします。 L189-L229アコースティックAIモデルを実行します。 L260-L275予測されるトークンロジットを弦楽整形に変換します。 L73-L162 KENLM言語モデルに基づいてBeam検索再スコアを実装します。
アコースティックAIモデルがどのように機能し、なぜそのように設計したのか興味があるなら、ここに紙があります:https://arxiv.org/abs/2206.12693そして、これはhttps://huggingface./fxtentacle/wav2vec2-xls--1b-tevr
githubからtevr_asr_tool-1.0.0-Linux-x86_64.debをダウンロードして、マルチパートzipを抽出します。
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zipインストール:
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.debサブモジュールをダウンロード:
git submodule update --initcmake configure and build:
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16Debianパッケージを作成します:
(cd build && cpack -G DEB)インストール:
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt正しい転写mückenstiche sollte man nicht aufkratzen表示する必要があります。 log.txtには、実行中にSTDERにログインされた診断と進捗が含まれます。
私は、開発者向けのVulkan&OpenGL-Acceleratedリアルタイム低遅延転写ソフトウェアをまもなくリリースする予定です。このツールと同じように100%プライベート + 100%オフラインで実行されますが、CPUでWAVファイルを処理する代わりに、WeBRTC対応のREST APIを介してマイク入力のリアルタイムGPU転写をストリーミングして、独自の音声制御プロジェクトと簡単に統合できるようにします。たとえば、 pynput.keyboardと一緒にハッキング可能な音声タイピングを可能にします。
発売時に通知を取得したい場合は、https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/joinにメールを入力してください
このツール自体は、商業用にも無料で使用できます。そしてもちろん、それはいかなる種類の保証もありません。
しかし、このツールのカスタマイズされたバージョンや同様のテクノロジーの商業用ユースケースのアイデアがある場合 - 理想的には、北ドイツの中小企業がより競争力があるのを支援するものである場合は、[email protected]までご連絡ください
これを調査に使用する場合は、引用してください。
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}ドイツのAIモデルと私のトレーニングスクリプトは、Huggingface:https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevrにあります
このモデルには、XLS-Rクロス言語のトレーニングが行われています。 commonvoice英語など、別の言語データセットで直接微調整してから、 tevr-asr-dataフォルダーのファイルを再輸出できます。
または、約2週間のA100 GPUクレジットを私に寄付することもできます。適切な認識モデルをトレーニングして、Huggingfaceにアップロードします。