tevr asr toolダウンロードtevr asr toolソースコードダウンロード

tevr asr tool

AI ソースコード

v1.0.0

ダウンロード

tevr asrツール

最先端のパフォーマンス
- 3.64％が一般的な音声ドイツ語で
- PaperSwithCode.comのランク＃1
GPUは必要ありません
100％オフライン
100％プライベート
100％無料
MITライセンス
Linux X86_64
コマンドラインツール
理解しやすい
- C ++コードの284行のみ
- HuggingfaceのAIモデル

高い転写品質

2022年8月、3.64％のワードエラー率で「Common Voice Derman（追加のトレーニングデータを使用）の音声認識」で1位にランクされました。したがって、このツールのパフォーマンスは、ドイツの音声認識で現在可能なことの中で最高と考えられています。

これはどのように作動しますか？

L175-L185 WAVファイルをロードします。 L189-L229アコースティックAIモデルを実行します。 L260-L275予測されるトークンロジットを弦楽整形に変換します。 L73-L162 KENLM言語モデルに基づいてBeam検索再スコアを実装します。

アコースティックAIモデルがどのように機能し、なぜそのように設計したのか興味があるなら、ここに紙があります：https：//arxiv.org/abs/2206.12693そして、これはhttps://huggingface./fxtentacle/wav2vec2-xls--1b-tevr

Debian/Ubuntuパッケージをインストールします

githubからtevr_asr_tool-1.0.0-Linux-x86_64.debをダウンロードして、マルチパートzipを抽出します。

wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zip

インストール：

sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.deb

ソースコードからインストールします

サブモジュールをダウンロード：

git submodule update --init

cmake configure and build：

cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16

Debianパッケージを作成します：

(cd build && cpack -G DEB)

インストール：

sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.deb

使用法

tevr_asr_tool --target_file=test_audio.wav 2> log.txt

正しい転写mückenstiche sollte man nicht aufkratzen表示する必要があります。 log.txtには、実行中にSTDERにログインされた診断と進捗が含まれます。

開発者向けのGPU加速

私は、開発者向けのVulkan＆OpenGL-Acceleratedリアルタイム低遅延転写ソフトウェアをまもなくリリースする予定です。このツールと同じように100％プライベート + 100％オフラインで実行されますが、CPUでWAVファイルを処理する代わりに、WeBRTC対応のREST APIを介してマイク入力のリアルタイムGPU転写をストリーミングして、独自の音声制御プロジェクトと簡単に統合できるようにします。たとえば、 pynput.keyboardと一緒にハッキング可能な音声タイピングを可能にします。

発売時に通知を取得したい場合は、https：//madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/joinにメールを入力してください

商業的なカスタマイズ

このツール自体は、商業用にも無料で使用できます。そしてもちろん、それはいかなる種類の保証もありません。

しかし、このツールのカスタマイズされたバージョンや同様のテクノロジーの商業用ユースケースのアイデアがある場合 - 理想的には、北ドイツの中小企業がより競争力があるのを支援するものである場合は、[email protected]までご連絡ください

研究の引用

これを調査に使用する場合は、引用してください。

 @misc { https://doi.org/10.48550/arxiv.2206.12693 ,
  doi = { 10.48550/ARXIV.2206.12693 } ,
  url = { https://arxiv.org/abs/2206.12693 } ,
  author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,  
  keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,  
  title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,  
  publisher = { arXiv } ,  
  year = { 2022 } , 
  copyright = { Creative Commons Attribution 4.0 International }
}