wenetダウンロードwenetソースコードのダウンロード

wenet

パイソン

v3.1.0

ダウンロード

ウェネット

ネットを一緒に共有します。

ハイライト

生産の最初と生産の準備：コアデザインの原則であるWenetは、音声認識のためのフルスタック生産ソリューションを提供します。
正確：WENETは、多くの公開音声データセットでSOTAの結果を達成します。
軽量：WENETはインストールが簡単で、使いやすく、設計が適切に設計されており、十分に文書化されています。

インストール

Pythonパッケージをインストールします

pip install git+https://github.com/wenet-e2e/wenet.git

コマンドライン使用法（パラメーターに-hを使用）：

wenet --language chinese audio.wav

Pythonプログラミングの使用：

 import wenet

model = wenet . load_model ( 'chinese' )
result = model . transcribe ( 'audio.wav' )
print ( result [ 'text' ])

コマンドラインとPythonプログラミングの使用については、Pythonの使用法を参照してください。

トレーニングと展開用のインストール

レポをクローンします

git clone https://github.com/wenet-e2e/wenet.git

condaをインストール：https：//docs.conda.io/en/latest/miniconda.htmlを参照してください
CREATE CONDA env：

conda create -n wenet python=3.10
conda activate wenet
conda install conda-forge::sox

CUDAのインストール：このリンクをたどってください。CUDA12.1をインストールすることをお勧めします
TorchとTorchaudioをインストールすると、2.2.2+Cu121を使用することが推奨されます。

pip install torch==2.2.2+cu121 torchaudio==2.2.2+cu121 -f https://download.pytorch.org/whl/torch_stable.html

Ascend NPUユーザーの場合：

cann：このリンクをたどって、cann toolkitとカーネルをインストールしてください。
Torch-NPU依存関係でWENETをインストールします。

pip install -e .[torch-npu]

関連バージョン制御テーブル：

要件	最小	推薦する
can	8.0.rc2.alpha003	最新
トーチ	2.1.0	2.2.0
Torch-NPU	2.1.0	2.2.0
トーチャウディオ	2.1.0	2.2.0
ディープスピード	0.13.2	最新

他のPythonパッケージをインストールします

pip install -r requirements.txt
pre-commit install  # for clean and tidy code

よくある質問（FAQ）

 # If you encounter sox compatibility issues
RuntimeError: set_buffer_size requires sox extension which is not available.
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel
# conda env
conda install  conda-forge::sox

展開用のビルド

オプションで、X86ランタイムまたは言語モデル（LM）を使用する場合は、次のようにランタイムを構築する必要があります。それ以外の場合は、このステップを無視できます。

 # runtime build requires cmake 3.14 or above
cd runtime/libtorch
mkdir build && cd build && cmake -DGRAPH_TOOLS=ON .. && cmake --build .

より多くのプラットフォームとOSでランタイムを構築するためのDocを参照してください。

ディスカッションとコミュニケーション

Githubの問題について直接話し合うことができます。

中国のユーザーの場合、左側のQRコードをスキャンして、WENETの公式アカウントに従うこともできます。より良い議論とより迅速な対応のために、WeChatグループを作成しました。右側の個人QRコードをスキャンしてください。男はチャットグループに招待する責任があります。

認める

トランスベースのモデリングのために、ESPNETから多くのコードを借りました。
LM統合用のWFSTベースのデコードのために、Kaldiから多くのコードを借りました。
LM統合のためのTLGベースのグラフを構築するためにEesenを紹介しました。
E2EモデルのPythonバッチ推論については、Opentransformerを参照しました。

引用

 @inproceedings { yao2021wenet ,
title = { WeNet: Production oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit } ,
author = { Yao, Zhuoyuan and Wu, Di and Wang, Xiong and Zhang, Binbin and Yu, Fan and Yang, Chao and Peng, Zhendong and Chen, Xiaoyu and Xie, Lei and Lei, Xin } ,
  booktitle = { Proc. Interspeech } ,
  year = { 2021 } ,
  address = { Brno, Czech Republic } ,
  organization = { IEEE }
}

@article { zhang2022wenet ,
  title = { WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit } ,
  author = { Zhang, Binbin and Wu, Di and Peng, Zhendong and Song, Xingchen and Yao, Zhuoyuan and Lv, Hang and Xie, Lei and Yang, Chao and Pan, Fuping and Niu, Jianwei } ,
  journal = { arXiv preprint arXiv:2203.15455 } ,
  year = { 2022 }
}