wenet
v3.1.0
로드맵 | 문서 | 논문 | 런타임 | 사전 예방 모델 | 포옹 페이스 | wenet guru에게 물어보십시오
우리는 그물을 함께 공유합니다.
pip install git+https://github.com/wenet-e2e/wenet.git 명령 줄 사용법 (매개 변수의 경우 -h 사용) :
wenet --language chinese audio.wav파이썬 프로그래밍 사용 :
import wenet
model = wenet . load_model ( 'chinese' )
result = model . transcribe ( 'audio.wav' )
print ( result [ 'text' ])더 많은 명령 줄 및 Python 프로그래밍 사용에 대해서는 Python 사용을 참조하십시오.
git clone https://github.com/wenet-e2e/wenet.gitconda create -n wenet python=3.10
conda activate wenet
conda install conda-forge::soxpip install torch==2.2.2+cu121 torchaudio==2.2.2+cu121 -f https://download.pytorch.org/whl/torch_stable.htmlCANN 설치 :이 링크를 따라 Cann Toolkit 및 Kernel을 설치하십시오.
Torch-NPU 종속성으로 Wenet을 설치하십시오.
pip install -e .[torch-npu]| 요구 사항 | 최저한의 | 추천하다 |
|---|---|---|
| 칸 | 8.0.rc2.alpha003 | 최신 |
| 토치 | 2.1.0 | 2.2.0 |
| 토치 -NPU | 2.1.0 | 2.2.0 |
| Torchaudio | 2.1.0 | 2.2.0 |
| 딥 스피드 | 0.13.2 | 최신 |
pip install -r requirements.txt
pre-commit install # for clean and tidy code # If you encounter sox compatibility issues
RuntimeError: set_buffer_size requires sox extension which is not available.
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel
# conda env
conda install conda-forge::sox배포를위한 빌드
선택적으로 X86 런타임 또는 언어 모델 (LM)을 사용하려면 다음과 같이 런타임을 구축해야합니다. 그렇지 않으면이 단계를 무시할 수 있습니다.
# runtime build requires cmake 3.14 or above
cd runtime/libtorch
mkdir build && cd build && cmake -DGRAPH_TOOLS=ON .. && cmake --build .더 많은 플랫폼 및 OS에서 런타임을 구축하려면 DOC를 참조하십시오.
GitHub 문제에 대해 직접 논의 할 수 있습니다.
중국 사용자의 경우 왼쪽의 QR 코드를 스캔하여 공식 WENET 계정을 따라갈 수도 있습니다. 우리는 더 나은 토론과 더 빠른 응답을 위해 WeChat 그룹을 만들었습니다. 오른쪽에있는 개인 QR 코드를 스캔하면 그 사람이 채팅 그룹에 초대 할 책임이 있습니다.
![]() | ![]() |
|---|
@inproceedings { yao2021wenet ,
title = { WeNet: Production oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit } ,
author = { Yao, Zhuoyuan and Wu, Di and Wang, Xiong and Zhang, Binbin and Yu, Fan and Yang, Chao and Peng, Zhendong and Chen, Xiaoyu and Xie, Lei and Lei, Xin } ,
booktitle = { Proc. Interspeech } ,
year = { 2021 } ,
address = { Brno, Czech Republic } ,
organization = { IEEE }
}
@article { zhang2022wenet ,
title = { WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit } ,
author = { Zhang, Binbin and Wu, Di and Peng, Zhendong and Song, Xingchen and Yao, Zhuoyuan and Lv, Hang and Xie, Lei and Yang, Chao and Pan, Fuping and Niu, Jianwei } ,
journal = { arXiv preprint arXiv:2203.15455 } ,
year = { 2022 }
}