wenet 다운로드 wenet 소스 코드 다운로드

wenet

파이썬

v3.1.0

다운로드

wenet

로드맵 | 문서 | 논문 | 런타임 | 사전 예방 모델 | 포옹 페이스 | wenet guru에게 물어보십시오

우리는 그물을 함께 공유합니다.

하이라이트

생산 최초 및 생산 준비 : 핵심 디자인 원칙 인 WENET은 음성 인식을위한 풀 스택 생산 솔루션을 제공합니다.
정확한 : Wenet은 많은 공개 연설 데이터 세트에서 SOTA 결과를 달성합니다.
가벼운 무게 : Wenet은 설치가 쉽고 사용하기 쉽고 잘 설계되었으며 잘 문서화되어 있습니다.

설치하다

파이썬 패키지를 설치하십시오

pip install git+https://github.com/wenet-e2e/wenet.git

명령 줄 사용법 (매개 변수의 경우 -h 사용) :

wenet --language chinese audio.wav

파이썬 프로그래밍 사용 :

 import wenet

model = wenet . load_model ( 'chinese' )
result = model . transcribe ( 'audio.wav' )
print ( result [ 'text' ])

더 많은 명령 줄 및 Python 프로그래밍 사용에 대해서는 Python 사용을 참조하십시오.

교육 및 배포를 위해 설치하십시오

레포를 복제하십시오

git clone https://github.com/wenet-e2e/wenet.git

콘다 설치 : https://docs.conda.io/en/latest/miniconda.html을 참조하십시오
Conda Env 만들기 :

conda create -n wenet python=3.10
conda activate wenet
conda install conda-forge::sox

CUDA 설치 :이 링크를 따르십시오. CUDA 12.1을 설치하는 것이 좋습니다.
Torch와 Torchaudio를 설치하면 2.2.2+Cu121을 사용하도록 권장됩니다.

pip install torch==2.2.2+cu121 torchaudio==2.2.2+cu121 -f https://download.pytorch.org/whl/torch_stable.html

상승 NPU 사용자 :

CANN 설치 :이 링크를 따라 Cann Toolkit 및 Kernel을 설치하십시오.
Torch-NPU 종속성으로 Wenet을 설치하십시오.

pip install -e .[torch-npu]

관련 버전 제어 테이블 :

요구 사항	최저한의	추천하다
칸	8.0.rc2.alpha003	최신
토치	2.1.0	2.2.0
토치 -NPU	2.1.0	2.2.0
Torchaudio	2.1.0	2.2.0
딥 스피드	0.13.2	최신

다른 Python 패키지를 설치하십시오

pip install -r requirements.txt
pre-commit install  # for clean and tidy code

자주 묻는 질문 (FAQ)

 # If you encounter sox compatibility issues
RuntimeError: set_buffer_size requires sox extension which is not available.
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel
# conda env
conda install  conda-forge::sox

배포를위한 빌드

선택적으로 X86 런타임 또는 언어 모델 (LM)을 사용하려면 다음과 같이 런타임을 구축해야합니다. 그렇지 않으면이 단계를 무시할 수 있습니다.

 # runtime build requires cmake 3.14 or above
cd runtime/libtorch
mkdir build && cd build && cmake -DGRAPH_TOOLS=ON .. && cmake --build .

더 많은 플랫폼 및 OS에서 런타임을 구축하려면 DOC를 참조하십시오.

토론 및 커뮤니케이션

GitHub 문제에 대해 직접 논의 할 수 있습니다.

중국 사용자의 경우 왼쪽의 QR 코드를 스캔하여 공식 WENET 계정을 따라갈 수도 있습니다. 우리는 더 나은 토론과 더 빠른 응답을 위해 WeChat 그룹을 만들었습니다. 오른쪽에있는 개인 QR 코드를 스캔하면 그 사람이 채팅 그룹에 초대 할 책임이 있습니다.

인정하다

ESPNET에서 Transformer 기반 모델링을 위해 많은 코드를 빌 렸습니다.
LM 통합을위한 WFST 기반 디코딩을 위해 Kaldi에서 많은 코드를 빌 렸습니다.
우리는 LM 통합을위한 TLG 기반 그래프를 구축하기 위해 Eesen을 참조했습니다.
우리는 E2E 모델의 파이썬 배치 추론을 위해 OpentRansformer를 언급했습니다.

인용

 @inproceedings { yao2021wenet ,
title = { WeNet: Production oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit } ,
author = { Yao, Zhuoyuan and Wu, Di and Wang, Xiong and Zhang, Binbin and Yu, Fan and Yang, Chao and Peng, Zhendong and Chen, Xiaoyu and Xie, Lei and Lei, Xin } ,
  booktitle = { Proc. Interspeech } ,
  year = { 2021 } ,
  address = { Brno, Czech Republic } ,
  organization = { IEEE }
}

@article { zhang2022wenet ,
  title = { WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit } ,
  author = { Zhang, Binbin and Wu, Di and Peng, Zhendong and Song, Xingchen and Yao, Zhuoyuan and Lv, Hang and Xie, Lei and Yang, Chao and Pan, Fuping and Niu, Jianwei } ,
  journal = { arXiv preprint arXiv:2203.15455 } ,
  year = { 2022 }
}