wenet -Download - wenet Source Code Download

wenet

Python

v3.1.0

Herunterladen

Wenet

Wir teilen uns das Netz zusammen.

Highlights

Produktion First und Produktion bereit : Das Kerngestaltungsprinzip, Wenet bietet vollständige Stack -Produktionslösungen für die Spracherkennung.
Genau : Wenet erzielt SOTA -Ergebnisse in vielen öffentlichen Sprachdatensätzen.
Leichtes Gewicht : Wenet ist einfach zu installieren, einfach zu bedienen, gut gestaltet und gut dokumentiert.

Installieren

Installieren Sie das Python -Paket

pip install git+https://github.com/wenet-e2e/wenet.git

Befehlszeilennutzung (verwenden -h für Parameter):

wenet --language chinese audio.wav

Python -Programmiernutzung :

 import wenet

model = wenet . load_model ( 'chinese' )
result = model . transcribe ( 'audio.wav' )
print ( result [ 'text' ])

Weitere Befehlszeilen und Python -Programmiernutzung finden Sie in der Python -Nutzung.

Installieren Sie für Schulungen und Bereitstellungen

Klonen Sie das Repo

git clone https://github.com/wenet-e2e/wenet.git

Installieren Sie Conda: Siehe https://docs.conda.io/en/latest/miniconda.html
Conda Env erstellen:

conda create -n wenet python=3.10
conda activate wenet
conda install conda-forge::sox

Installieren Sie CUDA: Bitte folgen Sie diesem Link. Es wird empfohlen, CUDA 12.1 zu installieren
Installieren Sie Torch und Torchaudio. Es ist empfohlen, 2.2.2+Cu121 zu verwenden:

pip install torch==2.2.2+cu121 torchaudio==2.2.2+cu121 -f https://download.pytorch.org/whl/torch_stable.html

Für Ascend NPU -Benutzer:

Installieren Sie CAN: Bitte folgen Sie diesem Link, um das Cann -Toolkit und die Kernel zu installieren.
Installieren Sie Wenet mit Tack-NPU-Abhängigkeiten:

pip install -e .[torch-npu]

Verwandte Versionstabelle für Versionen:

Erfordernis	Minimum	Empfehlen
Cann	8.0.RC2.Alpha003	letzte
Fackel	2.1.0	2.2.0
Torch-NPU	2.1.0	2.2.0
Torchaudio	2.1.0	2.2.0
Deepspeed	0,13.2	letzte

Installieren Sie andere Python -Pakete

pip install -r requirements.txt
pre-commit install  # for clean and tidy code

Häufig gestellte Fragen (FAQs)

 # If you encounter sox compatibility issues
RuntimeError: set_buffer_size requires sox extension which is not available.
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel
# conda env
conda install  conda-forge::sox

Für den Einsatz erstellen

Wenn Sie optional X86 -Laufzeit oder Sprachmodell (LM) verwenden möchten, müssen Sie die Laufzeit wie folgt erstellen. Andernfalls können Sie diesen Schritt einfach ignorieren.

 # runtime build requires cmake 3.14 or above
cd runtime/libtorch
mkdir build && cd build && cmake -DGRAPH_TOOLS=ON .. && cmake --build .

Weitere Informationen finden Sie in Doc, um Laufzeit auf mehr Plattformen und Betriebssystemen zu erstellen.

Diskussion und Kommunikation

Sie können direkt über GitHub -Themen diskutieren.

Für chinesische Benutzer können Sie auch den QR -Code links scannen, um unserem offiziellen Bericht über Theet zu folgen. Wir haben eine Wechat -Gruppe für eine bessere Diskussion und eine schnellere Reaktion erstellt. Bitte suche den persönlichen QR -Code rechts, und der Typ ist dafür verantwortlich, dass Sie zur Chat -Gruppe einladen.

Anerkennen

Wir haben viel Code von ESPNET für transformatorbasierte Modellierung ausgeliehen.
Wir haben uns viel Code von Kaldi für die WFST -basierte Dekodierung für die LM -Integration geliehen.
Wir haben Eesen für den Bau von TLG -basierten Diagramme für die LM -Integration verwiesen.
Wir haben auf Opentransformer für die Python -Batch -Inferenz von E2E -Modellen verwiesen.

Zitate

 @inproceedings { yao2021wenet ,
title = { WeNet: Production oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit } ,
author = { Yao, Zhuoyuan and Wu, Di and Wang, Xiong and Zhang, Binbin and Yu, Fan and Yang, Chao and Peng, Zhendong and Chen, Xiaoyu and Xie, Lei and Lei, Xin } ,
  booktitle = { Proc. Interspeech } ,
  year = { 2021 } ,
  address = { Brno, Czech Republic } ,
  organization = { IEEE }
}

@article { zhang2022wenet ,
  title = { WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit } ,
  author = { Zhang, Binbin and Wu, Di and Peng, Zhendong and Song, Xingchen and Yao, Zhuoyuan and Lv, Hang and Xie, Lei and Yang, Chao and Pan, Fuping and Niu, Jianwei } ,
  journal = { arXiv preprint arXiv:2203.15455 } ,
  year = { 2022 }
}