Descargar wenet - Descargar el código fuente de wenet

wenet

Pitón

v3.1.0

Descargar

Wenet

Compartimos la red juntos.

Reflejos

Producción primero y preparada para la producción : el principio de diseño central, Wenet proporciona soluciones de producción de pila completa para el reconocimiento de voz.
Exacto : Wenet logra los resultados de SOTA en muchos conjuntos de datos de discursos públicos.
Peso ligero : Wenet es fácil de instalar, fácil de usar, bien diseñado y bien documentado.

Instalar

Instalar el paquete Python

pip install git+https://github.com/wenet-e2e/wenet.git

Uso de la línea de comandos (use -h para parámetros):

wenet --language chinese audio.wav

Uso de la programación de Python :

 import wenet

model = wenet . load_model ( 'chinese' )
result = model . transcribe ( 'audio.wav' )
print ( result [ 'text' ])

Consulte el uso de Python para obtener más línea de comandos y uso de la programación de Python.

Instalar para capacitación e implementación

Clonar el repositorio

git clone https://github.com/wenet-e2e/wenet.git

Instalar conda: consulte https://docs.conda.io/en/latest/miniconda.html
Crea Conda Env:

conda create -n wenet python=3.10
conda activate wenet
conda install conda-forge::sox

Instalar CUDA: siga este enlace, se recomienda instalar CUDA 12.1
Instale la antorcha y la torchaudio, se recomienda usar 2.2.2+CU121:

pip install torch==2.2.2+cu121 torchaudio==2.2.2+cu121 -f https://download.pytorch.org/whl/torch_stable.html

Para los usuarios de ASCEND NPU:

Instale Cann: siga este enlace para instalar Cann Toolkit y granos.
Instale Wenet con dependencias de antorcha-NPU:

pip install -e .[torch-npu]

Tabla de control de versiones relacionada:

Requisito	Mínimo	Recomendar
GOLPE LIGERO	8.0.rc2.alpha003	el último
antorcha	2.1.0	2.2.0
Torch-NPU	2.1.0	2.2.0
torchaudio	2.1.0	2.2.0
velocidad profunda	0.13.2	el último

Instale otros paquetes de Python

pip install -r requirements.txt
pre-commit install  # for clean and tidy code

Preguntas frecuentes (preguntas frecuentes)

 # If you encounter sox compatibility issues
RuntimeError: set_buffer_size requires sox extension which is not available.
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel
# conda env
conda install  conda-forge::sox

Construir para la implementación

Opcionalmente, si desea usar X86 Runtime o Model de idioma (LM), debe construir el tiempo de ejecución de la siguiente manera. De lo contrario, puede ignorar este paso.

 # runtime build requires cmake 3.14 or above
cd runtime/libtorch
mkdir build && cd build && cmake -DGRAPH_TOOLS=ON .. && cmake --build .

Consulte Doc para construir tiempo de ejecución en más plataformas y sistema operativo.

Discusión y comunicación

Puede discutir directamente sobre temas de GitHub.

Para los usuarios chinos, también puede escanear el código QR a la izquierda para seguir nuestra cuenta oficial de Wenet. Creamos un grupo WeChat para una mejor discusión y una respuesta más rápida. Escanee el código QR personal a la derecha, y el tipo es responsable de invitarlo al grupo de chat.

Reconocer

Tomamos prestado mucho código de ESPNet para el modelado basado en transformadores.
Tomamos prestado mucho código de Kaldi para la decodificación basada en WFST para la integración de LM.
Referimos a EESEN para construir un gráfico basado en TLG para la integración de LM.
Nos referimos al OpenRansformer para la inferencia de lotes de Python de los modelos E2E.

Citas

 @inproceedings { yao2021wenet ,
title = { WeNet: Production oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit } ,
author = { Yao, Zhuoyuan and Wu, Di and Wang, Xiong and Zhang, Binbin and Yu, Fan and Yang, Chao and Peng, Zhendong and Chen, Xiaoyu and Xie, Lei and Lei, Xin } ,
  booktitle = { Proc. Interspeech } ,
  year = { 2021 } ,
  address = { Brno, Czech Republic } ,
  organization = { IEEE }
}

@article { zhang2022wenet ,
  title = { WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit } ,
  author = { Zhang, Binbin and Wu, Di and Peng, Zhendong and Song, Xingchen and Yao, Zhuoyuan and Lv, Hang and Xie, Lei and Yang, Chao and Pan, Fuping and Niu, Jianwei } ,
  journal = { arXiv preprint arXiv:2203.15455 } ,
  year = { 2022 }
}

Expandir

Información adicional

Versión v3.1.0
Tipo Pitón
Fecha de actualización 2025-07-11
tamaño 12.72MB
Proviene de Github

Aplicaciones relacionadas

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Herramienta de gráficos de datos de código abierto Redash v24.10.0

2024-11-27
datamule python

2024-11-08
plataforma de visualización de datos smartchart v6.9

2024-11-27
Herramienta de prueba de carga de langosta v2.32.0

2024-11-27

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ToDo Co

Pitón

1.0.0
Python Portfolio

Pitón
Herramienta de gráficos de datos de código abierto Redash v24.10.0

Pitón

24.10.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo