Descargar sherpa onnx - descarga del código fuente sherpa onnx

sherpa onnx

C/C++

v1.10.34

Descargar

Funciones soportadas

reconocimiento de voz	Síntesis de voz
✔️	✔️

Identificación del hablante	Diarización del orador	Verificación del hablante
✔️	✔️	✔️

Identificación del lenguaje hablado	Etiquetado de audio	Detección de actividad de voz
✔️	✔️	✔️

Detección de palabras clave	Agregar puntuación
✔️	✔️

Plataformas compatibles

Arquitectura	Androide	iOS	ventanas	macos	Linux	ArmoníaOS
x64	✔️		✔️	✔️	✔️	✔️
x86	✔️		✔️
brazo64	✔️	✔️	✔️	✔️	✔️	✔️
brazo32	✔️				✔️	✔️
riscv64					✔️

Lenguajes de programación soportados

1.C++	2.c	3. Pitón	4. JavaScript
✔️	✔️	✔️	✔️

5.Java	6.C#	7. Kotlin	8. veloz
✔️	✔️	✔️	✔️

9. Ir	10. dardo	11. Óxido	12. Pascal
✔️	✔️	✔️	✔️

Para obtener soporte para Rust, consulte sherpa-rs

También es compatible con WebAssembly.

Introducción

Este repositorio admite la ejecución de las siguientes funciones localmente

Voz a texto (es decir, ASR); Se admiten tanto streaming como no streaming
Texto a voz (es decir, TTS)
Diarización del orador
Identificación del hablante
Verificación del hablante
Identificación del lenguaje hablado
Etiquetado de audio
VAD (p. ej., silero-vad)
Detección de palabras clave

en las siguientes plataformas y sistemas operativos:

x86, x86_64 , ARM de 32 bits, ARM de 64 bits (arm64, aarch64), RISC-V (riscv64)
Linux, macOS, Windows, openKylin
Android, WearOS
iOS
ArmoníaOS
NodoJS
Asamblea web
Frambuesa Pi
RV1126
LicheePi4A
Visión Cinco 2
旭日X3派
爱芯派
etc.

con las siguientes API

C++, C, Python, Ir, C#
Java, Kotlin, JavaScript
Rápido, óxido
Dardo, Objeto Pascal

Enlaces para espacios Huggingface

Puedes visitar los siguientes espacios de Huggingface para probar sherpa-onnx sin instalar nada. Todo lo que necesitas es un navegador.

Descripción	URL
Diarización del orador	Haz clic en mí
reconocimiento de voz	Haz clic en mí
Reconocimiento de voz con Whisper	Haz clic en mí
Síntesis de voz	Haz clic en mí
Generar subtítulos	Haz clic en mí
Etiquetado de audio	Haz clic en mí
Identificación del lenguaje hablado con Whisper	Haz clic en mí

También contamos con espacios construidos usando WebAssembly. Se enumeran a continuación:

Descripción	espacio de cara de abrazo	Espacio modelo de alcance
Detección de actividad de voz con silero-vad	Haz clic en mí	地址
Reconocimiento de voz en tiempo real (chino + inglés) con Zipformer	Haz clic en mí	地址
Reconocimiento de voz en tiempo real (chino + inglés) con Paraformer	Haz clic en mí	地址
Reconocimiento de voz en tiempo real (chino + inglés + cantonés) con Paraformer-large	Haz clic en mí	地址
Reconocimiento de voz en tiempo real (inglés)	Haz clic en mí	地址
VAD + reconocimiento de voz (chino + inglés + coreano + japonés + cantonés) con SenseVoice	Haz clic en mí	地址
VAD + reconocimiento de voz (inglés) con Whisper tiny.es	Haz clic en mí	地址
VAD + reconocimiento de voz (inglés) con Moonshine tiny	Haz clic en mí	地址
VAD + reconocimiento de voz (inglés) con Zipformer entrenado con GigaSpeech	Haz clic en mí	地址
VAD + reconocimiento de voz (chino) con Zipformer entrenado con WenetSpeech	Haz clic en mí	地址
VAD + reconocimiento de voz (japonés) con Zipformer entrenado con ReazonSpeech	Haz clic en mí	地址
VAD + reconocimiento de voz (tailandés) con Zipformer entrenado con GigaSpeech2	Haz clic en mí	地址
VAD + reconocimiento de voz (chino 多种方言) con un modelo TeleSpeech-ASR CTC	Haz clic en mí	地址
VAD + reconocimiento de voz (inglés + chino, 及多种中文方言) con Paraformer-large	Haz clic en mí	地址
VAD + reconocimiento de voz (inglés + chino, 及多种中文方言) con Paraformer-small	Haz clic en mí	地址
Síntesis de voz (inglés)	Haz clic en mí	地址
Síntesis de voz (alemán)	Haz clic en mí	地址
Diarización del orador	Haz clic en mí	地址

Enlaces para APK de Android prediseñados

Puede encontrar APK de Android prediseñados para este repositorio en la siguiente tabla

Descripción	URL	中国用户
Diarización del orador	DIRECCIÓN	点此
Transmisión de reconocimiento de voz	DIRECCIÓN	点此
Texto a voz	DIRECCIÓN	点此
Detección de actividad de voz (VAD)	DIRECCIÓN	点此
VAD + reconocimiento de voz sin transmisión	DIRECCIÓN	点此
Reconocimiento de voz de dos pasos	DIRECCIÓN	点此
Etiquetado de audio	DIRECCIÓN	点此
Etiquetado de audio (WearOS)	DIRECCIÓN	点此
Identificación del hablante	DIRECCIÓN	点此
Identificación del lenguaje hablado	DIRECCIÓN	点此
Detección de palabras clave	DIRECCIÓN	点此

Enlaces para aplicaciones Flutter prediseñadas

Reconocimiento de voz en tiempo real

Descripción	URL	中国用户
Transmisión de reconocimiento de voz	DIRECCIÓN	点此

Texto a voz

Descripción	URL	中国用户
Android (arm64-v8a, armeabi-v7a, x86_64)	DIRECCIÓN	点此
Linux (x64)	DIRECCIÓN	点此
MacOS (x64)	DIRECCIÓN	点此
MacOS (arm64)	DIRECCIÓN	点此
Ventanas (x64)	DIRECCIÓN	点此

Nota: Debes compilar desde el código fuente para iOS.

Enlaces para aplicaciones Lazarus prediseñadas

Generando subtítulos

Descripción	URL	中国用户
Generar subtítulos (生成字幕)	DIRECCIÓN	点此

Enlaces para modelos previamente entrenados

Descripción	URL
Reconocimiento de voz (voz a texto, ASR)	DIRECCIÓN
Texto a voz (TTS)	DIRECCIÓN
VAD	DIRECCIÓN
Detección de palabras clave	DIRECCIÓN
Etiquetado de audio	DIRECCIÓN
Identificación del hablante (Speaker ID)	DIRECCIÓN
Identificación del idioma hablado (ID de idioma)	Vea los modelos Whisper ASR multilingües desde Reconocimiento de voz
Puntuación	DIRECCIÓN
Segmentación de hablantes	DIRECCIÓN

Algunos modelos ASR previamente entrenados (Streaming)

por favor vea

https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-transducer/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-paraformer/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-ctc/index.html

Para más modelos. La siguiente tabla enumera sólo ALGUNOS de ellos.

Nombre	Idiomas admitidos	Descripción
sherpa-onnx-streaming-zipformer-bilingüe-zh-es-2023-02-20	Chino, Inglés	Ver también
sherpa-onnx-streaming-zipformer-small-bilingüe-zh-es-2023-02-16	Chino, Inglés	Ver también
sherpa-onnx-streaming-zipformer-zh-14M-2023-02-23	Chino	Adecuado para CPU Cortex A7. Ver también
sherpa-onnx-streaming-zipformer-es-20M-2023-02-17	Inglés	Adecuado para CPU Cortex A7. Ver también
sherpa-onnx-streaming-zipformer-coreano-2024-06-16	coreano	Ver también
sherpa-onnx-streaming-zipformer-fr-2023-04-14	Francés	Ver también

Algunos modelos ASR previamente entrenados (sin transmisión)

por favor vea

https://k2-fsa.github.io/sherpa/onnx/pretrained_models/offline-transducer/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/offline-paraformer/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/offline-ctc/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/telespeech/index.html
https://k2-fsa.github.io/sherpa/onnx/pretrained_models/whisper/index.html

Para más modelos. La siguiente tabla enumera sólo ALGUNOS de ellos.

Nombre	Idiomas admitidos	Descripción
Whisper tiny.es	Inglés	Ver también
luz de la luna pequeña	Inglés	Ver también
sherpa-onnx-sense-voz-zh-en-ja-ko-yue-2024-07-17	Chino, cantonés, inglés, coreano, japonés	支持多种中文方言. Ver también
sherpa-onnx-paraformer-zh-2024-03-09	Chino, Inglés	也支持多种中文方言. Ver también
sherpa-onnx-zipformer-ja-reazonspeech-2024-08-01	japonés	Ver también
sherpa-onnx-nemo-transductor-giga-am-ruso-2024-10-24	ruso	Ver también
sherpa-onnx-nemo-ctc-giga-am-ruso-2024-10-24	ruso	Ver también
sherpa-onnx-zipformer-ru-2024-09-18	ruso	Ver también
sherpa-onnx-zipformer-coreano-2024-06-24	coreano	Ver también
sherpa-onnx-zipformer-thai-2024-06-20	tailandés	Ver también
sherpa-onnx-telespeech-ctc-int8-zh-2024-06-04	Chino	支持多种方言. Ver también