| reconocimiento de voz | Síntesis de voz |
|---|---|
| ✔️ | ✔️ |
| Identificación del hablante | Diarización del orador | Verificación del hablante |
|---|---|---|
| ✔️ | ✔️ | ✔️ |
| Identificación del lenguaje hablado | Etiquetado de audio | Detección de actividad de voz |
|---|---|---|
| ✔️ | ✔️ | ✔️ |
| Detección de palabras clave | Agregar puntuación |
|---|---|
| ✔️ | ✔️ |
| Arquitectura | Androide | iOS | ventanas | macos | Linux | ArmoníaOS |
|---|---|---|---|---|---|---|
| x64 | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | |
| x86 | ✔️ | ✔️ | ||||
| brazo64 | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
| brazo32 | ✔️ | ✔️ | ✔️ | |||
| riscv64 | ✔️ |
| 1.C++ | 2.c | 3. Pitón | 4. JavaScript |
|---|---|---|---|
| ✔️ | ✔️ | ✔️ | ✔️ |
| 5.Java | 6.C# | 7. Kotlin | 8. veloz |
|---|---|---|---|
| ✔️ | ✔️ | ✔️ | ✔️ |
| 9. Ir | 10. dardo | 11. Óxido | 12. Pascal |
|---|---|---|---|
| ✔️ | ✔️ | ✔️ | ✔️ |
Para obtener soporte para Rust, consulte sherpa-rs
También es compatible con WebAssembly.
Este repositorio admite la ejecución de las siguientes funciones localmente
en las siguientes plataformas y sistemas operativos:
x86_64 , ARM de 32 bits, ARM de 64 bits (arm64, aarch64), RISC-V (riscv64)con las siguientes API
C#| Descripción | URL |
|---|---|
| Diarización del orador | Haz clic en mí |
| reconocimiento de voz | Haz clic en mí |
| Reconocimiento de voz con Whisper | Haz clic en mí |
| Síntesis de voz | Haz clic en mí |
| Generar subtítulos | Haz clic en mí |
| Etiquetado de audio | Haz clic en mí |
| Identificación del lenguaje hablado con Whisper | Haz clic en mí |
También contamos con espacios construidos usando WebAssembly. Se enumeran a continuación:
| Descripción | espacio de cara de abrazo | Espacio modelo de alcance |
|---|---|---|
| Detección de actividad de voz con silero-vad | Haz clic en mí | 地址 |
| Reconocimiento de voz en tiempo real (chino + inglés) con Zipformer | Haz clic en mí | 地址 |
| Reconocimiento de voz en tiempo real (chino + inglés) con Paraformer | Haz clic en mí | 地址 |
| Reconocimiento de voz en tiempo real (chino + inglés + cantonés) con Paraformer-large | Haz clic en mí | 地址 |
| Reconocimiento de voz en tiempo real (inglés) | Haz clic en mí | 地址 |
| VAD + reconocimiento de voz (chino + inglés + coreano + japonés + cantonés) con SenseVoice | Haz clic en mí | 地址 |
| VAD + reconocimiento de voz (inglés) con Whisper tiny.es | Haz clic en mí | 地址 |
| VAD + reconocimiento de voz (inglés) con Moonshine tiny | Haz clic en mí | 地址 |
| VAD + reconocimiento de voz (inglés) con Zipformer entrenado con GigaSpeech | Haz clic en mí | 地址 |
| VAD + reconocimiento de voz (chino) con Zipformer entrenado con WenetSpeech | Haz clic en mí | 地址 |
| VAD + reconocimiento de voz (japonés) con Zipformer entrenado con ReazonSpeech | Haz clic en mí | 地址 |
| VAD + reconocimiento de voz (tailandés) con Zipformer entrenado con GigaSpeech2 | Haz clic en mí | 地址 |
| VAD + reconocimiento de voz (chino 多种方言) con un modelo TeleSpeech-ASR CTC | Haz clic en mí | 地址 |
| VAD + reconocimiento de voz (inglés + chino, 及多种中文方言) con Paraformer-large | Haz clic en mí | 地址 |
| VAD + reconocimiento de voz (inglés + chino, 及多种中文方言) con Paraformer-small | Haz clic en mí | 地址 |
| Síntesis de voz (inglés) | Haz clic en mí | 地址 |
| Síntesis de voz (alemán) | Haz clic en mí | 地址 |
| Diarización del orador | Haz clic en mí | 地址 |
| Descripción | URL | 中国用户 |
|---|---|---|
| Diarización del orador | DIRECCIÓN | 点此 |
| Transmisión de reconocimiento de voz | DIRECCIÓN | 点此 |
| Texto a voz | DIRECCIÓN | 点此 |
| Detección de actividad de voz (VAD) | DIRECCIÓN | 点此 |
| VAD + reconocimiento de voz sin transmisión | DIRECCIÓN | 点此 |
| Reconocimiento de voz de dos pasos | DIRECCIÓN | 点此 |
| Etiquetado de audio | DIRECCIÓN | 点此 |
| Etiquetado de audio (WearOS) | DIRECCIÓN | 点此 |
| Identificación del hablante | DIRECCIÓN | 点此 |
| Identificación del lenguaje hablado | DIRECCIÓN | 点此 |
| Detección de palabras clave | DIRECCIÓN | 点此 |
| Descripción | URL | 中国用户 |
|---|---|---|
| Transmisión de reconocimiento de voz | DIRECCIÓN | 点此 |
| Descripción | URL | 中国用户 |
|---|---|---|
| Android (arm64-v8a, armeabi-v7a, x86_64) | DIRECCIÓN | 点此 |
| Linux (x64) | DIRECCIÓN | 点此 |
| MacOS (x64) | DIRECCIÓN | 点此 |
| MacOS (arm64) | DIRECCIÓN | 点此 |
| Ventanas (x64) | DIRECCIÓN | 点此 |
Nota: Debes compilar desde el código fuente para iOS.
| Descripción | URL | 中国用户 |
|---|---|---|
| Generar subtítulos (生成字幕) | DIRECCIÓN | 点此 |
| Descripción | URL |
|---|---|
| Reconocimiento de voz (voz a texto, ASR) | DIRECCIÓN |
| Texto a voz (TTS) | DIRECCIÓN |
| VAD | DIRECCIÓN |
| Detección de palabras clave | DIRECCIÓN |
| Etiquetado de audio | DIRECCIÓN |
| Identificación del hablante (Speaker ID) | DIRECCIÓN |
| Identificación del idioma hablado (ID de idioma) | Vea los modelos Whisper ASR multilingües desde Reconocimiento de voz |
| Puntuación | DIRECCIÓN |
| Segmentación de hablantes | DIRECCIÓN |
por favor vea
Para más modelos. La siguiente tabla enumera sólo ALGUNOS de ellos.
| Nombre | Idiomas admitidos | Descripción |
|---|---|---|
| sherpa-onnx-streaming-zipformer-bilingüe-zh-es-2023-02-20 | Chino, Inglés | Ver también |
| sherpa-onnx-streaming-zipformer-small-bilingüe-zh-es-2023-02-16 | Chino, Inglés | Ver también |
| sherpa-onnx-streaming-zipformer-zh-14M-2023-02-23 | Chino | Adecuado para CPU Cortex A7. Ver también |
| sherpa-onnx-streaming-zipformer-es-20M-2023-02-17 | Inglés | Adecuado para CPU Cortex A7. Ver también |
| sherpa-onnx-streaming-zipformer-coreano-2024-06-16 | coreano | Ver también |
| sherpa-onnx-streaming-zipformer-fr-2023-04-14 | Francés | Ver también |
por favor vea
Para más modelos. La siguiente tabla enumera sólo ALGUNOS de ellos.
| Nombre | Idiomas admitidos | Descripción |
|---|---|---|
| Whisper tiny.es | Inglés | Ver también |
| luz de la luna pequeña | Inglés | Ver también |
| sherpa-onnx-sense-voz-zh-en-ja-ko-yue-2024-07-17 | Chino, cantonés, inglés, coreano, japonés | 支持多种中文方言. Ver también |
| sherpa-onnx-paraformer-zh-2024-03-09 | Chino, Inglés | 也支持多种中文方言. Ver también |
| sherpa-onnx-zipformer-ja-reazonspeech-2024-08-01 | japonés | Ver también |
| sherpa-onnx-nemo-transductor-giga-am-ruso-2024-10-24 | ruso | Ver también |
| sherpa-onnx-nemo-ctc-giga-am-ruso-2024-10-24 | ruso | Ver también |
| sherpa-onnx-zipformer-ru-2024-09-18 | ruso | Ver también |
| sherpa-onnx-zipformer-coreano-2024-06-24 | coreano | Ver también |
| sherpa-onnx-zipformer-thai-2024-06-20 | tailandés | Ver también |
| sherpa-onnx-telespeech-ctc-int8-zh-2024-06-04 | Chino | 支持多种方言. Ver también |
Consulte https://k2-fsa.github.io/sherpa/social-groups.html para 新一代 Kaldi微信交流群y QQ 交流群.
Muestra cómo utilizar las API de Python ASR y TTS con FastAPI.
Utiliza streaming ASR en C# con interfaz gráfica de usuario.
Vídeo de demostración en chino: 【开源】Windows实时字幕软件(网课/开会必备)
Utiliza la API de JavaScript de sherpa-onnx junto con Electron
Vídeo de demostración en chino:爆了!炫神教你开打字挂!真正影响胜率的英雄联盟工具!英雄联盟的最后一块拼图!和游戏中的每个人无障碍沟通!