Descarga de SimpleSpeechLoop - Descargar el código fuente de SimpleSpeechLoop

SimpleSpeechLoop

Código Fuente de IA

1.0.0

Descargar

Sencilla -Steechloop

SimpleSpeechloop: una demostración muy básica que conecta el reconocimiento de voz y el texto a la voz, utilizando dos proyectos de Mozilla:

Punto de vista profundo
TTS

¿Qué es esto?

Es un bot que escucha lo que dice con el reconocimiento de voz de ejecución local y luego ofrece un par de respuestas (limitadas) utilizando texto a voz

Vea el video de demostración aquí: https://www.youtube.com/watch?v=cdu6oz1bnoy

Advertencia: requiere que tenga instalaciones en funcionamiento de DeepSpeech ( V0.7.0 ) y TTS, que pueden necesitar una cierta cantidad de habilidad para configurar (aunque eso se está volviendo más fácil y más fácil gracias a los esfuerzos de los desarrolladores en los proyectos respectivos).

Si tiene problemas para configurar cualquiera de ellos, el mejor enfoque es leer cuidadosamente las instrucciones de instalación para asegurarse de que no se haya perdido nada y si está seguro de que ha descartado los problemas potenciales obvios, plantearlo en el Foro de Discurso relevante (dando detalles claros de lo que sí, recuerde, otros no podrán ayudarlo si está vago en esta parte )

Discurso de expresión profunda
Discurso de TTS

Hay cinco acciones básicas:

Haciéndose eco: este es el valor predeterminado: retrocederá cualquiera que sea el reconocimiento de voz que cree que te oyó decir
"Cuéntame sobre ___": buscará un documento de Wikipedia para la palabra que viene después de "Cuéntame sobre" y lea el resumen. Los buenos ejemplos son cosas como elementos, por ejemplo, "cuéntame sobre el hierro", devuelve el resumen derivado de esta página: https://en.wikipedia.org/wiki/iron
"Make a Robot Noise": reproducirá el archivo robot_noise.wav ( este puede ser mezclado con bastante frecuencia, al menos con mis modelos de discurso hasta ahora! ) [Actualmente comentado]
"Pausa": Pausará escuchar durante 20 segundos (¡así que detiene el eco incesante!)
"Parar": hará que la aplicación deje de funcionar

Al mirar el código, debería poder agregar más. Para cualquier cosa más complicada, querrás un enfoque más sofisticado más allá de este tipo de bucle simple.

Tenga en cuenta que si hay cambios en las API del proyecto de apoyo a medida que avanzan sus versiones, es posible que deba hacer ajustes al código aquí para que siga funcionando. Debería funcionar con la versión 0.51 de DeepSpeech. Es efectivamente una versión adaptada de la demostración de VAD del repositorio de ejemplos profundos con TTS atornillados y algunos trucos simples para que te diga algo.

¿Se comparte "como es" con la esperanza de que sea útil de alguna manera pequeña?

Solo lo he probado en Linux, ¡la mejor de las suertes si intentas adaptarlo para Mac / Windows!

Para ejecutarlo

Configuración de audio: ¡Asegúrese de tener un micrófono de trabajo y un audio, enchufado en altavoces o auriculares!
Instale DeepSpeech y TTS , mejor para referirse a esos proyectos directamente. Le recomiendo que lo haga en un entorno virtual para cada uno (Demo.py se ejecuta desde DeepSpeech One y el servidor TTS se ejecuta desde el TTS One). Deberá instalar los requisitos de Demo.py también (en el entorno DeepSpeech); desde la memoria, esas son solicitudes, coloridas y pyaudio (pero verifique el archivo para asegurarse). DeepSpeech debe ser la liberación v0.7.0.
Inicie el servidor TTS , por lo general, también podría ejecutar esto localmente. Simplemente asegúrese de que el final de Demo.py esté actualizado para que coincida (actualmente configurado en http://0.0.0.0:5002/api/tts)
Ejecutar Demos.py -Python Demo.py -d 7 -m ../models/your_model_folder/

Los parámetros son los mismos que la demostración de VAD del repositorio de ejemplos profundos.

-d es el canal para su micrófono (puede verificar los canales ALSA con show_alsa_channels.py )

-M es la ubicación del directorio para el modelo de intervalta profunda que planea usar (por ejemplo, uno que ha entrenado / ajustado o uno previamente capacitado)

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 21.6KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo