edge tts as a service - edge tts as a service Descargar descarga

edge tts as a service

Código Fuente de IA

1.0.0

Descargar

Servicio de HTTP Edge-TTS

Un servicio HTTP simple que proporciona funcionalidad de texto a voz utilizando el motor TTS de Microsoft Edge, que admite múltiples idiomas y voces a través de API RESTful.

Inglés | 中文

Características

? Soporte de múltiples idiomas y voces
Tanto la salida de transmisión como la salida de audio no transmitiendo
? Interfaz de API REST simple
? Soporte de Docker
⚡ Respuesta de baja latencia

Comienzo rápido

Opción 1: ejecutar directamente

Clon el repositorio:

git clone https://github.com/doctoroyy/edge-tts-as-a-service
cd edge-tts-as-a-service

Instalar dependencias:

pip install -r requirements.txt

Inicie el servicio:

python main.py

El servicio estará disponible en http://localhost:5000

Opción 2: implementación de Docker

Construye la imagen:

docker build -t edge-tts-as-a-service .

Ejecute el contenedor:

docker run -d -p 5000:5000 edge-tts-as-a-service

Documentación de API

1. Lista de voces disponibles

Recupere todas las opciones de voz compatibles.

 GET /voices

Ejemplo de respuesta:

{
    "code" : 200 ,
    "message" : " OK " ,
    "data" : [
        {
            "Name" : " en-US-GuyNeural " ,
            "ShortName" : " en-US-GuyNeural " ,
            "Gender" : " Male " ,
            "Locale" : " en-US "
        },
        // ... more voices
    ]
}

2. Texto a voz (descargar)

Convierta el texto en discurso y descargue el archivo de audio.

 POST /tts

Solicitud de cuerpo:

{
    "text" : " Hello, World! " ,
    "voice" : " en-US-GuyNeural " ,    // Optional, defaults to "zh-CN-YunxiNeural"
    "file_name" : " hello.mp3 "       // Optional, defaults to "test.mp3"
}

Respuesta:

Tipo de contenido: Audio/MPEG
Devuelve la transmisión del archivo de audio

3. Texto a voz (transmisión)

Convierta el texto en voz con salida de transmisión, adecuada para la reproducción en tiempo real.

 POST /tts/stream

Solicitud de cuerpo:

{
    "text" : " Hello, World! " ,
    "voice" : " en-US-GuyNeural "    // Optional, defaults to "zh-CN-YunxiNeural"
}

Respuesta:

Tipo de contenido: aplicación/octet-stream
Devuelve la transmisión de audio

Ejemplos de uso

Ejemplo de Python

 import requests

# Get available voices
response = requests . get ( 'http://localhost:5000/voices' )
voices = response . json ()[ 'data' ]

# Text-to-Speech (Download)
data = {
    "text" : "Hello, World!" ,
    "voice" : "en-US-GuyNeural" ,
    "file_name" : "output.mp3"
}
response = requests . post ( 'http://localhost:5000/tts' , json = data )
with open ( 'output.mp3' , 'wb' ) as f :
    f . write ( response . content )

# Text-to-Speech (Streaming)
response = requests . post ( 'http://localhost:5000/tts/stream' , json = data , stream = True )
with open ( 'stream_output.mp3' , 'wb' ) as f :
    for chunk in response . iter_content ( chunk_size = 8192 ):
        f . write ( chunk )

Ejemplo de rizos

 # Get available voices
curl http://localhost:5000/voices

# Text-to-Speech (Download)
curl -X POST http://localhost:5000/tts 
    -H " Content-Type: application/json " 
    -d ' {"text":"Hello, World!", "voice":"en-US-GuyNeural"} ' 
    --output output.mp3

# Text-to-Speech (Streaming)
curl -X POST http://localhost:5000/tts/stream 
    -H " Content-Type: application/json " 
    -d ' {"text":"Hello, World!", "voice":"en-US-GuyNeural"} ' 
    --output stream_output.mp3

Proyecto frontend

React Frontend Companion Project

¿Busca una interfaz frontend lista para usar?

? Enlace rápido : React-Audio-Stream-Demo

Esta demostración de React proporciona una interfaz totalmente funcional para la interacción TTS perfecta, lo que facilita la demostración e integración del servicio Edge-TTS con una interfaz fácil de usar.

Preguntas frecuentes

P: ¿Cómo elijo la voz correcta?
R: Use el punto final /voices para obtener una lista de todas las voces disponibles. Elija basado en los atributos locales y de género.
P: ¿Qué idiomas son compatibles?
R: Múltiples idiomas que incluyen inglés, chino, japonés, etc. Verifique el punto final /voices para obtener una lista completa.
P: ¿Cuál es el formato de archivo de audio?
R: El servicio genera archivos de audio MP3.

Notas

La implementación de Docker se recomienda para entornos de producción
El servicio tiene un límite de longitud de texto; Considere dividir textos largos
El puerto predeterminado es 5000, configurable a través de variables de entorno