edge tts as a service -Download - edge tts as a service Source Code Download

edge tts as a service

AI-Quellcode

1.0.0

Herunterladen

Edge-TTS HTTP-Service

Ein einfacher HTTP-Dienst, der Text-to-Speech-Funktionen mithilfe der TTS-Engine von Microsoft Edge bietet und mehrere Sprachen und Stimmen über erholsame APIs unterstützt.

Englisch | 中文

Merkmale

? Mehrere Sprachen und Stimmen unterstützen
Sowohl Streaming- als auch Nicht-Streaming-Audioausgabe
? Einfache REST -API -Schnittstelle
? Docker -Unterstützung
⚡ Antwort niedriger Latenz

Schneller Start

Option 1: Direkt ausführen

Klonen Sie das Repository:

git clone https://github.com/doctoroyy/edge-tts-as-a-service
cd edge-tts-as-a-service

Abhängigkeiten installieren:

pip install -r requirements.txt

Starten Sie den Service:

python main.py

Der Service wird unter http://localhost:5000 verfügbar sein

Option 2: Docker -Bereitstellung

Erstellen Sie das Bild:

docker build -t edge-tts-as-a-service .

Führen Sie den Container aus:

docker run -d -p 5000:5000 edge-tts-as-a-service

API -Dokumentation

1. Listen Sie die verfügbaren Stimmen auf

Abrufen Sie alle unterstützten Sprachoptionen ab.

 GET /voices

Antwortbeispiel:

{
    "code" : 200 ,
    "message" : " OK " ,
    "data" : [
        {
            "Name" : " en-US-GuyNeural " ,
            "ShortName" : " en-US-GuyNeural " ,
            "Gender" : " Male " ,
            "Locale" : " en-US "
        },
        // ... more voices
    ]
}

2. Text-to-Speech (Download)

Konvertieren Sie den Text in die Sprache und laden Sie die Audio -Datei herunter.

 POST /tts

Antragsbehörde:

{
    "text" : " Hello, World! " ,
    "voice" : " en-US-GuyNeural " ,    // Optional, defaults to "zh-CN-YunxiNeural"
    "file_name" : " hello.mp3 "       // Optional, defaults to "test.mp3"
}

Antwort:

Inhaltstyp: Audio/MPEG
Gibt den Audio -Datei -Stream zurück

3. Text-to-Speech (Streaming)

Konvertieren Sie Text mit Streaming-Ausgabe in die Sprache, geeignet für die Wiedergabe von Echtzeit.

 POST /tts/stream

Antragsbehörde:

{
    "text" : " Hello, World! " ,
    "voice" : " en-US-GuyNeural "    // Optional, defaults to "zh-CN-YunxiNeural"
}

Antwort:

Inhaltstyp: Anwendung/Oktettstream
Gibt einen Audiostrom zurück

Nutzungsbeispiele

Python -Beispiel

 import requests

# Get available voices
response = requests . get ( 'http://localhost:5000/voices' )
voices = response . json ()[ 'data' ]

# Text-to-Speech (Download)
data = {
    "text" : "Hello, World!" ,
    "voice" : "en-US-GuyNeural" ,
    "file_name" : "output.mp3"
}
response = requests . post ( 'http://localhost:5000/tts' , json = data )
with open ( 'output.mp3' , 'wb' ) as f :
    f . write ( response . content )

# Text-to-Speech (Streaming)
response = requests . post ( 'http://localhost:5000/tts/stream' , json = data , stream = True )
with open ( 'stream_output.mp3' , 'wb' ) as f :
    for chunk in response . iter_content ( chunk_size = 8192 ):
        f . write ( chunk )

CULL -Beispiel

 # Get available voices
curl http://localhost:5000/voices

# Text-to-Speech (Download)
curl -X POST http://localhost:5000/tts 
    -H " Content-Type: application/json " 
    -d ' {"text":"Hello, World!", "voice":"en-US-GuyNeural"} ' 
    --output output.mp3

# Text-to-Speech (Streaming)
curl -X POST http://localhost:5000/tts/stream 
    -H " Content-Type: application/json " 
    -d ' {"text":"Hello, World!", "voice":"en-US-GuyNeural"} ' 
    --output stream_output.mp3

Frontend -Projekt

React Frontend Companion -Projekt reagieren

Suchen Sie nach einer benutzerfreundlichen Frontend-Schnittstelle?

? Schneller Link : React-Audio-Stream-Demo

Diese React-Demo bietet ein voll funktionsfähiges Frontend für die nahtlose TTS-Interaktion, sodass der Edge-TTS-Dienst mit einer benutzerfreundlichen Schnittstelle einfach nach demonstrieren und integriert wird.

FAQ

F: Wie wähle ich die richtige Stimme?
A: Verwenden Sie den Endpunkt /voices , um eine Liste aller verfügbaren Stimmen zu erhalten. Wählen Sie basierend auf den Gebietsschalen- und Geschlechterattributen.
F: Welche Sprachen werden unterstützt?
A: Mehrere Sprachen einschließlich Englisch, Chinesisch, Japanisch usw. Überprüfen Sie den Endpunkt /voices -Endpunkt für eine vollständige Liste.
F: Was ist das Audio -Dateiformat?
A: Der Dienst generiert MP3 -Audiodateien.