viet tts Download - viet tts Quellcode Download

viet tts

AI-Quellcode

v20241212

Herunterladen

Viettts : Ein vietnamesischer Open-Source-Text zur Sprache

Viettts ist ein Open-Source-Toolkit, das der Gemeinde ein leistungsstarkes vietnamesisches TTS-Modell bietet, das natürliche Sprachsynthese und robustes Klonen in der Sprache ermöglicht. VIOTTTS wurde für ein effektives Experimentieren entwickelt und unterstützt Forschung und Anwendung in vietnamesischen Sprachtechnologien.

Schlüsselmerkmale

TTS : Text-to-Speech-Erzeugung mit jeder Stimme über ein schnelles Audio
OpenAI-API-kompatibel : kompatibel mit OpenAs Text-to-Speech-API-Format

Installation

Viettts können über einen Python -Installateur (nur Linux, mit Windows und MacOS -Unterstützung in Kürze) oder Docker installiert werden.

Python Installer (Python> = 3.10)

git clone https://github.com/dangvansam/viet-tts.git
cd viet-tts

# (Optional) Install Python environment with conda, you could also use virtualenv 
conda create --name viettts python=3.10
conda activate viettts

# Install
pip install -e . && pip cache purge

Docker

Installieren Sie Docker, NVIDIA -Treiber, Nvidia Container Toolkit und CUDA.
Führen Sie die folgenden Befehle aus:

git clone https://github.com/dangvansam/viet-tts.git
cd viet-tts

# Build docker images
docker compose build

# Run with docker-compose - will create server at: http://localhost:8298
docker compose up -d

# Or run with docker run - will create server at: http://localhost:8298
docker run -itd --gpu=alls -p 8298:8298 -v ./pretrained-models:/app/pretrained-models -n viet-tts-service viet-tts:latest viettts server --host 0.0.0.0 --port 8298

Verwendung

Eingebaute Stimmen?

Sie können verfügbare Stimmen brüllen, um die Sprache zu synthetisieren.

Expandieren

AUSWEIS	Stimme	Geschlecht
1	NSND-LE-CHUC	?
2	realify_10	?
3	Atuan	?
4	realify_11	?
5	CDTeam	?
6	realify_12	?
7	cross_lingual_prompt	?
8	realify_2	?
9	Diep-Chi	?
10	realify_3	?
11	Doremon	?
12	realify_4	?
13	Jack-Sparrow	?
14	realify_5	?
15	Nguyen-ngoc-ngan	?
16	realify_6	?
17	nu-nhe-nhang	?
18	realify_7	?
19	Quynh	?
20	realify_8	?
21	realify_9	?
22	Son-Tung-Mtp	?
23	Zero_Shot_prompt	?
24	realify_1	?

Befehlszeilenschnittstelle (CLI)

Mit der Vietrets Command Line Interface (CLI) können Sie schnell Sprache direkt aus dem Terminal generieren. Hier erfahren Sie, wie man es benutzt:

 # Usage
viettts --help

# Start API Server
viettts server --host 0.0.0.0 --port 8298

# List all built-in voices
viettts show-voices

# Synthesize speech from text with built-in voices
viettts synthesis --text " Xin chào " --voice 0 --output test.wav

# Clone voice from a local audio file
viettts synthesis --text " Xin chào " --voice Download/voice.wav --output cloned.wav

API -Client

Python (OpenAI -Kunde)

Sie müssen Umgebungsvariablen für den OpenAI -Client festlegen:

 # Set base_url and API key as environment variables
export OPENAI_BASE_URL=http://localhost:8298
export OPENAI_API_KEY=viet-tts # not use in current version

So erstellen Sie Sprache aus Eingabetext:

 from pathlib import Path
from openai import OpenAI

client = OpenAI ()

output_file_path = Path ( __file__ ). parent / "speech.wav"

with client . audio . speech . with_streaming_response . create (
  model = 'tts-1' ,
  voice = 'cdteam' ,
  input = 'Xin chào Việt Nam.' ,
  speed = 1.0 ,
  response_format = 'wav'
) as response :
  response . stream_to_file ( 'a.wav' )

Locken

 # Get all built-in voices
curl --location http://0.0.0.0:8298/v1/voices

# OpenAI format (bult-in voices)
curl http://localhost:8298/v1/audio/speech 
  -H " Authorization: Bearer viet-tts " 
  -H " Content-Type: application/json " 
  -d ' {
    "model": "tts-1",
    "input": "Xin chào Việt Nam.",
    "voice": "son-tung-mtp"
  } ' 
  --output speech.wav

# API with voice from local file
curl --location http://0.0.0.0:8298/v1/tts 
  --form ' text="xin chào" ' 
  --form ' audio_file=@"/home/viettts/Downloads/voice.mp4" ' 
  --output speech.wav

Knoten

 import fs from "fs" ;
import path from "path" ;
import OpenAI from "openai" ;

const openai = new OpenAI ( ) ;

const speechFile = path . resolve ( "./speech.wav" ) ;

async function main ( ) {
  const mp3 = await openai . audio . speech . create ( {
    model : "tts-1" ,
    voice : "1" ,
    input : "Xin chào Việt Nam." ,
  } ) ;
  console . log ( speechFile ) ;
  const buffer = Buffer . from ( await mp3 . arrayBuffer ( ) ) ;
  await fs . promises . writeFile ( speechFile , buffer ) ;
}
main ( ) ;

Anerkennung

Ausgeliehener Code von Cosyvoice
VAD-Modell von Silero-Vad
Textnormalisierung mit Vinorm

Lizenz

Der Viettts -Quellcode wird unter der Apache 2.0 -Lizenz veröffentlicht. Vorausgebildete Modelle und Audio-Stichproben werden unter der CC BY-NC-Lizenz auf der Grundlage eines Datensatzes im Wilde lizenziert. Wir entschuldigen uns für etwaige Unannehmlichkeiten, die dies verursachen kann.

Euen Haftungsausschluss

Der oben angegebene Inhalt dient nur für akademische Zwecke und soll technische Fähigkeiten nachweisen. Einige Beispiele stammen aus dem Internet. Wenn Inhalte Ihre Rechte verletzt, kontaktieren Sie uns bitte, um die Entfernung zu beantragen.