TTS dataset tools Download - TTS dataset tools Téléchargement du code source

TTS dataset tools

Code Source AI

1.0.0

Télécharger

Tts-dataset-tools

Transcrire l'audio via Google Speech à l'API texte avec séparation des haut-parleurs (diarisation). Générez automatiquement des ensembles de données TTS à l'aide de l'audio et du texte associé. Utilise Google API pour transcrire des coupes qui ont été divisées par la rupture de silence maximale (recommandée). Ou utilisez Aeneas pour forcer l'alignement du texte à l'audio. Relisez rapidement et modifiez les coupes.

Pour que Google Speech to SMS API, vous aurez besoin d'un compte Google Cloud Platform. Votre variable Env $ Google_Application_Credentials doit pointer vers votre chemin de fichier JSON des informations d'identification. Google offre 300 $ de service et 3 mois gratuitement sur de nouveaux comptes.

Exécutez des outils pour les outils GUI.

Les limitations actuelles sont que vous devrez ajuster la largeur de la colonne de la section de relecture et lors de la navigation des entrées, vous devez retirer le focus des zones de texte actuelles et suivantes ou la zone de texte ne mettra pas à jour. La prochaine version de Dearpy GUI résoudra ces problèmes.

L'utilisation d'un VPN interférera avec Long Google Speech pour envoyer des demandes d'API.

GUI de l'ensemble de données

En utilisant l'ancienne version de Dearpygui à The Moment, je migrerai finalement.

Configuration de Windows

PIP Installer Numpy --User

PIP Installer Pydub - User

pip install dearpygui == 0.6.415 --User

PIP install google-cloud-disech --User

PIP Installer Google-Cloud-Storage --User

pip install Simpleaudio - User

* Si vous ne pouvez pas construire Simpleaudio, assurez-vous que GCC soit installé: Sudo apt-get updat, sudo apt-get install build-essentiels

PIP Install Sox - User

Configuration Linux

L'environnement Linux est recommandé pour l'option AENEAS, dans Windows Aeneas ne pourra pas effectuer des coupes plus longues en raison de problèmes de mémoire.

wget https://raw.githubusercontent.com/readbeyond/aeneas/master/install_depensengs.sh

bash install_dependces.sh

PIP Installer Numpy --User

pip install aeneas --User

Installation de test: python -m aeneas.diagnostics

PIP Installer Pydub - User

pip install dearpygui == 0.6.415 --User

PIP install google-cloud-disech --User

PIP Installer Google-Cloud-Storage --User

pip install Simpleaudio - User

PIP Install Sox - User

Si vous obtenez une erreur libpython:

sudo apt install libasound2-dev

Modifiez votre fichier bashrc en tapant: sudo nano ~ / .bashrc

Ensuite, ajoutez la ligne à la fin avec vos informations en fonction de l'endroit où votre package a été installé:

exporter ld_library_path = "/ [yourhomepath] / anaconda3 / envs / [yourenv] / lib /"

OU

exporter ld_library_path = "/ [yourhomepath] /. conda / envs / [yourenv] / lib /"

Ou si l'environnement de base

exporter ld_library_path = "/ [yourhomepath] / anaconda3 / lib /"

Appuyez sur Ctrl + O pour exporter le fichier mis à jour. Puis ctrl + x pour quitter.

Type Source ~ / .Bashrc pour activer le nouveau chemin.

Usage

Tutoriel vidéo: https://www.youtube.com/watch?v=te7pui2xeje

Recommandations

Plusieurs choses amélioreront la qualité de vos coupes, bien que vous deviez toujours les relire avant de vous entraîner. Pour les langues autres que l'anglais, vous pouvez facilement modifier les lignes de commande Aneas et les remplacements de caractères à votre besoin, et remplacer les codes Google En-us Languages par votre code de langue (https://cloud.google.com/speech-to-text/docs/languages). Examinez si des choses comme les titres de chapitre sont incluses. Les haut-parleurs avec un discours lent et même rythmé feront les coupes les plus propres, tandis que les haut-parleurs au rythme rapide ont tendance à exécuter des mots ensemble et peuvent provoquer des mots, des morceaux de mots, pour être déplacés dans la prochaine coupe où il devra être édité. Supprimer toute la musique si elle est capable.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-15
taille 430.01KB
Provenant de Github

Applications connexes

language tools

2024-11-11
glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
biliLive tools

2024-11-03
F5 TTS ComfyUI

2024-11-02
sra tools

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout