Descarga TTS dataset tools - Descargar el código fuente TTS dataset tools Descargar

TTS dataset tools

Código Fuente de IA

1.0.0

Descargar

TTS-Dataset-Tools

Transcribe el audio a través de Google Speech a Text API con separación de altavoces (diarización). Genere automáticamente los conjuntos de datos TTS utilizando audio y texto asociado. Utiliza la API de Google para transcribir los cortes que se han dividido por la ruptura máxima de silencio (recomendado). O use Eneas para forzar alinear texto al audio. Reproducir rápidamente y editar cortes.

Para Google Speech a Text API, necesitará una cuenta de la plataforma de Google Cloud. Su variable $ Google_Application_Credentials Env debe apuntar a su ruta de archivo JSON de credenciales. Google ofrece un servicio por valor de $ 300 y 3 meses gratis en nuevas cuentas.

Ejecutar herramientas.py para herramientas GUI.

Las limitaciones actuales son que deberá ajustar el ancho de la columna de la sección de revisión y al navegar las entradas debe quitar el enfoque de los cuadros de texto de entrada actuales y próximos o el cuadro de texto no se actualizará. La próxima versión de Dearpy GUI resolverá estos problemas.

El uso de una VPN interferirá con las solicitudes largas de API de Google Speech to Text.

GUI del conjunto de datos

Usando la versión anterior de Dearpygui en el momento, migraré eventualmente.

Configuración de Windows

PIP Instale Numpy -Usor

PIP install Pydub -User

PIP install Dearpygui == 0.6.415 -User

PIP instale Google-Cloud-discal-User

PIP Instale Google-Cloud-Storage-User

PIP Instale Simpleaudio -User

*Si no puede construir simplesaudio, asegúrese de tener GCC instalado: actualización de sudo apt-get, sudo apt-get install build-issentials

PIP Instalar Sox -Usor

Configuración de Linux

Se recomienda el entorno Linux para la opción de Eneas, en Windows Eneas no podrá hacer cortes más largos debido a problemas de memoria.

wget https://raw.githubusercontent.com/readbeyond/aeneas/master/install_dependencies.sh

bash install_dependencies.sh

PIP Instale Numpy -Usor

PIP Instale Eneas -User

Instalación de pruebas: Python -M aeneas.diagnóstics

PIP install Pydub -User

PIP install Dearpygui == 0.6.415 -User

PIP instale Google-Cloud-discal-User

PIP Instale Google-Cloud-Storage-User

PIP Instale Simpleaudio -User

PIP Instalar Sox -Usor

Si recibe un error libython:

sudo apto install libAsound2-devel

Edite su archivo bashrc escribiendo: sudo nano ~/.bashrc

Luego agregue la línea al final con su información dependiendo de dónde estaba instalado su paquete:

Exportar ld_library_path = "/[yourhomepath]/anaconda3/envs/[yourenv]/lib/"

O

Exportar ld_library_path = "/[yourhomepath]/. conda/envs/[yourenv]/lib/"

O si el entorno base

Exportar ld_library_path = "/[yourhomepath]/anaconda3/lib/"

Presione Ctrl+O para exportar el archivo actualizado. Entonces ctrl+x para salir.

Escriba la fuente ~/.bashrc para habilitar la nueva ruta.

Uso

Tutorial de video: https://www.youtube.com/watch?v=te7pui2xeje

Recomendaciones

Varias cosas mejorarán la calidad de sus recortes, aunque siempre debe revisarlas antes de entrenar. Para idiomas distintos del inglés, puede editar fácilmente las líneas de comando de Enease y los reemplazos de caracteres a su necesidad, y reemplazar los códigos de idiomas de Google EN-US con su código de idioma (https://cloud.google.com/speech-to-text/docs/languages). Examine si se incluyen cosas como títulos de capítulos. Los altavoces con un discurso lento y uniforme harán que los cortes más limpios, mientras que los altavoces de ritmo rápido tienden a ejecutar palabras juntas y pueden hacer que algunas palabras, piezas de palabras, se transfieran al siguiente corte donde tendrá que editarse. Elimine toda la música si puede.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-15
tamaño 430.01KB
Proviene de Github

Aplicaciones relacionadas

language tools

2024-11-11
glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
biliLive tools

2024-11-03
F5 TTS ComfyUI

2024-11-02
sra tools

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo