Transcribe el audio a través de Google Speech a Text API con separación de altavoces (diarización). Genere automáticamente los conjuntos de datos TTS utilizando audio y texto asociado. Utiliza la API de Google para transcribir los cortes que se han dividido por la ruptura máxima de silencio (recomendado). O use Eneas para forzar alinear texto al audio. Reproducir rápidamente y editar cortes.
Para Google Speech a Text API, necesitará una cuenta de la plataforma de Google Cloud. Su variable $ Google_Application_Credentials Env debe apuntar a su ruta de archivo JSON de credenciales. Google ofrece un servicio por valor de $ 300 y 3 meses gratis en nuevas cuentas.
Ejecutar herramientas.py para herramientas GUI.
Las limitaciones actuales son que deberá ajustar el ancho de la columna de la sección de revisión y al navegar las entradas debe quitar el enfoque de los cuadros de texto de entrada actuales y próximos o el cuadro de texto no se actualizará. La próxima versión de Dearpy GUI resolverá estos problemas.
El uso de una VPN interferirá con las solicitudes largas de API de Google Speech to Text.


Usando la versión anterior de Dearpygui en el momento, migraré eventualmente.
PIP Instale Numpy -Usor
PIP install Pydub -User
PIP install Dearpygui == 0.6.415 -User
PIP instale Google-Cloud-discal-User
PIP Instale Google-Cloud-Storage-User
PIP Instale Simpleaudio -User
*Si no puede construir simplesaudio, asegúrese de tener GCC instalado: actualización de sudo apt-get, sudo apt-get install build-issentials
PIP Instalar Sox -Usor
Se recomienda el entorno Linux para la opción de Eneas, en Windows Eneas no podrá hacer cortes más largos debido a problemas de memoria.
wget https://raw.githubusercontent.com/readbeyond/aeneas/master/install_dependencies.sh
bash install_dependencies.sh
PIP Instale Numpy -Usor
PIP Instale Eneas -User
Instalación de pruebas: Python -M aeneas.diagnóstics
PIP install Pydub -User
PIP install Dearpygui == 0.6.415 -User
PIP instale Google-Cloud-discal-User
PIP Instale Google-Cloud-Storage-User
PIP Instale Simpleaudio -User
PIP Instalar Sox -Usor
Si recibe un error libython:
sudo apto install libAsound2-devel
Edite su archivo bashrc escribiendo: sudo nano ~/.bashrc
Luego agregue la línea al final con su información dependiendo de dónde estaba instalado su paquete:
Exportar ld_library_path = "/[yourhomepath]/anaconda3/envs/[yourenv]/lib/"
O
Exportar ld_library_path = "/[yourhomepath]/. conda/envs/[yourenv]/lib/"
O si el entorno base
Exportar ld_library_path = "/[yourhomepath]/anaconda3/lib/"
Presione Ctrl+O para exportar el archivo actualizado. Entonces ctrl+x para salir.
Escriba la fuente ~/.bashrc para habilitar la nueva ruta.
Tutorial de video: https://www.youtube.com/watch?v=te7pui2xeje
Varias cosas mejorarán la calidad de sus recortes, aunque siempre debe revisarlas antes de entrenar. Para idiomas distintos del inglés, puede editar fácilmente las líneas de comando de Enease y los reemplazos de caracteres a su necesidad, y reemplazar los códigos de idiomas de Google EN-US con su código de idioma (https://cloud.google.com/speech-to-text/docs/languages). Examine si se incluyen cosas como títulos de capítulos. Los altavoces con un discurso lento y uniforme harán que los cortes más limpios, mientras que los altavoces de ritmo rápido tienden a ejecutar palabras juntas y pueden hacer que algunas palabras, piezas de palabras, se transfieran al siguiente corte donde tendrá que editarse. Elimine toda la música si puede.