youtube_tts_data_generator Descargar - youtube_tts_data_generator código fuente descargar descarga

youtube_tts_data_generator

Código Fuente de IA

Youtube Speech Data Generator

Descargar

Generador de datos del habla de YouTube

Una biblioteca de Python para generar datos de discurso. El generador de datos del habla de YouTube también se encarga de casi todo su preprocesamiento de datos del habla necesario para construir un conjunto de datos de voz junto con sus transcripciones asegurándose de que siga una estructura de directorio seguida de la mayoría de las arquitecturas de texto a voz.

Instalación

Asegúrese de que FFMPEG esté instalado y esté configurado en la ruta del sistema.

$ pip install youtube-tts-data-generator

Inicio mínimo para crear el conjunto de datos

 from youtube_tts_data_generator import YTSpeechDataGenerator

# First create a YTSpeechDataGenerator instance:

generator = YTSpeechDataGenerator ( dataset_name = 'elon' )

# Now create a '.txt' file that contains a list of YouTube videos that contains speeches.
# NOTE - Make sure you choose videos with subtitles.

generator . prepare_dataset ( 'links.txt' )
# The above will take care about creating your dataset, creating a metadata file and trimming silence from the audios.

Uso

Inicializando el generador: generator = YTSpeechDataGenerator(dataset_name='your_dataset',lang='en')
- Parámetros:
  - DataSet_Name :
    - El nombre del conjunto de datos que le gustaría dar.
    - Se creará una estructura de directorio como esta:
      ├───your_dataset │ ├───txts │ └───wavs └───your_dataset_prep ├───concatenated ├───downloaded └───split
  - output_type :
    - El tipo de metadatos que se creará después del conjunto de datos se ha generado.
    - Tipos compatibles: CSV/JSON
    - El tipo de salida predeterminado se establece en CSV
    - El archivo CSV sigue el formato del conjunto de datos de discurso LJ
    - El archivo JSON sigue este formato:
      { "your_dataset1.wav": "This is an example text", "your_dataset2.wav": "This is an another example text", }
  - Keep_audio_extension :
    - Si debe mantener la extensión del archivo de audio en el archivo de metadatos
    - El valor predeterminado se establece en falso
  - Lang :
    - La clave para el idioma de destino en el que deben descargarse los subtítulos.
    - El valor predeterminado se establece en EN
    - Consejo : verifique la lista de idiomas disponibles y sus claves usando: generator.get_available_langs()
  - SR :
    - Frecuencia de muestreo para mantener los audios.
    - El valor predeterminado se establece en 22050
Métodos:
- descargar():
  - Descarga archivos de video de YouTube junto con sus subtítulos y los guarda como archivos WAV.
  - Parámetros:
    - links_txt :
      - Ruta al archivo '.txt' que contiene las URL para los videos.
  - El uso de este método es opcional. Si no usa este método, asegúrese de colocar todos los archivos de audio y subtítulos en el directorio 'Your_Dataset_Prep/Descargado'.
  - Luego, cree un archivo llamado 'files.txt' y nuevamente colóquelo en 'Your_Dataset_Prep/Descarged'. 'files.txt' debe seguir el siguiente formato:
```
 filename,subtitle,trim_min_begin,trim_min_end
audio.wav,subtitle.srt,0,0
audio2.wav,subtitle.vtt,5,6
```
  - Cree un archivo '.txt' que contenga una lista de videos de YouTube que contiene discursos.
  - Ejemplo - generator.download('links.txt')
- split_audios ():
  - Este método divide todos los archivos WAV en trozos más pequeños de acuerdo con la duración del texto en los subtítulos.
  - Guarda transcripciones como archivo '.txt' para cada uno de los fragmentos.
  - Ejemplo - generator.split_audios()
- concat_audios ()::
  - Dado que los audios divididos se basan en la duración de sus subtítulos, es posible que no sean tan largos. Este método une los archivos divididos en los reconocibles.
  - Parámetros:
    - max_limit :
      - El límite superior de longitud de los audios que deben ser cazados. El resto se mantendrá como están.
      - El valor predeterminado se establece en 7
    - concat_count :
      - El número de audios consecutivos que deben concitarse juntos.
      - El valor predeterminado se establece en 2
  - Ejemplo - generator.concat_audios()
- Finalize_dataSet ():
  - Trims Silence Los audios unidos desde que los datos se han recopilado de YouTube y genera el conjunto de datos final después de terminar todo el preprocesamiento.
  - Parámetros:
    - min_audio_length :
      - La longitud minumum del discurso que debe mantenerse. El resto será ignorado.
      - El valor predeterminado se establece en 5 .
    - max_audio_length :
      - La longitud máxima del discurso que debe mantenerse. El resto será ignorado.
      - El valor predeterminado se establece en 14 .
  - Ejemplo - generator.finalize_dataset(min_audio_length=6)
- get_available_langs ()::
  - Obtenga una lista de idiomas disponibles en los que se pueden descargar los subtítulos.
  - Ejemplo - generator.get_available_langs()
- get_total_audio_length ()::
  - Devuelve la cantidad total de datos de habla preprocesados recopilados por el generador.
  - Ejemplo - generator.get_total_audio_length()
- preparar_dataSet ()::
  - Un método de envoltura para descargar () , split_audios () , concat_audios () y finalize_dataSet () .
  - Si no desea utilizar los métodos anteriores, puede llamar directamente a Prepare_DataSet () . Manejará toda su generación de datos.
  - Parámetros:
    - links_txt :
      - Ruta al archivo '.txt' que contiene las URL para los videos.
    - SR :
      - Frecuencia de muestreo para mantener los audios.
      - El valor predeterminado se establece en 22050
    - descargar_youtube_data :
      - Si descargar audios de YouTube.
      - El valor predeterminado es verdadero
    - max_concat_limit :
      - El límite superior de longitud de los audios que deben ser cazados. El resto se mantendrá como están.
      - El valor predeterminado se establece en 7
    - concat_count :
      - El número de audios consecutivos que deben concitarse juntos.
      - El valor predeterminado se establece en 2
    - min_audio_length :
      - La longitud minumum del discurso que debe mantenerse. El resto será ignorado.
      - El valor predeterminado se establece en 5 .
    - max_audio_length :
      - La longitud máxima del discurso que debe mantenerse. El resto será ignorado.
      - El valor predeterminado se establece en 14 .
  - Ejemplo - generator.prepare_dataset(links_txt='links.txt', download_youtube_data=True, min_audio_length=6)

Estructura final del conjunto de datos

Una vez que se ha creado el conjunto de datos, la estructura en el directorio 'Your_Dataset' debería parecerse:

 your_dataset
├───txts
│   ├───your_dataset1.txt
│   └───your_dataset2.txt
├───wavs
│    ├───your_dataset1.wav
│    └───your_dataset2.wav
└───metadata.csv/alignment.json

Nota - audio.py se basa mucho en la clonación de voz en tiempo real