youtube_tts_data_generator Download - youtube_tts_data_generator download do código -fonte

youtube_tts_data_generator

Código-Fonte de IA

Youtube Speech Data Generator

Baixar

Gerador de dados de fala do youtube

Uma biblioteca Python para gerar conjunto de dados de fala. O gerador de dados de fala do YouTube também cuida de quase todos os seus pré-processamento de dados de fala necessários para criar um conjunto de dados de fala, juntamente com suas transcrições, certificando-se de que ele siga uma estrutura de diretório seguida pela maioria das arquiteturas de texto em declarações.

Instalação

Verifique se o FFMPEG está instalado e está definido no caminho do sistema.

$ pip install youtube-tts-data-generator

Início mínimo para criar o conjunto de dados

 from youtube_tts_data_generator import YTSpeechDataGenerator

# First create a YTSpeechDataGenerator instance:

generator = YTSpeechDataGenerator ( dataset_name = 'elon' )

# Now create a '.txt' file that contains a list of YouTube videos that contains speeches.
# NOTE - Make sure you choose videos with subtitles.

generator . prepare_dataset ( 'links.txt' )
# The above will take care about creating your dataset, creating a metadata file and trimming silence from the audios.

Uso

Inicializando o gerador: generator = YTSpeechDataGenerator(dataset_name='your_dataset',lang='en')
- Parâmetros:
  - DataSet_Name :
    - O nome do conjunto de dados que você gostaria de dar.
    - Uma estrutura de diretório como essa será criada:
      ├───your_dataset │ ├───txts │ └───wavs └───your_dataset_prep ├───concatenated ├───downloaded └───split
  - output_type :
    - O tipo de metadados a ser criado após a geração do conjunto de dados.
    - Tipos suportados: CSV/JSON
    - Tipo de saída padrão é definido como CSV
    - O arquivo CSV segue o formato do conjunto de dados de fala de LJ
    - O arquivo JSON segue este formato:
      { "your_dataset1.wav": "This is an example text", "your_dataset2.wav": "This is an another example text", }
  - keep_audio_extension :
    - Se deve manter a extensão do arquivo de áudio no arquivo de metadados
    - O valor padrão é definido como falso
  - Lang :
    - A chave para o idioma de destino em que as legendas devem ser baixadas.
    - O valor padrão é definido como EN
    - Dica - Verifique a lista de linguagens disponíveis e suas chaves usando: generator.get_available_langs()
  - SR :
    - Taxa de amostragem para manter os áudios.
    - O valor padrão é definido como 22050
Métodos:
- download():
  - Faça o download de arquivos de vídeo do YouTube junto com suas legendas e os salva como arquivos WAV.
  - Parâmetros:
    - links_txt :
      - Caminho para o arquivo '.txt' que contém os URLs para os vídeos.
  - O uso deste método é opcional. Se você não usar esse método, coloque todos os arquivos de áudio e legenda no diretório 'your_dataset_prep/baixado'.
  - Em seguida, crie um arquivo chamado 'files.txt' e coloque -o novamente em 'your_dataset_prep/baixado'. 'files.txt' deve seguir o seguinte formato:
```
 filename,subtitle,trim_min_begin,trim_min_end
audio.wav,subtitle.srt,0,0
audio2.wav,subtitle.vtt,5,6
```
  - Crie um arquivo '.txt' que contém uma lista de vídeos do YouTube que contém discursos.
  - Exemplo - generator.download('links.txt')
- split_audios ():
  - Este método divide todos os arquivos WAV em pedaços menores de acordo com a duração do texto nas legendas.
  - Salva as transcrições como o arquivo '.txt' para cada um dos pedaços.
  - Exemplo - generator.split_audios()
- concat_audios ():
  - Como os áudios divididos são baseados na duração de suas legendas, elas podem não demorar tanto. Este método se junta aos arquivos divididos em os reconhecíveis.
  - Parâmetros:
    - max_limit :
      - O limite superior do comprimento dos áudios que devem ser concordados. O resto será mantido como são.
      - O valor padrão é definido como 7
    - Concat_Count :
      - O número de áudios consecutivos que devem ser concordados juntos.
      - O valor padrão é definido como 2
  - Exemplo - generator.concat_audios()
- finalize_dataset ():
  - Trim silence os áudios unidos desde que os dados foram coletados no YouTube e gera o conjunto de dados final depois de terminar todo o pré -processamento.
  - Parâmetros:
    - min_audio_length :
      - O comprimento minumum do discurso que deve ser mantido. O resto será ignorado.
      - O valor padrão é definido como 5 .
    - max_audio_length :
      - O comprimento máximo do discurso que deve ser mantido. O resto será ignorado.
      - O valor padrão é definido como 14 .
  - Exemplo - generator.finalize_dataset(min_audio_length=6)
- get_available_langs ():
  - Obtenha a lista de idiomas disponíveis nos quais as legendas podem ser baixadas.
  - Exemplo - generator.get_available_langs()
- get_total_audio_length ():
  - Retorna a quantidade total de dados de fala pré -processados coletados pelo gerador.
  - Exemplo - generator.get_total_audio_length()
- prepare_dataset ():
  - Um método de wrapper para download () , split_audios () , concat_audios () e finalize_dataset () .
  - Se você não deseja usar os métodos acima, poderá ligar diretamente para preparar_dataset () . Ele lidará com toda a sua geração de dados.
  - Parâmetros:
    - links_txt :
      - Caminho para o arquivo '.txt' que contém os URLs para os vídeos.
    - SR :
      - Taxa de amostragem para manter os áudios.
      - O valor padrão é definido como 22050
    - Download_youtube_data :
      - Se deve baixar áudios do YouTube.
      - O valor padrão é verdadeiro
    - max_concat_limit :
      - O limite superior do comprimento dos áudios que devem ser concordados. O resto será mantido como são.
      - O valor padrão é definido como 7
    - Concat_Count :
      - O número de áudios consecutivos que devem ser concordados juntos.
      - O valor padrão é definido como 2
    - min_audio_length :
      - O comprimento minumum do discurso que deve ser mantido. O resto será ignorado.
      - O valor padrão é definido como 5 .
    - max_audio_length :
      - O comprimento máximo do discurso que deve ser mantido. O resto será ignorado.
      - O valor padrão é definido como 14 .
  - Exemplo - generator.prepare_dataset(links_txt='links.txt', download_youtube_data=True, min_audio_length=6)

Estrutura final do conjunto de dados

Depois que o conjunto de dados for criado, a estrutura no diretório 'your_dataset' deve parecer:

 your_dataset
├───txts
│   ├───your_dataset1.txt
│   └───your_dataset2.txt
├───wavs
│    ├───your_dataset1.wav
│    └───your_dataset2.wav
└───metadata.csv/alignment.json

Nota - audio.py é altamente baseado na clonagem de voz em tempo real