TTS_Data_Maker Télécharger - TTS_Data_Maker CODE SOURCE Télécharger

TTS_Data_Maker

Code Source AI

1.0.0

Télécharger

Texte à discours

data_maker

Ce référentiel offre un moyen de fabriquer un ensemble de données personnalisé pour la création de modèles en utilisant le célèbre TTS Text to Speech Github Repo.

Lien vers le référentiel TTS - https://github.com/coqui-ai/tts

Lien vers TTS dans PYPI - https://pypi.org/project/tts/#description

Étapes pour créer votre ensemble de données

Si vous souhaitez utiliser un fichier audio de votre propre étape de saut 2. Si vous souhaitez utiliser l'audio à partir d'un large éventail de haut-parleurs disponibles sur YouTube, l'étape 2 est pour vous.

1. Clone le référentiel

 git clone https://github.com/souvikg544/TTS_Data_Maker.git

 cd TTS_Data_Maker
pip install -r requirements.txt

2. Téléchargez un discours

Pour télécharger un CD vidéo audio à partir de YouTube dans le répertoire TTS_DATA_MAKER et utiliser Audio_Download.py ci-dessous est un exemple de commande pour télécharger une vidéo GOT :) .a MP4 sera téléchargé dans le répertoire Main_audio. Il est nécessaire de donner le nom vidéo_link et le haut-parleur / vidéo comme arguments au fichier Python ci-dessous.

 python audio_download.py --video_link https://www.youtube.com/watch?v=-B8IkMj6d1E --speaker_name got

3.Splisez l'audio en petites parties.

Pour diviser l'audio téléchargé en pièces plus petites, utilisez le fichier extract_segment.py du référentiel.

 from extract_segment import SplitWavAudioMubin
download_folder="main_audio"                      #folder in which audio file is stored
video_filename="got.mp4"                          # Filename of the audio
output_folder="/content/sample_tts_dataset/wavs"  #Output folder that will have segments of audio 
duration=20                                       # Duration of each split in seconds

spliter=SplitWavAudioMubin(download_folder,video_filename,output_folder)
spliter.multiple_split(duration)

Audio à la parole

Pour que l'audio à la parole, nous choisirons de nombreux textes à un moteur vocal, y compris ceux de Google et IBM. Exécutez l'extrait de code ci-dessous pour extraire du texte des extraits audio.

 from extract_text import text_extraction

path_to_audio_split="/content/sample_tts_dataset/wavs"  # As the name suggests use the same folder as output folder before
output_folder="/content/sample_tts_dataset"             # Output folder having the text file
output_file= "metadata.txt"                             # Name of the text file.

et=text_extraction(path_to_audio_split)
et.extract(output_folder,output_file)

Ensemble de données final

L'ensemble de données final aura un dossier metadata.txt et audio_split ayant tous les fichiers audio comme 1.wav, 2.wav, 3.wav et bientôt metadata.txt le fichier ressemblera à ceci

 metadata.txt-
audio1|Hey how are you
audio2|I hope you are fine
audio3|Lets meet at dinner

Le dossier WAV contenant tous les fichiers audio ressemblera à ceci

 wav
-audio1.wav
-audio2.wav
-audio3.wav

En fin de compte, nous devons avoir la structure du dossier suivant:

 /MyTTSDataset
 |
 | -> metadata.txt
 | -> /wavs
  | -> audio1.wav
  | -> audio2.wav
  | ...

Mise en œuvre

La mise en œuvre de GitHub Readmes est toujours une douleur. Pour faciliter les choses, l'ensemble du processus a été mis en œuvre dans Google Collab
La création de l'ensemble de données doit être suivie par la création d'un modèle à l'aide de TTS. Les détails de la même chose peuvent être trouvés à partir de ce cahier -

Note:

Veuillez ignorer si vous exécutez sur Collab ou Cloud.

Le module PYDUB utilisé largement dans ce référentiel utilise FFMPEG pour traiter les fichiers WAV. Par conséquent, si elle fonctionne sur une machine locale, il faut télécharger FFMPEG et le dossier BIN doit être ajouté au chemin.

Lien - https://ffmpeg.org/download.html

Téléchargez à partir de la section Get Packages & Exécutable des fichiers sur le lien ci-dessus.

Développer

Informations supplémentaires