Une bibliothèque Python pour générer un ensemble de données vocales. Le générateur de données de la parole YouTube s'occupe également de presque tous vos prétraitements de données vocaux nécessaires pour créer un ensemble de données de parole ainsi que leurs transcriptions en s'assurant qu'elle suit une structure de répertoire suivie de la plupart des architectures de texte vocale.
Assurez-vous que FFMPEG est installé et réglé sur le chemin du système.
$ pip install youtube-tts-data-generator from youtube_tts_data_generator import YTSpeechDataGenerator
# First create a YTSpeechDataGenerator instance:
generator = YTSpeechDataGenerator ( dataset_name = 'elon' )
# Now create a '.txt' file that contains a list of YouTube videos that contains speeches.
# NOTE - Make sure you choose videos with subtitles.
generator . prepare_dataset ( 'links.txt' )
# The above will take care about creating your dataset, creating a metadata file and trimming silence from the audios. Initialisation du générateur: generator = YTSpeechDataGenerator(dataset_name='your_dataset',lang='en')
├───your_dataset
│ ├───txts
│ └───wavs
└───your_dataset_prep
├───concatenated
├───downloaded
└───split
{
"your_dataset1.wav": "This is an example text",
"your_dataset2.wav": "This is an another example text",
}
generator.get_available_langs()Méthodes:
filename,subtitle,trim_min_begin,trim_min_end
audio.wav,subtitle.srt,0,0
audio2.wav,subtitle.vtt,5,6
generator.download('links.txt')generator.split_audios()generator.concat_audios()generator.finalize_dataset(min_audio_length=6)generator.get_available_langs()generator.get_total_audio_length()generator.prepare_dataset(links_txt='links.txt', download_youtube_data=True, min_audio_length=6) Une fois l'ensemble de données créé, la structure du répertoire «votre_dataset» devrait ressembler:
your_dataset
├───txts
│ ├───your_dataset1.txt
│ └───your_dataset2.txt
├───wavs
│ ├───your_dataset1.wav
│ └───your_dataset2.wav
└───metadata.csv/alignment.json
Remarque - audio.py est fortement basé sur le clonage vocal en temps réel
SRT à JSON
En savoir plus sur la bibliothèque ici