youtube_tts_data_generator Télécharger - youtube_tts_data_generator CODE Téléchargement du code source

youtube_tts_data_generator

Code Source AI

Youtube Speech Data Generator

Télécharger

Générateur de données de la parole YouTube

Une bibliothèque Python pour générer un ensemble de données vocales. Le générateur de données de la parole YouTube s'occupe également de presque tous vos prétraitements de données vocaux nécessaires pour créer un ensemble de données de parole ainsi que leurs transcriptions en s'assurant qu'elle suit une structure de répertoire suivie de la plupart des architectures de texte vocale.

Installation

Assurez-vous que FFMPEG est installé et réglé sur le chemin du système.

$ pip install youtube-tts-data-generator

Démarrage minimal pour la création de l'ensemble de données

 from youtube_tts_data_generator import YTSpeechDataGenerator

# First create a YTSpeechDataGenerator instance:

generator = YTSpeechDataGenerator ( dataset_name = 'elon' )

# Now create a '.txt' file that contains a list of YouTube videos that contains speeches.
# NOTE - Make sure you choose videos with subtitles.

generator . prepare_dataset ( 'links.txt' )
# The above will take care about creating your dataset, creating a metadata file and trimming silence from the audios.

Usage

Initialisation du générateur: generator = YTSpeechDataGenerator(dataset_name='your_dataset',lang='en')
- Paramètres:
  - dataSet_name :
    - Le nom de l'ensemble de données que vous souhaitez donner.
    - Une structure de répertoire comme celle-ci sera créée:
      ├───your_dataset │ ├───txts │ └───wavs └───your_dataset_prep ├───concatenated ├───downloaded └───split
  - output_type :
    - Le type de métadonnées à créer après la génération de l'ensemble de données.
    - Types pris en charge: CSV / JSON
    - Le type de sortie par défaut est défini sur CSV
    - Le fichier CSV suit le format de l'ensemble de données de discours LJ
    - Le fichier JSON suit ce format:
      { "your_dataset1.wav": "This is an example text", "your_dataset2.wav": "This is an another example text", }
  - keep_audio_extension :
    - Il faut conserver l'extension du fichier audio dans le fichier de métadonnées
    - La valeur par défaut est définie sur false
  - Lang :
    - La clé du langage cible dans lequel les sous-titres doivent être téléchargés.
    - La valeur par défaut est définie sur EN
    - Astuce - Vérifiez la liste des langages disponibles et de leurs clés en utilisant: generator.get_available_langs()
  - SR :
    - Taux d'échantillon pour garder les audios.
    - La valeur par défaut est définie sur 22050
Méthodes:
- télécharger():
  - Télécharge les fichiers vidéo à partir de YouTube avec leurs sous-titres et les enregistre sous forme de fichiers WAV.
  - Paramètres:
    - links_txt :
      - Chemin vers le fichier '.txt' qui contient les URL pour les vidéos.
  - L'utilisation de cette méthode est facultative. Si vous n'utilisez pas cette méthode, assurez-vous de placer tous les fichiers audio et sous-titre dans le répertoire 'your_dataset_prep / téléchargé'.
  - Ensuite, créez un fichier appelé «files.txt» et placez-le à nouveau sous «votre_dataset_prep / téléchargé». «files.txt» doit suivre le format suivant:
```
 filename,subtitle,trim_min_begin,trim_min_end
audio.wav,subtitle.srt,0,0
audio2.wav,subtitle.vtt,5,6
```
  - Créez un fichier '.txt' qui contient une liste de vidéos YouTube qui contient des discours.
  - Exemple - generator.download('links.txt')
- Split_audios ():
  - Cette méthode divise tous les fichiers WAV en petits morceaux en fonction de la durée du texte dans les sous-titres.
  - Enregistre les transcriptions en tant que fichier «.txt» pour chacun des morceaux.
  - Exemple - generator.split_audios()
- concat_audios ():
  - Étant donné que les audios divisés sont basés sur la durée de leurs sous-titres, ils pourraient ne pas être si longs. Cette méthode rejoint les fichiers divisés en produits reconnaissables.
  - Paramètres:
    - Max_limit :
      - La limite supérieure de la longueur des audios qui devrait être conduite. Le reste sera conservé tel quel.
      - La valeur par défaut est définie sur 7
    - concat_count :
      - Le nombre d'audios consécutifs qui devraient être conçus ensemble.
      - La valeur par défaut est définie sur 2
  - Exemple - generator.concat_audios()
- finalize_dataset ():
  - TRIPS SIGNEMENT L'AUDIOS JOINT DE L'AUDIEN ENREGISTRANDS DE LES DONNÉES AUX AUTORISATIONS DE YOUTUBE et génère l'ensemble de données final après avoir terminé tout le prétraitement.
  - Paramètres:
    - min_audio_length :
      - La longueur de minimum du discours qui doit être conservé. Le reste sera ignoré.
      - La valeur par défaut est définie sur 5 .
    - max_audio_length :
      - La longueur maximale du discours qui doit être conservé. Le reste sera ignoré.
      - La valeur par défaut est définie sur 14 .
  - Exemple - generator.finalize_dataset(min_audio_length=6)
- get_available_langs ():
  - Obtenez la liste des langues disponibles dans lesquelles les sous-titres peuvent être téléchargés.
  - Exemple - generator.get_available_langs()
- get_total_audio_length ():
  - Renvoie le montant total des données de la parole prétraitées collectées par le générateur.
  - Exemple - generator.get_total_audio_length()
- Préparent_dataset ():
  - Une méthode de wrapper pour télécharger () , split_audios () , concat_audios () et finaliser_dataset () .
  - Si vous ne souhaitez pas utiliser les méthodes ci-dessus, vous pouvez appeler directement Préparer_dataset () . Il gérera toute votre génération de données.
  - Paramètres:
    - links_txt :
      - Chemin vers le fichier '.txt' qui contient les URL pour les vidéos.
    - SR :
      - Taux d'échantillon pour garder les audios.
      - La valeur par défaut est définie sur 22050
    - téléchargement_youtube_data :
      - Que ce soit télécharger des audios depuis YouTube.
      - La valeur par défaut est vraie
    - max_concat_limit :
      - La limite supérieure de la longueur des audios qui devrait être conduite. Le reste sera conservé tel quel.
      - La valeur par défaut est définie sur 7
    - concat_count :
      - Le nombre d'audios consécutifs qui devraient être conçus ensemble.
      - La valeur par défaut est définie sur 2
    - min_audio_length :
      - La longueur de minimum du discours qui doit être conservé. Le reste sera ignoré.
      - La valeur par défaut est définie sur 5 .
    - max_audio_length :
      - La longueur maximale du discours qui doit être conservé. Le reste sera ignoré.
      - La valeur par défaut est définie sur 14 .
  - Exemple - generator.prepare_dataset(links_txt='links.txt', download_youtube_data=True, min_audio_length=6)

Structure de l'ensemble de données final

Une fois l'ensemble de données créé, la structure du répertoire «votre_dataset» devrait ressembler:

 your_dataset
├───txts
│   ├───your_dataset1.txt
│   └───your_dataset2.txt
├───wavs
│    ├───your_dataset1.wav
│    └───your_dataset2.wav
└───metadata.csv/alignment.json

Remarque - audio.py est fortement basé sur le clonage vocal en temps réel