Transcrire l'audio via Google Speech à l'API texte avec séparation des haut-parleurs (diarisation). Générez automatiquement des ensembles de données TTS à l'aide de l'audio et du texte associé. Utilise Google API pour transcrire des coupes qui ont été divisées par la rupture de silence maximale (recommandée). Ou utilisez Aeneas pour forcer l'alignement du texte à l'audio. Relisez rapidement et modifiez les coupes.
Pour que Google Speech to SMS API, vous aurez besoin d'un compte Google Cloud Platform. Votre variable Env $ Google_Application_Credentials doit pointer vers votre chemin de fichier JSON des informations d'identification. Google offre 300 $ de service et 3 mois gratuitement sur de nouveaux comptes.
Exécutez des outils pour les outils GUI.
Les limitations actuelles sont que vous devrez ajuster la largeur de la colonne de la section de relecture et lors de la navigation des entrées, vous devez retirer le focus des zones de texte actuelles et suivantes ou la zone de texte ne mettra pas à jour. La prochaine version de Dearpy GUI résoudra ces problèmes.
L'utilisation d'un VPN interférera avec Long Google Speech pour envoyer des demandes d'API.


En utilisant l'ancienne version de Dearpygui à The Moment, je migrerai finalement.
PIP Installer Numpy --User
PIP Installer Pydub - User
pip install dearpygui == 0.6.415 --User
PIP install google-cloud-disech --User
PIP Installer Google-Cloud-Storage --User
pip install Simpleaudio - User
* Si vous ne pouvez pas construire Simpleaudio, assurez-vous que GCC soit installé: Sudo apt-get updat, sudo apt-get install build-essentiels
PIP Install Sox - User
L'environnement Linux est recommandé pour l'option AENEAS, dans Windows Aeneas ne pourra pas effectuer des coupes plus longues en raison de problèmes de mémoire.
wget https://raw.githubusercontent.com/readbeyond/aeneas/master/install_depensengs.sh
bash install_dependces.sh
PIP Installer Numpy --User
pip install aeneas --User
Installation de test: python -m aeneas.diagnostics
PIP Installer Pydub - User
pip install dearpygui == 0.6.415 --User
PIP install google-cloud-disech --User
PIP Installer Google-Cloud-Storage --User
pip install Simpleaudio - User
PIP Install Sox - User
Si vous obtenez une erreur libpython:
sudo apt install libasound2-dev
Modifiez votre fichier bashrc en tapant: sudo nano ~ / .bashrc
Ensuite, ajoutez la ligne à la fin avec vos informations en fonction de l'endroit où votre package a été installé:
exporter ld_library_path = "/ [yourhomepath] / anaconda3 / envs / [yourenv] / lib /"
OU
exporter ld_library_path = "/ [yourhomepath] /. conda / envs / [yourenv] / lib /"
Ou si l'environnement de base
exporter ld_library_path = "/ [yourhomepath] / anaconda3 / lib /"
Appuyez sur Ctrl + O pour exporter le fichier mis à jour. Puis ctrl + x pour quitter.
Type Source ~ / .Bashrc pour activer le nouveau chemin.
Tutoriel vidéo: https://www.youtube.com/watch?v=te7pui2xeje
Plusieurs choses amélioreront la qualité de vos coupes, bien que vous deviez toujours les relire avant de vous entraîner. Pour les langues autres que l'anglais, vous pouvez facilement modifier les lignes de commande Aneas et les remplacements de caractères à votre besoin, et remplacer les codes Google En-us Languages par votre code de langue (https://cloud.google.com/speech-to-text/docs/languages). Examinez si des choses comme les titres de chapitre sont incluses. Les haut-parleurs avec un discours lent et même rythmé feront les coupes les plus propres, tandis que les haut-parleurs au rythme rapide ont tendance à exécuter des mots ensemble et peuvent provoquer des mots, des morceaux de mots, pour être déplacés dans la prochaine coupe où il devra être édité. Supprimer toute la musique si elle est capable.