
Clone le référentiel avec la commande suivante
git clone --recursive https://github.com/balisujohn/tortoise.cpp.git
Pour l'instant, Cuda et CPU uniquement. Pour compiler:
mkdir build
cd build
cmake ..
make
Ceci est testé avec le bras Mac OS
mkdir build
cd build
cmake .. -DGGML_CUBLAS=ON
make
Ceci est testé avec Ubuntu 22.04 et Cuda 12.0 et un 1070TI
mkdir build
cd build
cmake .. -DGGML_METAL=ON
make
Seules les lettres en minuscules, les espaces et la ponctuation sont prises en charge dans l'invite.
Vous devrez placer ggml-model.bin , ggml-vocoder-model.bin et ggml-diffusion-model.bin dans le répertoire des modèles pour exécuter Tortoise.cpp. Vous pouvez les télécharger ici https://huggingface.co/balisujohn/tortoise-ggml. Je publierai des scripts pour générer ces fichiers à partir de Tortoise-TTS.
Du répertoire de construction, exécutez:
./tortoise
Voici un exemple qui devrait fonctionner hors de la boîte:
./tortoise --message "based... dr freeman?" --voice "../models/mouse.bin" --seed 0 --output "based?.wav"
Tous les arguments de ligne de commande sont facultatifs:
arguments:
--message Specifies the message to generate, lowercase letters, spaces, and punctuation only. (default: "this is a test message." )
--voice Specifies the path to the voice file to use to determine the speaker's voice. (default: "../models/mol.bin" )
--output Specifies the path where the generated wav file will be saved. (default: "./output.wav")
--seed Specifies the seed for psuedorandom number generation, used in autoregressive sampling and diffusion sampling (default: system time seed)
Configurez la tortue d'origine, puis exécutez-la avec la voix que vous avez, puis après cette ligne: https://github.com/neonbjb/tortoise-tts/blob/e2d9fba0bb5c4376d0d142efea47a448f97c4d90/tortoise/api.py#l401
Ajouter ce code:
numpy_array = auto_conditioning.to("cpu").numpy().astype(np.float32) # Ensure float32 for binary format
# Define the file path
file_path = 'auto_conditioning.bin'
# Save NumPy array as binary file
numpy_array.tofile(file_path)
print("saved auto conditioning")
exit()
Ensuite, vous pouvez renommer auto_conditioning.bin au nom du haut-parleur et mettre le fichier dans votre dossier de modèles pour l'utiliser comme n'importe quelle autre voix. Cela fonctionne avec des voix Clone avec tortoise-tts .
Si vous souhaitez contribuer, veuillez faire un problème en indiquant sur quoi vous voulez travailler. Dm moi sur Twitter si vous voulez qu'un lien rejoigne le Dev Discord, ou si vous avez des questions. Je suis heureux d'aider à faire démarrer les gens avec la contribution!
Je rends également à disposition une fourche de Tortoise-TTS qui a mes annotations ingénieuses, ainsi que le script d'exportation du modèle autorégressif.
Ceci est publié avec une licence MIT.
Licence MIT
Copyright (C) 2024 John Balis
L'autorisation est accordée gratuitement à toute personne qui obtient une copie de ce logiciel et des fichiers de documentation associés (le "logiciel"), pour traiter le logiciel sans restriction, y compris sans limiter les droits d'utilisation, de copie, de modification, de fusion, de publication, de distribution, de sublince et / ou de vendre des copies des conditions suivantes.
L'avis de droit d'auteur ci-dessus et le présent avis d'autorisation sont inclus dans toutes les copies ou des parties substantielles du logiciel.
Le logiciel est fourni "tel quel", sans garantie d'aucune sorte, express ou implicite, y compris, mais sans s'y limiter, les garanties de qualité marchande, d'adéquation à un usage particulier et de non-contrefaçon. En aucun cas, les auteurs ou les détenteurs de droits d'auteur ne seront pas responsables de toute réclamation, dommage ou autre responsabilité, que ce soit dans une action de contrat, de délit ou autre, découlant de, hors du logiciel ou de l'utilisation ou d'autres relations dans le logiciel.
Dérivé de Tortoise-TTS et GGML.
Licence Apache 2.0 James Betker https://github.com/neonbjb/tortoise-tts/blob/main/license
Licence MIT
Copyright (C) 2022 Georgi Gerganov
L'autorisation est accordée gratuitement à toute personne qui obtient une copie de ce logiciel et des fichiers de documentation associés (le "logiciel"), pour traiter le logiciel sans restriction, y compris sans limiter les droits d'utilisation, de copie, de modification, de fusion, de publication, de distribution, de sublince et / ou de vendre des copies des conditions suivantes.
L'avis de droit d'auteur ci-dessus et le présent avis d'autorisation sont inclus dans toutes les copies ou des parties substantielles du logiciel.
Le logiciel est fourni "tel quel", sans garantie d'aucune sorte, express ou implicite, y compris, mais sans s'y limiter, les garanties de qualité marchande, d'adéquation à un usage particulier et de non-contrefaçon. En aucun cas, les auteurs ou les détenteurs de droits d'auteur ne seront pas responsables de toute réclamation, dommage ou autre responsabilité, que ce soit dans une action de contrat, de délit ou autre, découlant de, hors du logiciel ou de l'utilisation ou d'autres relations dans le logiciel.