
Clone o repositório com o seguinte comando
git clone --recursive https://github.com/balisujohn/tortoise.cpp.git
Por enquanto, apenas CUDA e CPU. Para compilar:
mkdir build
cd build
cmake ..
make
Isso é testado com o braço Mac OS
mkdir build
cd build
cmake .. -DGGML_CUBLAS=ON
make
Isso é testado com o Ubuntu 22.04 e o CUDA 12.0 e um 1070ti
mkdir build
cd build
cmake .. -DGGML_METAL=ON
make
Somente letras minúsculas, espaços e pontuação são suportados no prompt.
Você precisará colocar ggml-model.bin , ggml-vocoder-model.bin e ggml-diffusion-model.bin no diretório de modelos para executar o Tortoise.cpp. Você pode baixá-los aqui https://huggingface.co/balisujohn/tortoise-gggml. Vou lançar scripts para gerar esses arquivos a partir de tartaruga-tts.
No diretório de construção, execute:
./tortoise
Aqui está um exemplo que deve funcionar fora da caixa:
./tortoise --message "based... dr freeman?" --voice "../models/mouse.bin" --seed 0 --output "based?.wav"
Todos os argumentos da linha de comando são opcionais:
arguments:
--message Specifies the message to generate, lowercase letters, spaces, and punctuation only. (default: "this is a test message." )
--voice Specifies the path to the voice file to use to determine the speaker's voice. (default: "../models/mol.bin" )
--output Specifies the path where the generated wav file will be saved. (default: "./output.wav")
--seed Specifies the seed for psuedorandom number generation, used in autoregressive sampling and diffusion sampling (default: system time seed)
Configure o Tortoise-TTS original, depois execute-o com qualquer voz que tiver, depois desta linha: https://github.com/neonbjb/tortoise-tts/blob/e2d9fba0bb5c4376d0d142eea4748f97d90/ortorise/ortoryeMee.apiele.apienel.apienelpi.api.api.api.api.api.api.api.api.api.api.api.api.api.api.apiesea.apiesea.
Adicione este código:
numpy_array = auto_conditioning.to("cpu").numpy().astype(np.float32) # Ensure float32 for binary format
# Define the file path
file_path = 'auto_conditioning.bin'
# Save NumPy array as binary file
numpy_array.tofile(file_path)
print("saved auto conditioning")
exit()
Em seguida, você pode renomear o nome de auto_conditioning.bin para o nome do alto -falante e colocar o arquivo na pasta de modelos para usá -lo como qualquer outra voz. Isso funciona com o clone de vozes com tortoise-tts .
Se você deseja contribuir, faça um problema indicando o que deseja trabalhar. DM -me no Twitter se você quiser um link para participar da discórdia do Dev, ou se tiver dúvidas. Fico feliz em ajudar as pessoas a começarem a contribuir!
Também estou disponibilizando um garfo de tartaruga-TTS, que tem minhas anotações de engenharia reversa e também o script de exportação para o modelo autoregressivo.
Isso é liberado com uma licença do MIT.
MIT Licença
Copyright (c) 2024 John Balis
A permissão é concedida, gratuita, a qualquer pessoa que obtenha uma cópia deste software e arquivos de documentação associados (o "software"), para lidar com o software sem restrição, inclusive sem limitação os direitos de usar, copiar, modificar, mesclar, publicar, distribuir, mobilizar o software e/ou vender cópias do software e permitir que as pessoas a quem
O aviso de direitos autorais acima e este aviso de permissão devem ser incluídos em todas as cópias ou em partes substanciais do software.
O software é fornecido "como está", sem garantia de qualquer tipo, expresso ou implícito, incluindo, entre outros, as garantias de comercialização, aptidão para uma finalidade específica e não innoculação. Em nenhum caso os autores ou detentores de direitos autorais serão responsáveis por qualquer reclamação, danos ou outro passivo, seja em uma ação de contrato, delito ou não, decorrente de, fora ou em conexão com o software ou o uso ou outras negociações no software.
Derivado de tartaruga-tts e ggml.
Licença Apache 2.0 James Betker https://github.com/neonbjb/tortoise-tts/blob/main/license
MIT Licença
Copyright (C) 2022 Georgi Gerganov
A permissão é concedida, gratuita, a qualquer pessoa que obtenha uma cópia deste software e arquivos de documentação associados (o "software"), para lidar com o software sem restrição, inclusive sem limitação os direitos de usar, copiar, modificar, mesclar, publicar, distribuir, mobilizar o software e/ou vender cópias do software e permitir que as pessoas a quem
O aviso de direitos autorais acima e este aviso de permissão devem ser incluídos em todas as cópias ou em partes substanciais do software.
O software é fornecido "como está", sem garantia de qualquer tipo, expresso ou implícito, incluindo, entre outros, as garantias de comercialização, aptidão para uma finalidade específica e não innoculação. Em nenhum caso os autores ou detentores de direitos autorais serão responsáveis por qualquer reclamação, danos ou outro passivo, seja em uma ação de contrato, delito ou não, decorrente de, fora ou em conexão com o software ou o uso ou outras negociações no software.