tts tortoise gradio 다운로드 -TTS tts tortoise gradio 소스 코드 다운로드

tts tortoise gradio

AI 소스 코드

1.0.0

다운로드

남생이

거북이는 다음과 같은 우선 순위로 구축 된 텍스트 음성 프로그램입니다.

강력한 멀티 보이스 기능.
매우 현실적인 번영과 억양.

이 repo에는 추론 모드에서 거북이 TTS를 실행하는 데 필요한 모든 코드가 포함되어 있습니다.

콜랩

Colab은 이것을 시도하는 가장 쉬운 방법입니다. https://colab.research.google.com/drive/1wvvqupqwidbuvewwounglpghu3hg_cbr?usp=sharing

로컬 설치

자신의 컴퓨터에서 이것을 사용하려면 nvidia gpu가 있어야합니다.

먼저, https://pytorch.org/get-started/locally/을 사용하여 pytorch를 설치하십시오. Windows에서는 Conda 설치 경로를 사용하는 것이 좋습니다 . 나는 당신이 이것을하지 않으면, 당신은 의존성 문제를 쫓는 데 많은 시간을 할애 할 것이라고 들었습니다.

다음으로 거북이를 설치하면 종속성입니다.

git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
python setup.py install

Windows에있는 경우 PysoundFile : conda install -c conda-forge pysoundfile 설치해야합니다.

do_tts.py

이 스크립트를 사용하면 하나 이상의 목소리로 단일 문구를 말할 수 있습니다.

python tortoise/do_tts.py --text " I'm going to speak this " --voice random --preset fast

read.py

이 스크립트는 많은 양의 텍스트를 읽는 도구를 제공합니다.

python tortoise/read.py --textfile < your text to be read > --voice random

이렇게하면 TextFile을 문장으로 나눈 다음 한 번에 하나씩 연설로 변환합니다. 일련의 음성 클립이 생성 될 때 출력합니다. 모든 클립이 생성되면 단일 파일로 결합하여 출력됩니다.

때때로 거북이는 출력을 망칩니다. read.py 다시 실행하여 regenerate 인수를 통해 나쁜 클립을 다시 생성 할 수 있습니다.

API

거북이는 프로그래밍 방식으로 사용할 수 있습니다.

 reference_clips = [ utils . audio . load_audio ( p , 22050 ) for p in clips_paths ]
tts = api . TextToSpeech ()
pcm_audio = tts . tts_with_preset ( "your text here" , voice_samples = reference_clips , preset = 'fast' )

음성 사용자 정의 가이드

거북이는 특히 멀티 스피커 모델로 훈련되었습니다. 참조 클립을 컨설팅하여이를 달성합니다.

이 참조 클립은 음성 생성을 안내하기 위해 제공하는 스피커의 녹음입니다. 이 클립은 음성의 피치와 톤, 말하기 속도, LISP 또는 말더듬과 같은 말하기 결함과 같은 출력의 많은 특성을 결정하는 데 사용됩니다. 참조 클립은 또한 볼륨, 배경 노이즈, 녹음 품질 및 리버브와 같은 오디오 출력의 비 목성 관련 측면을 결정하는 데 사용됩니다.

임의의 목소리

무작위로 음성을 생성하는 기능을 포함 시켰습니다. 이 목소리는 실제로 존재하지 않으며 실행할 때마다 무작위가됩니다. 결과는 상당히 매력적이며 나는 당신이 그것으로 놀고있는 것이 좋습니다!

'random'을 음성 이름으로 전달하여 임의의 음성을 사용할 수 있습니다. 거북이는 나머지를 돌볼 것입니다.

ML 공간에있는 사람들의 경우 : 이것은 음성 컨디셔닝 잠재 공간에 임의의 벡터를 투사하여 만들어집니다.

목소리를 제공했습니다

이 저장소에는 몇 가지 사전 포장 된 목소리가 제공됩니다. "Train_"로 선불 된 목소리는 훈련 세트에서 나 왔으며 다른 것보다 훨씬 더 잘 수행합니다. 당신의 목표가 고품질의 연설이라면, 나는 당신이 그들 중 하나를 선택하는 것이 좋습니다. Zero-Shot Mimicing을 위해 거북이가 무엇을 할 수 있는지보고 싶다면 다른 사람들을 살펴보십시오.

새로운 목소리를 추가합니다

거북이에 새로운 목소리를 추가하려면 다음을 수행해야합니다.

스피커의 오디오 클립을 수집하십시오. 좋은 소스는 YouTube 인터뷰 (YouTube-DL을 사용하여 오디오를 가져올 수 있음), 오디오 북 또는 팟 캐스트입니다. 좋은 클립에 대한 지침은 다음 섹션에 있습니다.
클립을 ~ 10 초 세그먼트로 자릅니다. 당신은 3 개 이상의 클립을 원합니다. 더 나은 것이 더 좋지만 테스트에서 최대 5 명만 실험했습니다.
플로팅 포인트 형식과 22,050 샘플 속도가있는 wav 파일로 클립을 저장하십시오.
Voices에서 하위 디렉토리 생성/
그 하위 디렉토리에 클립을 넣으십시오.
-voice = <your_subdirectory_name>으로 거북이 유틸리티를 실행하십시오.

좋은 참조 클립 선택

위에서 언급했듯이, 참조 클립은 거북이 출력에 중대한 영향을 미칩니다. 다음은 좋은 클립을 선택하기위한 몇 가지 팁입니다.

배경 음악, 소음 또는 잔향이있는 클립을 피하십시오. 이 클립은 훈련 데이터 세트에서 제거되었습니다. 거북이는 그들과 잘 어울리지 않을 것입니다.
연설을 피하십시오. 이들은 일반적으로 증폭 시스템에 의해 발생하는 왜곡이 있습니다.
전화로 클립을 피하십시오.
과도한 말더듬, 찌르기 또는 "uh"또는 "like"와 같은 단어가있는 클립을 피하십시오.
출력이 원하는 방식으로 말하는 클립을 찾으십시오. 예를 들어, 대상 음성을 듣고 싶다면 오디오 북을 읽으십시오. 책을 읽는 클립을 찾으십시오.
클립에서 사용되는 텍스트는 중요하지 않지만 다양한 텍스트가 더 잘 작동하는 것 같습니다.

고급 사용

생성 설정

거북이는 주로 확산 모델과 결합 된 자동 회귀 디코더 모델입니다. 이 두 가지 모두 사용하기 쉽기 위해 추상화 할 수있는 많은 손잡이가 있습니다. 나는 설정의 다양한 순열을 사용하여 수천 개의 클립을 생성하고 음성 사실주의와 명료성을위한 메트릭을 사용하여 효과를 측정함으로써이를 수행했습니다. 기본값을 내가 찾을 수있는 최고의 전체 설정으로 설정했습니다. 특정 사용 사례의 경우 이러한 설정을 사용하는 것이 효과적 일 수 있습니다 (그리고 내가 뭔가를 놓쳤을 가능성이 높습니다!)

이 설정은 거북이로 포장 된 일반 스크립트에서 사용할 수 없습니다. 그러나 API에서 사용할 수 있습니다. 전체 목록은 api.tts 참조하십시오.

프롬프트 엔지니어링

어떤 사람들은 거북이로 신속한 엔지니어링을 할 수 있다는 것을 발견했습니다! 예를 들어, 당신은 당신의 텍스트 전에 "정말 슬프다"와 같은 것을 포함시켜 감정을 불러 일으킬 수 있습니다. 나는 당신이 이것을 활용하는 데 사용할 수있는 자동화 된 편집 시스템을 구축했습니다. 괄호로 둘러싸인 프롬프트에서 텍스트를 수정하려고 시도하여 작동합니다. 예를 들어, "[정말 슬퍼요] 제발 먹이를주십시오." "제발 먹이를 먹으십시오"라는 단어 만 말할 것입니다 (슬픈 색조로).

목소리를 잠재적으로 연주합니다

거북이 섭취는 포인트 잠복을 생성하는 작은 서브 모델을 통해 개별적으로 공급하여 참조 클립을 섭취 한 다음 생성 된 모든 잠복의 평균을 취합니다. 내가 한 실험은이 포인트 잠복이 상당히 표현력이 있으며, 말하기 속도, 말하기 속도, 연설 이상에 이르기까지 모든 것에 영향을 미친다는 것을 나타냅니다.

이것은 몇 가지 깔끔한 속임수에 적합합니다. 예를 들어, 피드를 두 개의 다른 목소리와 결합하여 거북이를 결합 할 수 있으며이 두 목소리의 "평균"이 생각하는 것을 출력합니다.

목소리에서 컨디셔닝 잠재를 생성합니다

스크립트 get_conditioning_latents.py 사용하여 설치 한 음성에 대한 컨디셔닝 잠재를 추출하십시오. 이 스크립트는 잠복을 .pth 피클 파일로 버립니다. 파일에는 단일 튜플 (autoregreassive_latent, diffusion_latent)이 포함됩니다.

또는 API.TextToSpeech.get_conditioning_latents ()를 사용하여 잠재를 가져 오십시오.

원시 컨디셔닝 잠재를 사용하여 음성을 생성합니다

당신이 그들과 함께 연주 한 후에는 튜플 (autoregreassive_latent, diffusion_latent)으로 절인 컨디셔닝 잠복을 포함하는 단일 ".pth"파일로 Subdirectory를 만들어 음성을 생성 할 수 있습니다.

거북이 감지

이 모델이 잘못 사용될 수 있다는 우려에서, 나는 오디오 클립이 거북이에서 나올 가능성을 알려주는 분류기를 만들었습니다.

이 분류기는 모든 컴퓨터에서 실행할 수 있으며 사용량은 다음과 같습니다.

 python tortoise/is_this_from_tortoise.py --clip=<path_to_suspicious_audio_file>

이 모델은이 레포의 결과/ 음성/ 폴더의 내용에 대해 100% 정확도를 가지고 있습니다. 그럼에도 불구 하고이 분류기를 "강한 신호"로 취급하십시오. 분류기를 속일 수 있으며이 분류기가 잘못된 긍정을 나타내는 것은 불가능하지 않습니다.

모델 아키텍처

거북이 TTS는 OpenAi의 Dalle에서 영감을 얻어 음성 데이터에 적용하고 더 나은 디코더를 사용합니다. https://nonint.com/2022/04/25/tortoise-architectural-design-doc/

확장하다

추가 정보

버전 1.0.0
유형 AI 소스 코드
업데이트 시간 2025-08-21
크기 53MB
출처 Github

tts tortoise gradio

남생이

콜랩

로컬 설치

do_tts.py

read.py

API

음성 사용자 정의 가이드

임의의 목소리

목소리를 제공했습니다

새로운 목소리를 추가합니다

좋은 참조 클립 선택

고급 사용

생성 설정

프롬프트 엔지니어링

목소리를 잠재적으로 연주합니다

목소리에서 컨디셔닝 잠재를 생성합니다

원시 컨디셔닝 잠재를 사용하여 음성을 생성합니다

거북이 감지

모델 아키텍처

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

F5 TTS ComfyUI

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

음성 개발에 대한 영어 정보(TTS 사용자 가이드 Delphi 버전)

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express