tts-dataset-prompts
[크게 버려 졌어, 죄송합니다!]
이 저장소는 자신의 목소리를 복제하려는 사람들 (예 : Tacotron 2를 사용하여)을위한 괜찮은 문장 세트가되는 것을 목표로합니다.
50 줄의 각 세트는 다음 기준을 충족하는 것을 목표로합니다.
- cmudict에 따르면 각 음소는 적어도 한 번 표시됩니다 (다르게 스트리트 된 모음의 모음은 별도의 전화로 계산되며 자음이 두 번 존재해야합니다)
- 각 음소는 규칙적인 언어에서와 같이 대략 자주 발생합니다 (음소가 배치에 4 배 이하에 존재하지 않는 한 Moby Dick에 존재하는 주파수는 50%와 150% 사이입니다).
- 모든 라인은 말할 때 대략 같은 길이입니다 (14-18 음절 + 비 결절 구두점)
- 처리의 용이성을 위해 상황에 따른 발음이있는 단어 (예 : 매우 일반적인 것 제외
the 를 피합니다. - 최소 10 줄에는 쉼표가 포함되어 있습니다
- 최소 10 줄은 여러 개의 짧은 문장으로 구성됩니다 (AI가 자연스럽게 일시 중지하는 법을 배웁니다)
동일한 규칙에 따라 질문 및 느낌표 프롬프트를 위해 추가 텍스트 파일이 제공됩니다. 일부 텍스트-음성 아키텍처는 전체 문장의 억양에 영향을 미치는 종말 구두점을 제대로 다루지 않기 때문에 분리되었습니다. Talqu에서 권장하고 Mekatron 서비스 (Defabled)의 일부 목소리를 위해 수행 된대로 별도의 모델을 훈련시키는 데이를 사용하는 것이 도움이 될 수 있습니다.
이 repo는 Uberduck의 음소화와 일치하기 위해 G2P-EN 라이브러리를 사용하여 음소 수를 결정합니다.
다른 좋은 프롬프트 세트
- (다국어!) Microsoft CustomVoice 예제 스크립트 (모든 프롬프트 목록이 잘 설계되지는 않았습니다. 예를 들어 EN-US 채팅 프롬프트에는 / ʒ /이라는 단어 만 포함합니다.
- 무지개 통로와 할아버지 통로 (음성적으로 완성)
- CMU Arctic Prompt List (음성 균형을 잡았지만 줄 당 한 문장 만)
- Mocha-Timit ( "영어로 연결된 주요 연설 과정을 영어로 포함하도록 설계되었습니다 (예 : 동화, 약한 형태 ..))))
- TIMIT (대부분의 랜덤 문장의 힙)
- (다국어!) 일반적인 음성 문장 (전혀 발음 적으로 균형이 맞지 않고 아주 짧음)
- ljspeech transcript (개인적으로 유용하다고 생각하는 문장 조각이 풍부합니다)
- 하버드 문장 (음성적으로 균형을 잡았지만 줄 당 한 문장만이 모두 동일합니다)
- vits-fast-fine 튜닝 목록 (영어와 중국어이지만 매우 짧은 문장과 문법은 완벽하지 않습니다)