TTS-Dataset-Prompts
[В значительной степени заброшен, извините!]
Этот репозиторий направлен на то, чтобы стать приличным набором предложений для людей, которые хотят клонировать свои собственные голоса (например, с использованием такотрона 2).
Каждый набор из 50 строк направлен на выполнение следующих критериев:
- Каждая фонема представлена по крайней мере один раз, согласно Cmudict (по-разному версии гласных по-разному считаются отдельные фонемы; согласные должны присутствовать дважды)
- Каждая фонема примерно такая же частая, как и в обычной речи (от 50% до 150% частота, присутствующая в Moby Dick, если только фонема не присутствует только 4 или меньше в партии)
- Каждая линия примерно равной длины при разговоре (14-18 слогов + нефинальная пунктуация)
- Слова с контекстно-зависимыми произношениями (за исключением очень распространенных, таких как
the избегаются для облегчения обработки - не менее 10 строк содержат запятые
- По меньшей мере 10 строк состоит из нескольких более коротких предложений (так что ИИ учится естественно паузу)
Дополнительные текстовые файлы будут предоставлены для вопросов и восклицательных подсказок, следуя тем же правилам. Они были разделены, потому что некоторые архитектуры текста в речь плохо справляются с окончанием пунктуации, которая влияет на интонацию всего предложения. Это может быть полезно использовать их для обучения отдельной модели, как рекомендовано TALQU, и, как это сделано для некоторых голосов в службе Mekatron (несуществующей).
В этом репо используется библиотека G2P-EN для определения количества фонем, чтобы соответствовать фонетизации Убердука.
Другие хорошие наборы
- (Многоязычные!) Microsoft CustomVoice Примеры сценариев (не все списки подсказок хорошо разработаны, например, en-us chat-подсказки включают только / ʒ / как часть слова «Индонезия»)
- Радужный проход и проход деда (фонетически завершен)
- Список подсказок CMU Arctic (фонетически сбалансированный, но только одно предложение на строку)
- Mocha-Timit («разработан, чтобы включить основные подключенные речевые процессы на английском языке (например, ассимиляции, слабые формы ..)»)
- ТИМИТ (куча в основном приговора)
- (Многоязычные!) Общие голосовые предложения (совсем не сбалансированные, также довольно короткие)
- Стенограмма LJSPEECH (предостаточно ли фрагменты предложения, что я лично считаю как полезный)
- Гарвардские предложения (фонетически сбалансированы, но только одно предложение на линию, и все они равны)
- Список Vits-Fast-Fine-Tuning (как английский, так и китайский, но очень короткие предложения и грамматика не идеальна)