Скачать ForwardTacotron NVDA - Загрузка исходного кода ForwardTacotron NVDA

ForwardTacotron NVDA

AI Исходный код

1.0.0

Скачать

Поддержка ForwardTacotron и Hifi-Gan для чтения экрана NVDA

Примечание. Это дополнение, а также документация все еще строится. Ваши вклад приветствуются!

введение

Помните, что Forwertacotron - это модель синтеза речи в Pytorch, которая использует предиктор продолжительности для выравнивания текста и сгенерированных спектрограмм MEL. Модель имеет преимущества, такие как устойчивость, скорость, манипуляция по высоте и энергетике и эффективность.

Таким образом, этот плагин является попыткой реализовать поддержку ForwardTacotron в считывании экрана с открытым исходным кодом NVDA через клиент/сервер, поскольку библиотеки, используемые в качестве Torch, невозможно включить в NVDA напрямую.

Это работа в процессе, и поэтому есть еще много дел.

В то же время вы можете прислушиваться к прогрессу, который был достигнут до сих пор.

Аудио Образцы

Язык	Голос	Образец
Английский	Ljspeech (с Griffinlim Vocoder)
Английский	Ljspeech (с hifi-gan vocoder)
испанский	Набор данных ALD (с Hifi-Gan Vocoder)
испанский	Одал (с hifi-gan vocoder, универсальная модель)

делать:

Способ скомпилировать и интегрировать сервер в дополнение.
- Когда это произойдет, позвольте серверу открываться при загрузке синтезатора. После загрузки сервера мы можем позвонить, чтобы сделать синтезатор речи готовым для использования.
- Две версии могут быть сделаны для дополнения, с поддержкой процессора, а одна с поддержкой графического процессора, поскольку, по-видимому, синтез генерируется в реальном времени на графическом процессоре. В то же время мы можем заметить замедление в процессоре.
Поддержка голоса и энергии в вариантах синтезатора.
На данный момент дополнение использует httplib2 для связи с сервером, но я мог бы искать другие методы и при необходимости переписать часть сервера.
Добавьте поддержку для загрузки разных голосов, которые могут быть обнаружены в папке "Voice_models".
- С этим можно добавить поддержку загрузки обученных моделей. У нас есть модель LJSPEECH на английском языке, другая на немецком языке и два на испанском.
Для новых моделей с несколькими динамиками он может прочитать настройки для проверки, и если это так, он может выбрать голос из параметров ринга синтезатора, сначала проконсультируйтесь с именами динамиков на модели.

Расширять

Дополнительная информация