ForwardTacotron NVDA 다운로드 - ForwardTacotron NVDA 소스 코드 다운로드

다운로드

NVDA 스크린 리더를위한 ForwardTacotron 및 Hifi-Gan 지원

참고 :이 추가 기능과 문서는 여전히 건설 중입니다. 귀하의 기여는 환영합니다!

ForwardTacotron은 Pytorch의 음성 합성 모델로서 지속 시간 예측 변수를 사용하여 텍스트를 정렬하고 MEL 스펙트로 그램을 생성합니다. 이 모델에는 견고성, 속도, 피치 및 에너지 조작 및 효율성과 같은 장점이 있습니다.

따라서이 플러그인은 Torch로 사용 된 라이브러리가 NVDA에 직접 포함 할 수 없기 때문에 Client/Server를 통해 NVDA의 오픈 소스 화면 리더에서 ForwardTacotron에 대한 지원을 구현하려는 시도입니다.

이것은 진행중인 작업이므로 여전히해야 할 일이 많습니다.

그 동안, 당신은 지금까지 진행된 진전을들을 수 있습니다.

언어	목소리	견본
영어	ljspeech (Griffinlim 보코더 포함)
영어	ljspeech (hifi-gan vocoder 포함)
스페인 사람	ALD 데이터 세트 (Hifi-gan 보코더 포함)
스페인 사람	Odal (Hifi-gan 보코더, Universal Model)

서버를 애드온에 컴파일하고 통합하는 방법.
- 이 경우 신디사이저를로드 할 때 서버가 열리도록하십시오. 서버가로드되면 체크에 전화하여 음성 신디사이저를 사용할 수 있도록 할 수 있습니다.
- 합성이 GPU에서 실시간으로 생성되기 때문에 CPU 지원과 GPU 지원이있는 추가 버전을 위해 두 가지 버전을 만들 수 있습니다. 그 동안 우리는 CPU에서 둔화를 알 수 있습니다.
신디사이저 링 옵션의 음성 및 에너지 변화 지원.
현재 애드온은 httplib2를 사용하여 서버와 통신하지만 다른 방법을 찾을 수 있으며 필요한 경우 서버의 일부를 다시 작성할 수 있습니다.
"Voice_Models"폴더 내에서 감지 할 수있는 다른 음성로드에 대한 지원을 추가하십시오.
- 이를 통해 숙련 된 모델 다운로드를 지원할 수 있습니다. 우리는 영어로 된 ljspeech 모델, 다른 하나는 독일어, 스페인어로는 2 개를 가지고 있습니다.
최신 멀티 스피커 모델의 경우 확인할 설정을 읽을 수 있으며, 그렇다면 모델의 스피커 이름을 먼저 참조하여 신디 링 옵션에서 음성을 선택할 수 있습니다.

확장하다

추가 정보