sonata nvda Téléchargement - sonata nvda Source Code Download

sonata nvda

Code Source AI

v3.0

Télécharger

Sonata Voix neuronaux pour NVDA

Ce module complémentaire implémente un pilote de synthétiseur de la parole pour NVDA à l'aide de modèles TTS neuronaux. Il prend en charge Piper.

Piper est un système de texte neuronal local rapide et local qui sonne bien et est optimisé pour les dispositifs bas de gamme tels que le Raspberry Pi.

Vous pouvez écouter les échantillons de voix de Piper ici: Piper Voice Samples.

Ce module complémentaire utilise sonate: un moteur de rouille multiplateforme pour les modèles TTS neuronaux qui est développé par Musharraf Omer.

Installation

Télécharger le module complémentaire

Vous pouvez trouver le package complémentaire dans la section des actifs de la page de version

Ajout de voix

Le module complémentaire est juste un pilote, il est livré sans voix par défaut. Vous devez télécharger et installer les voix que vous souhaitez du gestionnaire de voix.

Lors de l'installation du module complémentaire et du redémarrage du NVDA, le module complémentaire vous demandera de télécharger et d'installer au moins une voix, et il vous donnera la possibilité d'ouvrir le gestionnaire de voix.

Vous pouvez également ouvrir le gestionnaire de voix à partir du menu principal de NVDA.

Notez que nous vous recommandons de choisir les voix low ou medium qualité pour vos langues cibles, car elles offrent généralement une meilleure réactivité. Pour une réactivité supplémentaire, vous pouvez choisir de télécharger la variante fast d'une voix à un coût de qualité de la parole légèrement inférieure.

Vous pouvez également installer des voix à partir d'archives locales. Après avoir obtenu le fichier de la voix, ouvrez le gestionnaire vocal, dans l'onglet installé, cliquez sur le bouton étiqueté Install from local file . Choisissez le fichier vocal, attendez l'installation de la voix et redémarrez NVDA pour actualiser la liste des voix.

Une note sur la qualité vocale

Les voix actuellement disponibles sont formées à l'aide d'ensembles de données TTS disponibles librement, qui sont généralement de faible qualité (principalement des livres audio de domaine public ou des enregistrements de qualité de recherche).

De plus, ces ensembles de données ne sont pas complets, donc certaines voix peuvent présenter une prononciation incorrecte ou étrange. Les deux problèmes pourraient être résolus en utilisant de meilleurs ensembles de données pour la formation.

Heureusement, le développeur Piper et certains développeurs de la communauté aveugle et à impairs visuels travaillent à la formation de meilleures voix.