GnuspeEchsa est un synthétiseur articulatoire en ligne de commande qui convertit le texte en parole.
GNUSPEECHSA est un port C ++ du TTS_SERVER dans le système Gnuspeech original développé pour NextStep, fourni par David R. Hill, Leonard Manzara, Craig Schock et contributeurs. La base était le code sur le référentiel de subversion de Gnuspeech, Revision 672, téléchargé en 2014-08-02. Le code source a été obtenu à partir des répertoires:
nextstep/trunk/ObjectiveC/Monet.realtime
nextstep/trunk/src/SpeechObject/postMonet/server.monet
Ce logiciel est écrit en C ++ multiplateforme.
Gnuspeech est un synthétiseur de la parole articulatoire. Le projet a mis en œuvre le premier logiciel de texte à dispection articulatoire (TTS) (pour autant que je sache). Il a été développé dans les années 90, il y a environ 30 ans (en 2023). Le synthétiseur était auparavant un logiciel commercial à source fermée, disponible uniquement pour les prochains ordinateurs. Après la disparition de Suivant, le logiciel a été donné au projet GNU. Il utilise un modèle de tractus vocal simple, car le suivant était un ordinateur très lent. Les CPU des années 90 fonctionnaient à une fréquence de dizaines de MHz (pas une faute de frappe), environ 100x plus lent que la technologie en 2023. La faible complexité relative du modèle permet une synthèse de faible latence sur les ordinateurs personnels modernes.
Le système TTS d'origine avait deux implémentations du modèle Vocal Tract (modèle de tube), une qui exécutée sur un DSP 56k, écrite en assemblage, et une autre qui exécutée sur le CPU, écrite en C. Le modèle de tube DSP génère une meilleure parole, avec des fricatives / plosifs plus équilibrés. Ce référentiel utilise le modèle de tube C.
Les sons ci-dessous ont été synthétisés à partir du texte du chaos (version courte) de Gerard Nolst Trenité.
entretien
Seul l'anglais est pris en charge.
Ce programme est un logiciel gratuit: vous pouvez le redistribuer et / ou le modifier en vertu des termes de la licence publique générale GNU publiée par la Free Software Foundation, soit la version 3 de la licence, ou (à votre option) toute version ultérieure.
Ce programme est distribué dans l'espoir qu'il sera utile, mais sans aucune garantie; Sans même la garantie implicite de qualité marchande ou d'adéquation à un usage particulier. Consultez le fichier Copying.txt pour plus de détails.
Ce logiciel comprend le code de RapidXML. Voir le fichier SRC / Rapidxml / Licence.txt pour plus de détails.
gnuspeech_sa gnuspeech_sa convertit le texte d'entrée en parole.
./gnuspeech_sa [-v] -c config_dir -p trm_param_file.txt -o output_file.wav
"Hello world."
Synthesizes text from the command line.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
./gnuspeech_sa [-v] -c config_dir -i input_text.txt -p trm_param_file.txt
-o output_file.wav
Synthesizes text from a file.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
input_text.txt contains the input text.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
gnuspeech_sa_trm gnuspeech_sa_trm exécute uniquement le modèle de tube.
./gnuspeech_sa_trm [-v] trm_param_file.txt output_file.wav
-v : verbose
trm_param_file.txt is the file generated by gnuspeech_sa, containing the
tube model parameters.
output_file.wav will be generated, containing the synthesized speech.
monet.xmlContient la base de données articulatoire.
intonation.txtContrôle l'intonation.
Si random_intonation = 0 dans trm_control_model.txt , seule la première ligne de chaque groupe de tons sera utilisée. Si random_intonation = 1 , la ligne sera sélectionnée au hasard.
MainDictionary.txtContient le principal dictionnaire, qui relie les mots aux postures.
trm.txtContient les paramètres du modèle de tube.
Les paramètres intéressants sont:
vocal_tract_length_offset
This value is added to the vocal tract length.
loss_factor
Defines the acoustic loss inside the vocal tract.
trm_control_model.txtContient les paramètres du contrôleur du modèle de tube.
Les paramètres intéressants sont:
voice_name
Defines the voice used in the synthesis.
It selects which of the voice_*.txt files will be
loaded.
tempo
Values greater than 1 will speed up the speech.
pitch_offset
Modifies the voice pitch.
drift_deviation
drift_lowpass_cutoff
Control the random perturbations in the intonation
(requires intonation_drift = 1).
dictionary_1_file
dictionary_2_file
dictionary_3_file
Indicate the dictionaries (the dictionaries will be
searched in the order 1, 2, 3).
Note:
Les paramètres suivants ne sont pas utilisés pour le moment:
voice_baby.txtvoice_female.txtvoice_large_child.txtvoice_male.txtvoice_small_child.txtContiennent les paramètres vocaux.
Les paramètres intéressants sont:
vocal_tract_length
glottal_pulse_tp
Rise time, in % of the period.
glottal_pulse_tn_min
Fall time, in % of the period - for the highest pulse
amplitude.
glottal_pulse_tn_max
Fall time, in % of the period - for the lowest pulse
amplitude.
These parameters modify the glottal pulse shape.
reference_glottal_pitch
Modify the voice pitch.
breathiness
vowelTransitions.txtContrôle les transitions de voyelle.
vowelTransitions_2.txt Version alternative de vowelTransitions.txt .
Il n'est pas utilisé.