Gnuspeechsa ist ein artikulierender Synthesizer der Befehlszeile, der Text in Sprache umwandelt.
Gnuspeechsa ist ein C ++ - Port des TTS_Server im ursprünglichen Gnuspeech -System, der für NextStep entwickelt wurde und von David R. Hill, Leonard Manzara, Craig Schock und Mitwirkenden bereitgestellt wird. Die Basis war der Code für das Subversion-Repository von Gnuspeech, Revision 672, der 2014-08-02 heruntergeladen wurde. Der Quellcode wurde aus den Verzeichnissen erhalten:
nextstep/trunk/ObjectiveC/Monet.realtime
nextstep/trunk/src/SpeechObject/postMonet/server.monet
Diese Software ist in Multi-Plattform C ++ geschrieben.
Gnuspeech ist ein artikulierender Sprachsynthesizer. Das Projekt implementierte die erste Articulatory Text-to-Speech-Software (TTS) (soweit ich weiß). Es wurde in den 90ern vor etwa 30 Jahren (im Jahr 2023) entwickelt. Der Synthesizer war zuvor eine kommerzielle Software für geschlossene Quellen, die nur für nächste Computer erhältlich war. Nach dem Niedergang des nächsten wurde die Software an das GNU -Projekt gespendet. Es verwendet ein einfaches Vokaltraktmodell, da das nächste ein sehr langsamer Computer war. Der CPUs der 90er Jahre, die mit einer Häufigkeit von zehn MHz (kein Tippfehler) betrieben wurden, rund 100x langsamer als die Technologie im Jahr 2023. Die relative niedrige Komplexität des Modells ermöglicht moderne Personalcomputer mit geringer Latenz -Synthese.
Das ursprüngliche TTS -System verfügte über zwei Implementierungen des Vokaltraktmodells (Rohrmodell), das auf einem 56K -DSP ausgeführt wurde, der in der Montage geschrieben wurde, und ein anderes, das auf der CPU ausgeführt wurde, geschrieben in C. Das DSP -Rohrmodell erzeugt eine bessere Sprache mit ausgewogeneren Frikativen/Plosiven. Dieses Repository verwendet das C -Rohrmodell.
Die folgenden Geräusche wurden aus dem Text des Chaos (Kurzversion) von Gerard Nolst Trenité synthetisiert.
Wartung
Nur Englisch wird unterstützt.
Dieses Programm ist kostenlose Software: Sie können es neu verteilt und/oder unter den Bestimmungen der GNU General Public Lizenz wie von der Free Software Foundation, entweder Version 3 der Lizenz veröffentlicht, oder (nach Ihrer Option) jede spätere Version ändern.
Dieses Programm wird in der Hoffnung verteilt, dass es nützlich sein wird, jedoch ohne Garantie; Ohne die implizite Garantie für Handelsfähigkeit oder Eignung für einen bestimmten Zweck. Weitere Informationen finden Sie in der Datei Copying.txt -Datei.
Diese Software enthält Code von RapidXML. Weitere Informationen finden Sie in der Datei SRC/Rapidxml/Lizenz.txt.
gnuspeech_sa gnuspeech_sa wandelt den Eingabetxt in die Sprache um.
./gnuspeech_sa [-v] -c config_dir -p trm_param_file.txt -o output_file.wav
"Hello world."
Synthesizes text from the command line.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
./gnuspeech_sa [-v] -c config_dir -i input_text.txt -p trm_param_file.txt
-o output_file.wav
Synthesizes text from a file.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
input_text.txt contains the input text.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
gnuspeech_sa_trm gnuspeech_sa_trm führt nur das Rohrmodell aus.
./gnuspeech_sa_trm [-v] trm_param_file.txt output_file.wav
-v : verbose
trm_param_file.txt is the file generated by gnuspeech_sa, containing the
tube model parameters.
output_file.wav will be generated, containing the synthesized speech.
monet.xmlEnthält die Artikulationsdatenbank.
intonation.txtKontrolliert die Intonation.
Wenn random_intonation = 0 in trm_control_model.txt = 0 ist, wird nur die erste Zeile in jeder Tongruppe verwendet. Wenn random_intonation = 1 , wird die Zeile zufällig ausgewählt.
MainDictionary.txtEnthält das Hauptwörterbuch, das Wörter mit Haltungen bezieht.
trm.txtEnthält die Parameter für das Rohrmodell.
Interessante Parameter sind:
vocal_tract_length_offset
This value is added to the vocal tract length.
loss_factor
Defines the acoustic loss inside the vocal tract.
trm_control_model.txtEnthält die Parameter für den Rohrmodell -Controller.
Interessante Parameter sind:
voice_name
Defines the voice used in the synthesis.
It selects which of the voice_*.txt files will be
loaded.
tempo
Values greater than 1 will speed up the speech.
pitch_offset
Modifies the voice pitch.
drift_deviation
drift_lowpass_cutoff
Control the random perturbations in the intonation
(requires intonation_drift = 1).
dictionary_1_file
dictionary_2_file
dictionary_3_file
Indicate the dictionaries (the dictionaries will be
searched in the order 1, 2, 3).
Notiz:
Die folgenden Parameter werden derzeit nicht verwendet:
voice_baby.txtvoice_female.txtvoice_large_child.txtvoice_male.txtvoice_small_child.txtEnthalten die Sprachparameter.
Interessante Parameter sind:
vocal_tract_length
glottal_pulse_tp
Rise time, in % of the period.
glottal_pulse_tn_min
Fall time, in % of the period - for the highest pulse
amplitude.
glottal_pulse_tn_max
Fall time, in % of the period - for the lowest pulse
amplitude.
These parameters modify the glottal pulse shape.
reference_glottal_pitch
Modify the voice pitch.
breathiness
vowelTransitions.txtSteuerelemente Vokalübergänge.
vowelTransitions_2.txt Alternative Version von vowelTransitions.txt .
Es wird nicht verwendet.