gnuspeechsa是一种命令行关节合成器,可将文本转换为语音。
Gnuspeechsa是由David R. Hill,Leonard Manzara,Craig Schock和Condutors提供的原始Gnuspeech系统中TTS_Server的C ++端口。基础是Gnuspeech的颠覆存储库修订版672上的代码,该代码于2014-08-02下载。源代码是从目录中获得的:
nextstep/trunk/ObjectiveC/Monet.realtime
nextstep/trunk/src/SpeechObject/postMonet/server.monet
该软件用多平台C ++编写。
gnuspeech是一种发音的语音合成器。该项目实施了第一个发音文本到语音(TTS)软件(据我所知)。它是在大约30年前(2023年)的90年代开发的。合成器以前是一个封闭的源商业软件,仅适用于下一个计算机。下一步灭亡后,该软件被捐赠给GNU项目。它使用一个简单的声带模型,因为下一个是一台非常慢的计算机。 90年代的CPU以数十MHz的频率(不是错字)运行,比2023年的技术慢约100倍。该模型的相对低复杂性允许现代个人计算机的低潜伏期合成。
原始的TTS系统具有两个在56k DSP上执行的人声道模型(管模型)的实现,该模型以汇编编写,另一个在CPU上执行,用C编写。DSP管模型产生更好的语音,具有更平衡的摩擦剂/plosives。该存储库使用C管模型。
下面的声音是从Gerard NolstTrenité的《混乱(简短版本》)的文字中合成的。
维护
仅支持英语。
该程序是免费的软件:您可以根据自由软件基金会发布的GNU通用公共许可证的条款对其进行重新分配和/或修改它,该版本是该许可证的版本3,或(按您的选项)任何以后的版本。
该程序的分布是希望它将有用的,但没有任何保修;即使没有对特定目的的适销性或适合性的隐含保证。有关更多详细信息,请参见copying.txt文件。
该软件包括RapidXML的代码。有关详细信息,请参见文件SRC/Rapidxml/license.txt。
gnuspeech_sa gnuspeech_sa将输入文本转换为语音。
./gnuspeech_sa [-v] -c config_dir -p trm_param_file.txt -o output_file.wav
"Hello world."
Synthesizes text from the command line.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
./gnuspeech_sa [-v] -c config_dir -i input_text.txt -p trm_param_file.txt
-o output_file.wav
Synthesizes text from a file.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
input_text.txt contains the input text.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
gnuspeech_sa_trm gnuspeech_sa_trm仅执行管子模型。
./gnuspeech_sa_trm [-v] trm_param_file.txt output_file.wav
-v : verbose
trm_param_file.txt is the file generated by gnuspeech_sa, containing the
tube model parameters.
output_file.wav will be generated, containing the synthesized speech.
monet.xml包含关节数据库。
intonation.txt控制语调。
如果在trm_control_model.txt中random_intonation = 0 ,则仅使用每个音调组中的第一行。如果random_intonation = 1 ,则将随机选择该行。
MainDictionary.txt包含主要词典,将单词与姿势相关联。
trm.txt包含管模型的参数。
有趣的参数是:
vocal_tract_length_offset
This value is added to the vocal tract length.
loss_factor
Defines the acoustic loss inside the vocal tract.
trm_control_model.txt包含管模型控制器的参数。
有趣的参数是:
voice_name
Defines the voice used in the synthesis.
It selects which of the voice_*.txt files will be
loaded.
tempo
Values greater than 1 will speed up the speech.
pitch_offset
Modifies the voice pitch.
drift_deviation
drift_lowpass_cutoff
Control the random perturbations in the intonation
(requires intonation_drift = 1).
dictionary_1_file
dictionary_2_file
dictionary_3_file
Indicate the dictionaries (the dictionaries will be
searched in the order 1, 2, 3).
笔记:
目前尚未使用以下参数:
voice_baby.txtvoice_female.txtvoice_large_child.txtvoice_male.txtvoice_small_child.txt包含语音参数。
有趣的参数是:
vocal_tract_length
glottal_pulse_tp
Rise time, in % of the period.
glottal_pulse_tn_min
Fall time, in % of the period - for the highest pulse
amplitude.
glottal_pulse_tn_max
Fall time, in % of the period - for the lowest pulse
amplitude.
These parameters modify the glottal pulse shape.
reference_glottal_pitch
Modify the voice pitch.
breathiness
vowelTransitions.txt控制元音过渡。
vowelTransitions_2.txt vowelTransitions.txt的替代版本。
它没有被使用。