Gnuspeechsa-это артикуляционный синтезатор командной строки, который преобразует текст в речь.
Gnuspeechsa является портом C ++ TTS_Server в оригинальной системе Gnuspeech, разработанной для NextStep, предоставленной Дэвидом Р. Хиллом, Леонардом Мансарой, Крейгом Шоком и участниками. Базой был код репозитория подрывного репозитория Gnuspeech, Revision 672, загруженный в 2014-08-02. Исходный код был получен из каталогов:
nextstep/trunk/ObjectiveC/Monet.realtime
nextstep/trunk/src/SpeechObject/postMonet/server.monet
Это программное обеспечение написано в многоплатформенном C ++.
Gnuspeech - это синтезатор артикуляции речи. Проект внедрил первое программное обеспечение для артикуляционного текста в речь (TTS) (насколько я знаю). Он был разработан в 90 -х годах, около 30 лет назад (в 2023 году). Синтезатор был ранее коммерческим программным обеспечением с закрытым исходным кодом, доступным только для следующих компьютеров. После кончины следующего программного обеспечения было пожертвовано в проект GNU. Он использует простую модель голосового тракта, потому что следующий был очень медленным компьютером. ЦП 90 -х годов работали на частоте десятков МГц (не опечатки), примерно в 100 раз медленнее, чем технология в 2023 году. Относительная низкая сложность модели обеспечивает низкую латентную синтез на современных персональных компьютерах.
Первоначальная система TTS имела две реализации модели голосового тракта (модель трубки), которая выполнялась на 56 -километровом DSP, написанном в сборке, а другая, которая выполнялась на процессоре, написанная в C. Модель Tube DSP генерирует лучшую речь с более сбалансированными фрикативными/шлюзой. Этот репозиторий использует модель C -трубки.
Звуки ниже были синтезированы из текста хаоса (короткая версия) Джерарда Нолста Трене.
обслуживание
Поддерживается только английский.
Эта программа является бесплатным программным обеспечением: вы можете перераспределить его и/или изменить ее в соответствии с условиями общей публичной лицензии GNU, опубликованных Фондом Free Software, либо версией 3 лицензии, либо (по варианту) любой более поздней версии.
Эта программа распространяется в надежде, что она будет полезна, но без каких -либо гарантий; даже без подразумеваемой гарантии торговой точки зрения или пригодности для определенной цели. Смотрите файл copying.txt для получения более подробной информации.
Это программное обеспечение включает код из RapidXML. Для получения подробной информации см. File src/rapidxml/license.txt.
gnuspeech_sa gnuspeech_sa преобразует входной текст в речь.
./gnuspeech_sa [-v] -c config_dir -p trm_param_file.txt -o output_file.wav
"Hello world."
Synthesizes text from the command line.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
./gnuspeech_sa [-v] -c config_dir -i input_text.txt -p trm_param_file.txt
-o output_file.wav
Synthesizes text from a file.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
input_text.txt contains the input text.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
gnuspeech_sa_trm gnuspeech_sa_trm выполняет только модель трубки.
./gnuspeech_sa_trm [-v] trm_param_file.txt output_file.wav
-v : verbose
trm_param_file.txt is the file generated by gnuspeech_sa, containing the
tube model parameters.
output_file.wav will be generated, containing the synthesized speech.
monet.xmlСодержит артикуляторную базу данных.
intonation.txtКонтролирует интонацию.
Если random_intonation = 0 в trm_control_model.txt , будет использоваться только первая строка в каждой тональной группе. Если random_intonation = 1 , строка будет выбрана случайным образом.
MainDictionary.txtСодержит основной словарь, который связывает слова с позами.
trm.txtСодержит параметры для модели трубки.
Интересными параметрами:
vocal_tract_length_offset
This value is added to the vocal tract length.
loss_factor
Defines the acoustic loss inside the vocal tract.
trm_control_model.txtСодержит параметры для контроллера модели трубки.
Интересными параметрами:
voice_name
Defines the voice used in the synthesis.
It selects which of the voice_*.txt files will be
loaded.
tempo
Values greater than 1 will speed up the speech.
pitch_offset
Modifies the voice pitch.
drift_deviation
drift_lowpass_cutoff
Control the random perturbations in the intonation
(requires intonation_drift = 1).
dictionary_1_file
dictionary_2_file
dictionary_3_file
Indicate the dictionaries (the dictionaries will be
searched in the order 1, 2, 3).
Примечание:
Следующие параметры в данный момент не используются:
voice_baby.txtvoice_female.txtvoice_large_child.txtvoice_male.txtvoice_small_child.txtСодержат голосовые параметры.
Интересными параметрами:
vocal_tract_length
glottal_pulse_tp
Rise time, in % of the period.
glottal_pulse_tn_min
Fall time, in % of the period - for the highest pulse
amplitude.
glottal_pulse_tn_max
Fall time, in % of the period - for the lowest pulse
amplitude.
These parameters modify the glottal pulse shape.
reference_glottal_pitch
Modify the voice pitch.
breathiness
vowelTransitions.txtКонтролирует гласные переходы.
vowelTransitions_2.txt Альтернативная версия vowelTransitions.txt .
Это не используется.