Gnuspeechsaは、テキストを音声に変換するコマンドラインの調音シンセサイザーです。
Gnuspeechsaは、David R. Hill、Leonard Manzara、Craig Schock、および貢献者によって提供されたNextStep用に開発された元のGnuspeechシステムのTTS_SERVERのC ++ポートです。ベースは、2014-08-02にダウンロードされたGnuspeechのSubversion Repository、Revision 672のコードでした。ソースコードはディレクトリから取得されました。
nextstep/trunk/ObjectiveC/Monet.realtime
nextstep/trunk/src/SpeechObject/postMonet/server.monet
このソフトウェアは、マルチプラットフォームC ++で記述されています。
Gnuspeechは、関節の音声シンセサイザーです。このプロジェクトは、最初の調音テキストからスピーチ(TTS)ソフトウェアを実装しました(私が知っている限り)。 30年ほど前(2023年)90年代に開発されました。シンセサイザーは、以前は閉じたソースの商用ソフトウェアであり、次のコンピューターでのみ利用可能でした。次の終ofの後、ソフトウェアはGNUプロジェクトに寄付されました。次は非常に遅いコンピューターだったため、シンプルなボーカルトラクトモデルを使用します。 90年代のCPUは、2023年のテクノロジーよりも約100倍遅い数十MHz(タイプミスではありません)の頻度で動作しました。モデルの比較的低い複雑さにより、最新のパーソナルコンピューターでの低下合成が可能になります。
元のTTSシステムには、56K DSPで実行されたアセンブリで記述された56K DSPで実行された声帯モデル(チューブモデル)の2つの実装とCで記述されたCPUで実行されたものがありました。このリポジトリはCチューブモデルを使用します。
以下のサウンドは、Gerard NolstTrenitéによるChaos(Shortバージョン)のテキストから合成されました。
メンテナンス
英語のみがサポートされています。
このプログラムはフリーソフトウェアです。フリーソフトウェアファンデーションの条件、ライセンスのバージョン3、または(オプションで)後のバージョンのいずれかで公開されているように、GNU一般公開ライセンスの条件の下でそれを再配布したり、変更したりできます。
このプログラムは、それが有用であることを期待して配布されますが、保証はありません。商品性や特定の目的に対するフィットネスの暗黙の保証さえありません。詳細については、copying.txtファイルを参照してください。
このソフトウェアには、RapidXMLのコードが含まれています。詳細については、ファイルsrc/rapidxml/license.txtを参照してください。
gnuspeech_saの使用gnuspeech_sa 、入力テキストをスピーチに変換します。
./gnuspeech_sa [-v] -c config_dir -p trm_param_file.txt -o output_file.wav
"Hello world."
Synthesizes text from the command line.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
./gnuspeech_sa [-v] -c config_dir -i input_text.txt -p trm_param_file.txt
-o output_file.wav
Synthesizes text from a file.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
input_text.txt contains the input text.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
gnuspeech_sa_trmの使用gnuspeech_sa_trmチューブモデルのみを実行します。
./gnuspeech_sa_trm [-v] trm_param_file.txt output_file.wav
-v : verbose
trm_param_file.txt is the file generated by gnuspeech_sa, containing the
tube model parameters.
output_file.wav will be generated, containing the synthesized speech.
monet.xml調音データベースが含まれています。
intonation.txtイントネーションを制御します。
trm_control_model.txtでrandom_intonation = 0の場合、各トーングループの最初の行のみが使用されます。 random_intonation = 1の場合、行はランダムに選択されます。
MainDictionary.txt単語を姿勢に関連付けるメイン辞書が含まれています。
trm.txtチューブモデルのパラメーターが含まれています。
興味深いパラメーターは次のとおりです。
vocal_tract_length_offset
This value is added to the vocal tract length.
loss_factor
Defines the acoustic loss inside the vocal tract.
trm_control_model.txtチューブモデルコントローラーのパラメーターが含まれています。
興味深いパラメーターは次のとおりです。
voice_name
Defines the voice used in the synthesis.
It selects which of the voice_*.txt files will be
loaded.
tempo
Values greater than 1 will speed up the speech.
pitch_offset
Modifies the voice pitch.
drift_deviation
drift_lowpass_cutoff
Control the random perturbations in the intonation
(requires intonation_drift = 1).
dictionary_1_file
dictionary_2_file
dictionary_3_file
Indicate the dictionaries (the dictionaries will be
searched in the order 1, 2, 3).
注記:
現在、次のパラメーターは使用されていません。
voice_baby.txtvoice_female.txtvoice_large_child.txtvoice_male.txtvoice_small_child.txt音声パラメーターが含まれています。
興味深いパラメーターは次のとおりです。
vocal_tract_length
glottal_pulse_tp
Rise time, in % of the period.
glottal_pulse_tn_min
Fall time, in % of the period - for the highest pulse
amplitude.
glottal_pulse_tn_max
Fall time, in % of the period - for the lowest pulse
amplitude.
These parameters modify the glottal pulse shape.
reference_glottal_pitch
Modify the voice pitch.
breathiness
vowelTransitions.txt母音の遷移を制御します。
vowelTransitions_2.txt vowelTransitions.txtの代替バージョン。
使用されていません。