GNUSPEECHSA adalah synthesizer artikulasi baris perintah yang mengubah teks menjadi ucapan.
GNUSPEECHSA adalah port C ++ dari TTS_Server dalam sistem GNUSPEECH asli yang dikembangkan untuk NextStep, disediakan oleh David R. Hill, Leonard Manzara, Craig Schock dan kontributor. Basisnya adalah kode pada repositori subversion GNUSPEECH, Revisi 672, diunduh pada 2014-08-02. Kode sumber diperoleh dari direktori:
nextstep/trunk/ObjectiveC/Monet.realtime
nextstep/trunk/src/SpeechObject/postMonet/server.monet
Perangkat lunak ini ditulis dalam multi-platform C ++.
Gnuspeech adalah synthesizer ucapan artikulasi. Proyek ini mengimplementasikan perangkat lunak Text-to-Speech (TTS) artikulasi pertama (sejauh yang saya tahu). Ini dikembangkan pada tahun 90 -an, sekitar 30 tahun yang lalu (pada tahun 2023). Synthesizer sebelumnya adalah perangkat lunak komersial sumber tertutup, hanya tersedia untuk komputer berikutnya. Setelah runtuhnya berikutnya, perangkat lunak disumbangkan ke proyek GNU. Ini menggunakan model saluran vokal sederhana, karena yang berikutnya adalah komputer yang sangat lambat. CPU tahun 90 -an yang dioperasikan pada frekuensi puluhan MHz (bukan kesalahan ketik), sekitar 100x lebih lambat dari teknologi pada tahun 2023. Kompleksitas rendah model ini memungkinkan sintesis latensi rendah pada komputer pribadi modern.
Sistem TTS asli memiliki dua implementasi model saluran vokal (model tabung), yang dieksekusi pada DSP 56K, ditulis dalam perakitan, dan satu lagi yang dieksekusi pada CPU, ditulis dalam C. Model tabung DSP menghasilkan ucapan yang lebih baik, dengan fricative/plosives yang lebih seimbang. Repositori ini menggunakan model tabung C.
Suara di bawah ini disintesis dari teks kekacauan (versi pendek) oleh Gerard Nolst Trenité.
pemeliharaan
Hanya bahasa Inggris yang didukung.
Program ini adalah perangkat lunak gratis: Anda dapat mendistribusikannya kembali dan/atau memodifikasinya berdasarkan ketentuan lisensi publik umum GNU seperti yang diterbitkan oleh Yayasan Perangkat Lunak Gratis, baik versi 3 lisensi, atau (pada opsi Anda) versi selanjutnya.
Program ini didistribusikan dengan harapan akan bermanfaat, tetapi tanpa jaminan apa pun; bahkan tanpa jaminan tersirat dari dapat diperjualbelikan atau kebugaran untuk tujuan tertentu. Lihat file copyy.txt untuk lebih jelasnya.
Perangkat lunak ini termasuk kode dari RapidXML. Lihat file SRC/RAPIDXML/lisensi.txt untuk detailnya.
gnuspeech_sa gnuspeech_sa mengubah teks input menjadi ucapan.
./gnuspeech_sa [-v] -c config_dir -p trm_param_file.txt -o output_file.wav
"Hello world."
Synthesizes text from the command line.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
./gnuspeech_sa [-v] -c config_dir -i input_text.txt -p trm_param_file.txt
-o output_file.wav
Synthesizes text from a file.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
input_text.txt contains the input text.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
gnuspeech_sa_trm gnuspeech_sa_trm hanya menjalankan model tabung.
./gnuspeech_sa_trm [-v] trm_param_file.txt output_file.wav
-v : verbose
trm_param_file.txt is the file generated by gnuspeech_sa, containing the
tube model parameters.
output_file.wav will be generated, containing the synthesized speech.
monet.xmlBerisi database artikulator.
intonation.txtMengontrol intonasi.
Jika random_intonation = 0 di trm_control_model.txt , hanya baris pertama di setiap grup nada yang akan digunakan. Jika random_intonation = 1 , garis akan dipilih secara acak.
MainDictionary.txtBerisi kamus utama, yang menghubungkan kata -kata dengan postur.
trm.txtBerisi parameter untuk model tabung.
Parameter yang menarik adalah:
vocal_tract_length_offset
This value is added to the vocal tract length.
loss_factor
Defines the acoustic loss inside the vocal tract.
trm_control_model.txtBerisi parameter untuk pengontrol model tabung.
Parameter yang menarik adalah:
voice_name
Defines the voice used in the synthesis.
It selects which of the voice_*.txt files will be
loaded.
tempo
Values greater than 1 will speed up the speech.
pitch_offset
Modifies the voice pitch.
drift_deviation
drift_lowpass_cutoff
Control the random perturbations in the intonation
(requires intonation_drift = 1).
dictionary_1_file
dictionary_2_file
dictionary_3_file
Indicate the dictionaries (the dictionaries will be
searched in the order 1, 2, 3).
Catatan:
Parameter berikut tidak digunakan saat ini:
voice_baby.txtvoice_female.txtvoice_large_child.txtvoice_male.txtvoice_small_child.txtBerisi parameter suara.
Parameter yang menarik adalah:
vocal_tract_length
glottal_pulse_tp
Rise time, in % of the period.
glottal_pulse_tn_min
Fall time, in % of the period - for the highest pulse
amplitude.
glottal_pulse_tn_max
Fall time, in % of the period - for the lowest pulse
amplitude.
These parameters modify the glottal pulse shape.
reference_glottal_pitch
Modify the voice pitch.
breathiness
vowelTransitions.txtMengontrol transisi vokal.
vowelTransitions_2.txt Versi alternatif vowelTransitions.txt .
Itu tidak digunakan.