Gnuspeechsa เป็นซินธิไซเซอร์ข้อบังคับบรรทัดคำสั่งที่แปลงข้อความเป็นคำพูด
Gnuspeechsa เป็นพอร์ต C ++ ของ TTS_Server ในระบบ gnuspeech ดั้งเดิมที่พัฒนาขึ้นสำหรับ Nextstep จัดทำโดย David R. Hill, Leonard Manzara, Craig Schock และผู้สนับสนุน ฐานคือรหัสในที่เก็บการโค่นล้มของ Gnuspeech, Revision 672 ดาวน์โหลดในปี 2014-08-02 ซอร์สโค้ดได้มาจากไดเรกทอรี:
nextstep/trunk/ObjectiveC/Monet.realtime
nextstep/trunk/src/SpeechObject/postMonet/server.monet
ซอฟต์แวร์นี้เขียนในหลายแพลตฟอร์ม C ++
Gnuspeech เป็นเครื่องสังเคราะห์คำพูดที่เปล่งออกมา โครงการได้ใช้ซอฟต์แวร์ Text-to-Speech (TTS) ครั้งแรก (เท่าที่ฉันรู้) มันได้รับการพัฒนาใน 90s ประมาณ 30 ปีที่แล้ว (ในปี 2023) ก่อนหน้านี้ Synthesizer เคยเป็นซอฟต์แวร์เชิงพาณิชย์แบบปิดใช้งานสำหรับคอมพิวเตอร์เครื่องต่อไปเท่านั้น หลังจากการตายของครั้งต่อไปซอฟต์แวร์จะถูกบริจาคให้กับโครงการ GNU มันใช้โมเดลทางเดินเสียงที่เรียบง่ายเพราะเครื่องต่อไปเป็นคอมพิวเตอร์ที่ช้ามาก ซีพียูของยุค 90 ดำเนินการที่ความถี่ของ MHz หลายสิบ (ไม่ใช่การพิมพ์ผิด) ช้ากว่าเทคโนโลยีประมาณ 100 เท่าในปี 2566 ความซับซ้อนต่ำสัมพัทธ์ของแบบจำลองช่วยให้การสังเคราะห์แฝงต่ำในคอมพิวเตอร์ส่วนบุคคลที่ทันสมัย
ระบบ TTS ดั้งเดิมมีการใช้งานสองแบบของโมเดลทางเดินเสียง (โมเดลหลอด) ซึ่งดำเนินการบน 56K DSP เขียนในแอสเซมบลีและอีกรุ่นที่ดำเนินการในซีพียูเขียนใน C. โมเดลหลอด DSP สร้างคำพูดที่ดีขึ้น ที่เก็บนี้ใช้โมเดลหลอด C
เสียงด้านล่างถูกสังเคราะห์จากข้อความของความโกลาหล (เวอร์ชันสั้น ๆ ) โดย Gerard Nolst Trenité
การซ่อมบำรุง
รองรับภาษาอังกฤษเท่านั้น
โปรแกรมนี้เป็นซอฟต์แวร์ฟรี: คุณสามารถแจกจ่ายใหม่และ/หรือแก้ไขภายใต้ข้อกำหนดของใบอนุญาตสาธารณะ GNU ทั่วไปที่เผยแพร่โดย Free Software Foundation ไม่ว่าจะเป็นเวอร์ชัน 3 ของใบอนุญาตหรือ (ตามตัวเลือกของคุณ) รุ่นใหม่ ๆ
โปรแกรมนี้มีการแจกจ่ายด้วยความหวังว่าจะมีประโยชน์ แต่ไม่มีการรับประกันใด ๆ โดยไม่มีการรับประกันโดยนัยเกี่ยวกับความสามารถในการค้าหรือความเหมาะสมสำหรับวัตถุประสงค์เฉพาะ ดูไฟล์ Popying.txt สำหรับรายละเอียดเพิ่มเติม
ซอฟต์แวร์นี้มีรหัสจาก RapidxML ดูไฟล์ src/rapidxml/license.txt สำหรับรายละเอียด
gnuspeech_sa gnuspeech_sa แปลงข้อความอินพุตเป็นคำพูด
./gnuspeech_sa [-v] -c config_dir -p trm_param_file.txt -o output_file.wav
"Hello world."
Synthesizes text from the command line.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
./gnuspeech_sa [-v] -c config_dir -i input_text.txt -p trm_param_file.txt
-o output_file.wav
Synthesizes text from a file.
-v : verbose
config_dir is the directory that stores the configuration data,
e.g. data/en.
input_text.txt contains the input text.
trm_param_file.txt will be generated, containing the tube model
parameters.
output_file.wav will be generated, containing the synthesized speech.
gnuspeech_sa_trm gnuspeech_sa_trm ดำเนินการเฉพาะรุ่นหลอด
./gnuspeech_sa_trm [-v] trm_param_file.txt output_file.wav
-v : verbose
trm_param_file.txt is the file generated by gnuspeech_sa, containing the
tube model parameters.
output_file.wav will be generated, containing the synthesized speech.
monet.xmlมีฐานข้อมูลข้อต่อ
intonation.txtควบคุมน้ำเสียง
ถ้า random_intonation = 0 ใน trm_control_model.txt จะใช้เฉพาะบรรทัดแรกในแต่ละกลุ่มโทน ถ้า random_intonation = 1 บรรทัดจะถูกเลือกแบบสุ่ม
MainDictionary.txtมีพจนานุกรมหลักซึ่งเกี่ยวข้องกับคำศัพท์กับท่าทาง
trm.txtมีพารามิเตอร์สำหรับรุ่นหลอด
พารามิเตอร์ที่น่าสนใจคือ:
vocal_tract_length_offset
This value is added to the vocal tract length.
loss_factor
Defines the acoustic loss inside the vocal tract.
trm_control_model.txtมีพารามิเตอร์สำหรับคอนโทรลเลอร์โมเดลหลอด
พารามิเตอร์ที่น่าสนใจคือ:
voice_name
Defines the voice used in the synthesis.
It selects which of the voice_*.txt files will be
loaded.
tempo
Values greater than 1 will speed up the speech.
pitch_offset
Modifies the voice pitch.
drift_deviation
drift_lowpass_cutoff
Control the random perturbations in the intonation
(requires intonation_drift = 1).
dictionary_1_file
dictionary_2_file
dictionary_3_file
Indicate the dictionaries (the dictionaries will be
searched in the order 1, 2, 3).
บันทึก:
ไม่มีการใช้พารามิเตอร์ต่อไปนี้ในขณะนี้:
voice_baby.txtvoice_female.txtvoice_large_child.txtvoice_male.txtvoice_small_child.txtมีพารามิเตอร์เสียง
พารามิเตอร์ที่น่าสนใจคือ:
vocal_tract_length
glottal_pulse_tp
Rise time, in % of the period.
glottal_pulse_tn_min
Fall time, in % of the period - for the highest pulse
amplitude.
glottal_pulse_tn_max
Fall time, in % of the period - for the lowest pulse
amplitude.
These parameters modify the glottal pulse shape.
reference_glottal_pitch
Modify the voice pitch.
breathiness
vowelTransitions.txtควบคุมการเปลี่ยนสระ
vowelTransitions_2.txt เวอร์ชันทางเลือกของ vowelTransitions.txt
มันไม่ได้ถูกใช้