Unduh gnuspeech_sa - Unduh Kode Sumber gnuspeech

gnuspeech_sa

Kode Sumber AI

1.0.0

Unduh

Gnuspeechsa (berdiri sendiri)

GNUSPEECHSA adalah synthesizer artikulasi baris perintah yang mengubah teks menjadi ucapan.

GNUSPEECHSA adalah port C ++ dari TTS_Server dalam sistem GNUSPEECH asli yang dikembangkan untuk NextStep, disediakan oleh David R. Hill, Leonard Manzara, Craig Schock dan kontributor. Basisnya adalah kode pada repositori subversion GNUSPEECH, Revisi 672, diunduh pada 2014-08-02. Kode sumber diperoleh dari direktori:

 nextstep/trunk/ObjectiveC/Monet.realtime
nextstep/trunk/src/SpeechObject/postMonet/server.monet

Perangkat lunak ini ditulis dalam multi-platform C ++.

Gnuspeech

Gnuspeech adalah synthesizer ucapan artikulasi. Proyek ini mengimplementasikan perangkat lunak Text-to-Speech (TTS) artikulasi pertama (sejauh yang saya tahu). Ini dikembangkan pada tahun 90 -an, sekitar 30 tahun yang lalu (pada tahun 2023). Synthesizer sebelumnya adalah perangkat lunak komersial sumber tertutup, hanya tersedia untuk komputer berikutnya. Setelah runtuhnya berikutnya, perangkat lunak disumbangkan ke proyek GNU. Ini menggunakan model saluran vokal sederhana, karena yang berikutnya adalah komputer yang sangat lambat. CPU tahun 90 -an yang dioperasikan pada frekuensi puluhan MHz (bukan kesalahan ketik), sekitar 100x lebih lambat dari teknologi pada tahun 2023. Kompleksitas rendah model ini memungkinkan sintesis latensi rendah pada komputer pribadi modern.

Sistem TTS asli memiliki dua implementasi model saluran vokal (model tabung), yang dieksekusi pada DSP 56K, ditulis dalam perakitan, dan satu lagi yang dieksekusi pada CPU, ditulis dalam C. Model tabung DSP menghasilkan ucapan yang lebih baik, dengan fricative/plosives yang lebih seimbang. Repositori ini menggunakan model tabung C.

Contoh sintesis

Suara di bawah ini disintesis dari teks kekacauan (versi pendek) oleh Gerard Nolst Trenité.

Kode Asli (untuk Berikutnya - Tidak di Repositori Ini) Menggunakan DSP Vocal Tract Model

Bahasa Inggris - Pria

Gnuspeechsa 0.1.8

Bahasa Inggris - Pria
Bahasa Inggris - Wanita
Bahasa Inggris - Anak Besar
Bahasa Inggris - Anak Kecil
Bahasa Inggris - sayang

Status

pemeliharaan

Hanya bahasa Inggris yang didukung.

Lisensi

Program ini adalah perangkat lunak gratis: Anda dapat mendistribusikannya kembali dan/atau memodifikasinya berdasarkan ketentuan lisensi publik umum GNU seperti yang diterbitkan oleh Yayasan Perangkat Lunak Gratis, baik versi 3 lisensi, atau (pada opsi Anda) versi selanjutnya.

Program ini didistribusikan dengan harapan akan bermanfaat, tetapi tanpa jaminan apa pun; bahkan tanpa jaminan tersirat dari dapat diperjualbelikan atau kebugaran untuk tujuan tertentu. Lihat file copyy.txt untuk lebih jelasnya.

Kode eksternal

Perangkat lunak ini termasuk kode dari RapidXML. Lihat file SRC/RAPIDXML/lisensi.txt untuk detailnya.

Penggunaan `gnuspeech_sa`

gnuspeech_sa mengubah teks input menjadi ucapan.

 ./gnuspeech_sa [-v] -c config_dir -p trm_param_file.txt -o output_file.wav 
        "Hello world."
    Synthesizes text from the command line.
    -v : verbose

    config_dir is the directory that stores the configuration data,
        e.g. data/en.
    trm_param_file.txt will be generated, containing the tube model
        parameters.
    output_file.wav will be generated, containing the synthesized speech.

./gnuspeech_sa [-v] -c config_dir -i input_text.txt -p trm_param_file.txt 
        -o output_file.wav
    Synthesizes text from a file.
    -v : verbose

    config_dir is the directory that stores the configuration data,
        e.g. data/en.
    input_text.txt contains the input text.
    trm_param_file.txt will be generated, containing the tube model
        parameters.
    output_file.wav will be generated, containing the synthesized speech.

Penggunaan `gnuspeech_sa_trm`

gnuspeech_sa_trm hanya menjalankan model tabung.

 ./gnuspeech_sa_trm [-v] trm_param_file.txt output_file.wav
    -v : verbose

    trm_param_file.txt is the file generated by gnuspeech_sa, containing the
        tube model parameters.
    output_file.wav will be generated, containing the synthesized speech.

Isi Data/En

`monet.xml`

Berisi database artikulator.

`intonation.txt`

Mengontrol intonasi.

Jika random_intonation = 0 di trm_control_model.txt , hanya baris pertama di setiap grup nada yang akan digunakan. Jika random_intonation = 1 , garis akan dipilih secara acak.

`MainDictionary.txt`

Berisi kamus utama, yang menghubungkan kata -kata dengan postur.

`trm.txt`

Berisi parameter untuk model tabung.

Parameter yang menarik adalah:

    vocal_tract_length_offset
        This value is added to the vocal tract length.
    loss_factor
        Defines the acoustic loss inside the vocal tract.

`trm_control_model.txt`

Berisi parameter untuk pengontrol model tabung.

Parameter yang menarik adalah:

    voice_name
        Defines the voice used in the synthesis.
        It selects which of the voice_*.txt files will be
        loaded.
    tempo
        Values greater than 1 will speed up the speech.
    pitch_offset
        Modifies the voice pitch.

    drift_deviation
    drift_lowpass_cutoff
        Control the random perturbations in the intonation
        (requires intonation_drift = 1).

    dictionary_1_file
    dictionary_2_file
    dictionary_3_file
        Indicate the dictionaries (the dictionaries will be
        searched in the order 1, 2, 3).

Catatan:

Parameter berikut tidak digunakan saat ini:

notional_pitch
pretonic_range
pretonic_lift
tonic_range
tonic_movement

`voice_baby.txt`

`voice_female.txt`

`voice_large_child.txt`

`voice_male.txt`

`voice_small_child.txt`

Berisi parameter suara.

Parameter yang menarik adalah:

    vocal_tract_length

    glottal_pulse_tp
        Rise time, in % of the period.
    glottal_pulse_tn_min
        Fall time, in % of the period - for the highest pulse
        amplitude.
    glottal_pulse_tn_max
        Fall time, in % of the period - for the lowest pulse
        amplitude.

        These parameters modify the glottal pulse shape.

    reference_glottal_pitch
        Modify the voice pitch.

    breathiness