تنزيل gnuspeech_sa - تنزيل رمز المصدر gnuspeech

gnuspeech_sa

كود الذكاء الاصطناعي

1.0.0

تنزيل

gnuspeadeesa (مستقل)

GNUSPEESHSA هو مزج مفصل لخط الأوامر الذي يحول النص إلى الكلام.

GNUSPEESHSA هو منفذ C ++ لـ TTS_SERVER في نظام GNUSPEED الأصلي الذي تم تطويره لـ NEXTSTEP ، الذي قدمه David R. Hill و Leonard Manzara و Craig Schock والمساهمين. كانت القاعدة هي الرمز في مستودع تخريب GNUSPEEDE ، المراجعة 672 ، تم تنزيله في 2014-08-02. تم الحصول على رمز المصدر من الدلائل:

 nextstep/trunk/ObjectiveC/Monet.realtime
nextstep/trunk/src/SpeechObject/postMonet/server.monet

هذا البرنامج مكتوب في منصات متعددة C ++.

gnuspeech

Gnuspeech هو مزج خطاب مفصلي. قام المشروع بتنفيذ أول برنامج مفصلي للنص إلى كلام (TTS) (بقدر ما أعرف). تم تطويره في التسعينيات ، منذ حوالي 30 عامًا (في عام 2023). كان المزج في السابق برنامجًا تجاريًا مغلقًا ، متاحًا فقط لأجهزة الكمبيوتر التالية. بعد زوال المقبل ، تم التبرع بالبرنامج لمشروع GNU. يستخدم نموذجًا بسيطًا للمسالك الصوتية ، لأن التالي كان جهاز كمبيوتر بطيء للغاية. تعمل وحدات المعالجة المركزية في التسعينيات التي تعمل على تواتر عشرات MHz (وليس خطأ مطبعي) ، حوالي 100x أبطأ من التكنولوجيا في عام 2023. يسمح التعقيد المنخفض النسبي للنموذج بتوليف الكمون المنخفض على أجهزة الكمبيوتر الشخصية الحديثة.

كان لنظام TTS الأصلي تطبيقان لنموذج المسالك الصوتية (نموذج الأنبوب) ، الذي تم تنفيذه على 56 كيلو دبليو ، المكتوب في التجميع ، وآخر تم تنفيذه على وحدة المعالجة المركزية ، المكتوب في نموذج أنبوب DSP يولد خطابًا أفضل ، مع فريتشات/بلوسات أكثر توازناً. يستخدم هذا المستودع نموذج أنبوب C.

أمثلة توليف

تم تصنيع الأصوات أدناه من نص الفوضى (النسخة القصيرة) من قبل جيرارد نولست ترينيتي.

الكود الأصلي (للآخر - ليس في هذا المستودع) باستخدام نموذج المسالك الصوتية DSP

اللغة الإنجليزية - ذكر

GNUSPEESHSA 0.1.8

اللغة الإنجليزية - ذكر
اللغة الإنجليزية - أنثى
اللغة الإنجليزية - طفل كبير
اللغة الإنجليزية - طفل صغير
اللغة الإنجليزية - حبيبي

حالة

صيانة

يتم دعم اللغة الإنجليزية فقط.

رخصة

هذا البرنامج هو برنامج مجاني: يمكنك إعادة توزيعه و/أو تعديله بموجب شروط رخصة GNU العامة العامة كما تم نشرها من قبل مؤسسة البرمجيات المجانية ، إما الإصدار 3 من الترخيص ، أو (في خيارك) أي إصدار لاحق.

يتم توزيع هذا البرنامج على أمل أن يكون مفيدًا ، ولكن بدون أي ضمان ؛ بدون حتى الضمان الضمني للتسويق أو اللياقة لغرض معين. راجع ملف copying.txt لمزيد من التفاصيل.

الرمز الخارجي

يتضمن هذا البرنامج رمزًا من rapidxml. راجع الملف SRC/RAPIDXML/LICENT.TXT للحصول على التفاصيل.

استخدام `gnuspeech_sa`

يحول gnuspeech_sa نص الإدخال إلى الكلام.

 ./gnuspeech_sa [-v] -c config_dir -p trm_param_file.txt -o output_file.wav 
        "Hello world."
    Synthesizes text from the command line.
    -v : verbose

    config_dir is the directory that stores the configuration data,
        e.g. data/en.
    trm_param_file.txt will be generated, containing the tube model
        parameters.
    output_file.wav will be generated, containing the synthesized speech.

./gnuspeech_sa [-v] -c config_dir -i input_text.txt -p trm_param_file.txt 
        -o output_file.wav
    Synthesizes text from a file.
    -v : verbose

    config_dir is the directory that stores the configuration data,
        e.g. data/en.
    input_text.txt contains the input text.
    trm_param_file.txt will be generated, containing the tube model
        parameters.
    output_file.wav will be generated, containing the synthesized speech.

استخدام `gnuspeech_sa_trm`

ينفذ gnuspeech_sa_trm فقط نموذج الأنبوب.

 ./gnuspeech_sa_trm [-v] trm_param_file.txt output_file.wav
    -v : verbose

    trm_param_file.txt is the file generated by gnuspeech_sa, containing the
        tube model parameters.
    output_file.wav will be generated, containing the synthesized speech.

محتويات البيانات/en

`monet.xml`

يحتوي على قاعدة البيانات المفصلية.

`intonation.txt`

يتحكم في التجويد.

إذا كان random_intonation = 0 في trm_control_model.txt ، سيتم استخدام السطر الأول فقط في كل مجموعة نغمة. إذا كان random_intonation = 1 ، فسيتم تحديد الخط بشكل عشوائي.

`MainDictionary.txt`

يحتوي على القاموس الرئيسي ، الذي يربط الكلمات بالمواقف.

`trm.txt`

يحتوي على المعلمات لنموذج الأنبوب.

المعلمات المثيرة للاهتمام هي:

    vocal_tract_length_offset
        This value is added to the vocal tract length.
    loss_factor
        Defines the acoustic loss inside the vocal tract.

`trm_control_model.txt`

يحتوي على المعلمات لوحدة تحكم نموذج الأنبوب.

المعلمات المثيرة للاهتمام هي:

    voice_name
        Defines the voice used in the synthesis.
        It selects which of the voice_*.txt files will be
        loaded.
    tempo
        Values greater than 1 will speed up the speech.
    pitch_offset
        Modifies the voice pitch.

    drift_deviation
    drift_lowpass_cutoff
        Control the random perturbations in the intonation
        (requires intonation_drift = 1).

    dictionary_1_file
    dictionary_2_file
    dictionary_3_file
        Indicate the dictionaries (the dictionaries will be
        searched in the order 1, 2, 3).

ملحوظة:

لا يتم استخدام المعلمات التالية في الوقت الحالي:

issical_pitch
pretonic_range
pretonic_lift
Tonic_range
Tonic_movement

`voice_baby.txt`

`voice_female.txt`

`voice_large_child.txt`

`voice_male.txt`

`voice_small_child.txt`

تحتوي على المعلمات الصوتية.

المعلمات المثيرة للاهتمام هي:

    vocal_tract_length

    glottal_pulse_tp
        Rise time, in % of the period.
    glottal_pulse_tn_min
        Fall time, in % of the period - for the highest pulse
        amplitude.
    glottal_pulse_tn_max
        Fall time, in % of the period - for the lowest pulse
        amplitude.

        These parameters modify the glottal pulse shape.

    reference_glottal_pitch
        Modify the voice pitch.

    breathiness