Téléchargement gnuspeech_sa - gnuspeech_sa Téléchargement du code source

gnuspeech_sa

Code Source AI

1.0.0

Télécharger

Gnuspeechsa (autonome)

GnuspeEchsa est un synthétiseur articulatoire en ligne de commande qui convertit le texte en parole.

GNUSPEECHSA est un port C ++ du TTS_SERVER dans le système Gnuspeech original développé pour NextStep, fourni par David R. Hill, Leonard Manzara, Craig Schock et contributeurs. La base était le code sur le référentiel de subversion de Gnuspeech, Revision 672, téléchargé en 2014-08-02. Le code source a été obtenu à partir des répertoires:

 nextstep/trunk/ObjectiveC/Monet.realtime
nextstep/trunk/src/SpeechObject/postMonet/server.monet

Ce logiciel est écrit en C ++ multiplateforme.

Gnuspeeche

Gnuspeech est un synthétiseur de la parole articulatoire. Le projet a mis en œuvre le premier logiciel de texte à dispection articulatoire (TTS) (pour autant que je sache). Il a été développé dans les années 90, il y a environ 30 ans (en 2023). Le synthétiseur était auparavant un logiciel commercial à source fermée, disponible uniquement pour les prochains ordinateurs. Après la disparition de Suivant, le logiciel a été donné au projet GNU. Il utilise un modèle de tractus vocal simple, car le suivant était un ordinateur très lent. Les CPU des années 90 fonctionnaient à une fréquence de dizaines de MHz (pas une faute de frappe), environ 100x plus lent que la technologie en 2023. La faible complexité relative du modèle permet une synthèse de faible latence sur les ordinateurs personnels modernes.

Le système TTS d'origine avait deux implémentations du modèle Vocal Tract (modèle de tube), une qui exécutée sur un DSP 56k, écrite en assemblage, et une autre qui exécutée sur le CPU, écrite en C. Le modèle de tube DSP génère une meilleure parole, avec des fricatives / plosifs plus équilibrés. Ce référentiel utilise le modèle de tube C.

Exemples de synthèse

Les sons ci-dessous ont été synthétisés à partir du texte du chaos (version courte) de Gerard Nolst Trenité.

Code d'origine (pour Suivant - pas dans ce référentiel) en utilisant le modèle DSP Vocal Tract

Anglais - mâle

Gnuspeechsa 0.1.8

Anglais - mâle
Anglais - Femme
Anglais - grand enfant
Anglais - petit enfant
Anglais - bébé

Statut

entretien

Seul l'anglais est pris en charge.

Licence

Ce programme est un logiciel gratuit: vous pouvez le redistribuer et / ou le modifier en vertu des termes de la licence publique générale GNU publiée par la Free Software Foundation, soit la version 3 de la licence, ou (à votre option) toute version ultérieure.

Ce programme est distribué dans l'espoir qu'il sera utile, mais sans aucune garantie; Sans même la garantie implicite de qualité marchande ou d'adéquation à un usage particulier. Consultez le fichier Copying.txt pour plus de détails.

Code externe

Ce logiciel comprend le code de RapidXML. Voir le fichier SRC / Rapidxml / Licence.txt pour plus de détails.

Utilisation de `gnuspeech_sa`

gnuspeech_sa convertit le texte d'entrée en parole.

 ./gnuspeech_sa [-v] -c config_dir -p trm_param_file.txt -o output_file.wav 
        "Hello world."
    Synthesizes text from the command line.
    -v : verbose

    config_dir is the directory that stores the configuration data,
        e.g. data/en.
    trm_param_file.txt will be generated, containing the tube model
        parameters.
    output_file.wav will be generated, containing the synthesized speech.

./gnuspeech_sa [-v] -c config_dir -i input_text.txt -p trm_param_file.txt 
        -o output_file.wav
    Synthesizes text from a file.
    -v : verbose

    config_dir is the directory that stores the configuration data,
        e.g. data/en.
    input_text.txt contains the input text.
    trm_param_file.txt will be generated, containing the tube model
        parameters.
    output_file.wav will be generated, containing the synthesized speech.

Utilisation de `gnuspeech_sa_trm`

gnuspeech_sa_trm exécute uniquement le modèle de tube.

 ./gnuspeech_sa_trm [-v] trm_param_file.txt output_file.wav
    -v : verbose

    trm_param_file.txt is the file generated by gnuspeech_sa, containing the
        tube model parameters.
    output_file.wav will be generated, containing the synthesized speech.

Contenu des données / en

`monet.xml`

Contient la base de données articulatoire.

`intonation.txt`

Contrôle l'intonation.

Si random_intonation = 0 dans trm_control_model.txt , seule la première ligne de chaque groupe de tons sera utilisée. Si random_intonation = 1 , la ligne sera sélectionnée au hasard.

`MainDictionary.txt`

Contient le principal dictionnaire, qui relie les mots aux postures.

`trm.txt`

Contient les paramètres du modèle de tube.

Les paramètres intéressants sont:

    vocal_tract_length_offset
        This value is added to the vocal tract length.
    loss_factor
        Defines the acoustic loss inside the vocal tract.

`trm_control_model.txt`

Contient les paramètres du contrôleur du modèle de tube.

Les paramètres intéressants sont:

    voice_name
        Defines the voice used in the synthesis.
        It selects which of the voice_*.txt files will be
        loaded.
    tempo
        Values greater than 1 will speed up the speech.
    pitch_offset
        Modifies the voice pitch.

    drift_deviation
    drift_lowpass_cutoff
        Control the random perturbations in the intonation
        (requires intonation_drift = 1).

    dictionary_1_file
    dictionary_2_file
    dictionary_3_file
        Indicate the dictionaries (the dictionaries will be
        searched in the order 1, 2, 3).

Note:

Les paramètres suivants ne sont pas utilisés pour le moment:

notional_pitch
Pretonic_Range
Pretonic_lift
tonique
tonique

`voice_baby.txt`

`voice_female.txt`

`voice_large_child.txt`

`voice_male.txt`

`voice_small_child.txt`

Contiennent les paramètres vocaux.

Les paramètres intéressants sont:

    vocal_tract_length

    glottal_pulse_tp
        Rise time, in % of the period.
    glottal_pulse_tn_min
        Fall time, in % of the period - for the highest pulse
        amplitude.
    glottal_pulse_tn_max
        Fall time, in % of the period - for the lowest pulse
        amplitude.

        These parameters modify the glottal pulse shape.

    reference_glottal_pitch
        Modify the voice pitch.

    breathiness