Téléchargement OSM one shot multispeaker - Téléchargement du code source OSM one shot multispeaker

OSM one shot multispeaker

Code Source AI

1.0.0

Télécharger

OSM: Multi-Speaker à un coup

Déclaration de problème

Les systèmes de texte à dispection multi-uns-uns-uns (OS MS TTS) visent à transformer le texte en parole avec une voix déterminée par un petit échantillon unique. Le principal problème ici est de reproduire la nouvelle voix invisible sans recycler le réseau. Il y a une approche avec trois étapes principales qui est utilisée pour résoudre ce problème. L'unique pour chaque embarcation de haut-parleur vocale, qui révèle les caractéristiques vocales, sont générés au premier stade ( encodeur d'enceintes ). À la deuxième étape ( synthétiseur ), le texte est transformé en spectrogramme MEL en utilisant des intérêts précédemment obtenus. Enfin, le discours est reproduit à partir du spectrogramme MEL avec le vocodeur . Mais il y a un manque d'implémentations avec ces trois parties correctement combinées. L'objectif de notre projet est donc de créer un cadre flexible pour combiner ces pièces et fournir des modules et méthodes remplaçables dans chaque partie.

Principaux défis

Nous voyons maintenant les principaux défis suivants:

La solution à notre problème se compose de trois sous-tâches, qui ont déjà de grandes solutions. Par conséquent, les solutions existantes pour OS MS TTS sont essentiellement une compilation de solutions pour ces problèmes individuels, pour lesquels il existe de nombreuses solutions prêtes à l'emploi et bien implémentées. Le principal défi est de rendre le cadre flexible et d'assurer la compatibilité des pièces individuelles.
Les méthodes utilisées dans chaque sous-tâche diffèrent dans l'ensemble des paramètres et la nature de l'algorithme. Par conséquent, il sera assez difficile de fournir une seule API.

Solution de base

Nous choisissons la solution proposée par les instructeurs comme référence, qui peut être trouvée ici. Il s'agit de l'implémentation de [1] fabriquée dans Google en 2018. Ici, les auteurs utilisent le codeur de haut-parleur, présenté dans [2], qui génère un vecteur d'incorporation fixe connu sous le nom de vecteur D. Quant au synthétiseur, ils utilisent un modèle basé sur le tacotron 2 [3] tandis qu'un wavenet auto-régressif basé sur un wavenet est utilisé comme vocodeur [4]. L'image suivante tirée de [1] représente la vue d'ensemble du modèle:

Pour les avantages et les inconvénients

La clonage de voix en temps réel contient les réalisations de l'encodeur, du tacotron 2 et du wavernn. L'ensemble du pipeline décrit dans [1], y compris les étapes de prétraitement, est également implémenté dans ce référentiel. Cependant, le projet n'est pas assez flexible. Plus précisément, dans l'état actuel, il ne peut pas être utilisé comme cadre pour le système de texte à la parole multi-uns-uns-paroles car il n'y a pas de mécanismes pratiques pour manipuler avec les trois modules principaux. Par exemple, le système TTS multi-haut-parleurs proposé dans [5] ne peut pas être facilement mis en œuvre à l'aide de la clonage en temps réel, car il n'y a pas de points d'extensibilité qui permettent d'ajuster le pipeline pour la nouvelle méthode.

Notre amélioration

Notre plan est d'utiliser le clonage en temps réel comme point de départ avec la ligne de base implémentée. Nous présenterons la conception modulaire flexible du cadre. Cette approche nous aidera à créer l'API pratique pour les utilisateurs externes qui pourront utiliser notre cadre pour incorporer le système TTS multi-haut-parleurs dans leurs produits. L'API permettra également aux utilisateurs de personnaliser les modules et les étapes de pipeline sans modifier le code source du cadre si nécessaire. Nous implémenterons plusieurs encodeurs de haut-parleurs (LDE, TDNN) et les ajouterons également à notre cadre.

Présentation de la structure du projet

À partir d'un point culminant, notre projet se compose de 3 éléments principaux: Encodeur de haut-parleur, synthétiseur, vocodeur. Pour chacun d'eux, un gestionnaire est implémenté qui permet d'accéder aux paramètres et d'effectuer des actions standard telles que l'inférence et la formation. Au-dessus d'eux, nous avons implémenté OS MS TTS Manager, qui rassemble les trois parties et permet de faire tout le pipeline et de produire une parole avec la voix nécessaire. Chacune de ces pièces est également composée de sous-parties élémentaires typiques des éléments correspondants. Ils peuvent être décrits comme suit:

Encodeur de haut-parleur : Ici, la classe de base est SpeakerCoderManager, qui permet de former et d'inférer le modèle. De plus, nous avons déjà implémenté l'interface de prétraitement audio WAV. Ainsi, on peut personnaliser ses propres fonctions de prétraitement audio, qui peuvent différer même pour le même ensemble de données. De plus, le modèle personnalisé peut être utilisé. Nous avons ajouté la fonction de prétraitement standard et le modèle présenté dans la voix en temps réel
Synthétiseur : Ici, la classe de base est SynthesizerManager, qui permet de former et de se déformer le modèle. En outre, la même situation avec les fonctions de prétraitement, иге avec une différence. En plus de l'audio, il faut également traiter le texte. Pour l'instant, nous avons implémenté la fonction de prétraitement du texte et de l'audio, car ces opérations sont nécessaires pendant l'inférence et la formation. La ligne de base provient de la voix en temps réel
VOCODER : Ici, la classe de base est VocoderManager, qui permet de s'entraîner, d'inférer le modèle de vocodeur et de définir tous les états dont il a besoin. La ligne de base provient de la voix en temps réel

Résultats de l'évaluation

Dans notre référentiel, nous avons ajouté un cahier, où l'on peut télécharger l'audio vocal, un fichier .txt et produire un discours avec une voix clonée. Malgré les poids des modèles pré-entraînés téléchargés automatiquement lors de la première exécution, l'utilisateur peut toujours télécharger des archives ici, d'autres instructions sont dans le cahier ici

Rôles des participants

Nikolay concevra l'architecture modulaire, API pour l'utilisation externe et le pipeline de formation. GleB implémentera la pile de travail de modèles, d'écriture de documents et d'exemples d'utilisation.

Structure du projet

 .
└── osms
    ├── __init__.py
    ├── common
    │   ├── __init__.py
    │   ├── configs
    │   │   ├── __init__.py
    │   │   ├── config.py
    │   │   └── main_config.yaml
    │   └── multispeaker.py
    ├── main.py
    ├── tts_modules
    │   ├── __init__.py
    │   ├── encoder
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── AudioConfig.yaml
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   └── dVecModelConfig.yaml
    │   │   ├── data
    │   │   │   ├── DataObjects.py
    │   │   │   ├── __init__.py
    │   │   │   ├── dataset.py
    │   │   │   ├── wav2mel.py
    │   │   │   └── wav_preprocessing.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── dVecModel.py
    │   │   ├── speaker_encoder_manager.py
    │   │   └── utils
    │   │       ├── Trainer.py
    │   │       └── __init__.py
    │   ├── synthesizer
    │   │   ├── LICENSE.md
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   ├── hparams.py
    │   │   │   └── tacotron_config.yaml
    │   │   ├── data
    │   │   │   ├── __init__.py
    │   │   │   ├── audio.py
    │   │   │   ├── dataset.py
    │   │   │   └── preprocess.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── tacotron.py
    │   │   ├── synthesize.py
    │   │   ├── synthesizer_manager.py
    │   │   ├── trainer.py
    │   │   └── utils
    │   │       ├── __init__.py
    │   │       ├── cleaners.py
    │   │       ├── logmmse.py
    │   │       ├── numbers.py
    │   │       ├── plot.py
    │   │       ├── symbols.py
    │   │       └── text.py
    │   ├── tts_module_manager.py
    │   └── vocoder
    │       ├── __init__.py
    │       ├── configs
    │       │   ├── __init__.py
    │       │   ├── config.py
    │       │   ├── hparams.py
    │       │   └── wavernn_config.yaml
    │       ├── data
    │       │   ├── __init__.py
    │       │   ├── dataset.py
    │       │   └── preprocess.py
    │       ├── models
    │       │   ├── __init__.py
    │       │   └── wavernn.py
    │       ├── utils
    │       │   ├── Trainer.py
    │       │   ├── __init__.py
    │       │   ├── audio.py
    │       │   ├── distribution.py
    │       │   └── gen_wavernn.py
    │       └── vocoder_manager.py
    └── utils
        └── __init__.py

Installation

Exécutez pip3 install . du répertoire racine.

Ensembles de données

Nous avons implémenté le traitement complet de l'ensemble de données LibrassEech pour l'encodeur de haut-parleur, le synthétiseur et le vocodeur. On peut télécharger le jeu de données LibraspeEch via ce lien. De plus, pour l'encodeur de haut-parleur, nous avons implémenté l'interface pour utiliser un ensemble de données personnalisé. Il faut implémenter les fonctions d'interface PreprocessDataset , les fonctions d'interface WavPreprocessor , les fonctions d'interface WavPreprocessor ou utiliser des fonctions implémentées.

Configuration

Pour les modèles de base, les configurations par défaut seront chargées automatiquement. Pour les modifier, on peut utiliser update_config(...) dans osms/common/configs/config.py . Pour charger la configuration par défaut, on peut utiliser get_default_<module_name>_config(...) . De plus, on peut implémenter ses propres configurations pour les utiliser pour d'autres modèles.

Managers

Pour travailler avec chaque trois modules, nous avons mis en œuvre son propre manager: SpeakerEncoderManager , SynthesizerManager , VocoderManager . En tant que gestionnaire principal, nous avons mis en œuvre MustiSpreakerManager qui donnent accès aux trois managers. On peut les utiliser pour inférer l'ensemble du modèle TTS et former chaque module séparément ou ensemble. L'exemple d'utilisation se trouve dans le cahier.

Points de contrôle

Les points de contrôle de base sont téléchargés automatiquement dans le répertoire checkpoints avec la création de l'objet «multispeaker». De plus, on peut utiliser d'autres points de contrôle par simple mise à jour de la configuration (modifier ... Checkpoint_dir_path, Checkpoint_name).

Références

Ye Jia, Y. Zhang, Ron J. Weiss, Q. Wang, Jonathan Shen, Fei Ren, Z. Chen, p. Nguyen, R. Pang, I. Lopez-Moreno et Y. Wu. Transférer l'apprentissage de la vérification des orateurs à la synthèse de texte à la parole,
Li Wan, Quan Wang, Alan Papir et Ignacio Lopez Moreno. Perte généralisée de bout en bout pour la vérification des conférenciers,
Jonathan Shen, R. Pang, Ron J. Weiss, M. Schuster, Navdeep Jaitly, z. Yang, Z. Chen, Yu Zhang, Yuxuan Wang, R. Skerry-Ryan, R. Saurous, Yannis Agiomyrgiannakis et Y. Wu. Synthèse TTS naturelle en conditionnant les prédictions du wavenet sur le spectrogramme MEL,
Aaron van den oord, S. Dieman, H. Zen, K. Simonyan, Oriol Vinyals, a. Graves, Nal Kalchbrenner, A. Senior et K. Kavukcuoglu. WAVENET: Modèle d'agence pour l'audio brut,
Erica Cooper, Cheng-i Lai, Yusuke Yasuda, Fuming Fang, Xin Wang, Nanxin Chen et Junichi Yamagishi. Texte-voca-vocation multi-parteplicateur à tirs zéro avec intégres de haut-parleur neuronal de pointe.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-22
taille 31.75MB
Provenant de Github

Applications connexes

Jeu Tir de zone morte

2024-02-07
Un vrai Waifu

2023-10-24
Héros abattus

2022-08-31
Brûlure à chaud

2022-08-18
Tourné dans le noir

2022-08-08
Exo Un

2022-08-04

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout