
Les technologies de Mimic Open Source Mycroft sont des moteurs de texte vocale qui prennent un texte écrit et le convertissent en audio parlé. La dernière génération de cette technologie, Mimic 2, utilise des techniques d'apprentissage automatique pour créer un modèle qui peut parler un langage spécifique, sonnant comme la voix sur laquelle elle a été formée.
Le studio d'enregistrement Mimic simplifie la collecte de données de formation d'individus, chacun pouvant être utilisé pour produire une voix distincte pour Mimic.
git clone https://github.com/MycroftAI/mimic-recording-studio.gitcd mimic-recording-studiostart-windows.batPourquoi Docker? Pour rendre cela super facile à configurer et à exécuter des plates-formes.
git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
docker-compose up pour construire et exécuter ( Remarque: vous devrez peut-être utiliser sudo docker-compose up en fonction de votre distribution )
Alternativement, vous pouvez construire et fonctionner séparément. docker-compose build puis docker-compose up
Dans votre navigateur, allez sur http://localhost:3000
Remarque: La première exécution de docker-compose up prendra un certain temps car cette commande créera également les conteneurs Docker. Les exécutions ultérieures de docker-compose up doivent être plus rapides à démarrer.
cd backend/pip install -r requirements.txtpython run.py cd frontend/npm install , alternativement yarn installnpm start , alternativement yarn startEn ligne, http://mimic.mycroft.ai version hébergée nécessitant une configuration zéro.
L'audio est enregistré sous forme de fichiers WAV dans le répertoire backend/audio_file/{uuid}/ . Le backend coupe automatiquement le silence débutant et terminant pour tous les fichiers WAV à l'aide de FFMPEG.
Les métadonnées sont également enregistrées sur backend/audio_file/{uuid}/ . Ce fichier mappe le nom de fichier WAV à la phrase parlée. Ceci avec les fichiers WAV est ce dont vous aviez besoin pour commencer à Training Mimic 2.
Pour l'instant, nous avons un corpus anglais, english_corpus.csv mis à disposition qui peut être trouvé dans backend/prompt/ . Pour utiliser votre propre corpus, suivez ces étapes.
english_corpus.csv à l'aide des onglets ( t ) que le délimiteur.backend/prompt .CORPUS dans docker-compose.yml en nom de corpus. Si vous souhaitez développer un corpus dans une langue autre que l'anglais, Mimic Recording Studio peut être utilisé pour produire des enregistrements vocaux pour les voix TTS dans des langues supplémentaires. Si vous construisez un corpus dans une langue autre que l'anglais, nous vous encourageons à choisir des phrases qui:
IMPORTANT: Pour l'instant, vous devez réinitialiser la base de données sqlite pour utiliser un nouveau corpus. Si vous avez enregistré sur un autre corpus et que vous souhaitez enregistrer ces données, vous pouvez simplement renommer votre DB sqlite trouvé dans backend/db/ à un autre nom. Le backend détectera que mimicstudio.db n'est pas là et en créera un nouveau pour vous. Vous pouvez continuer à enregistrer des données pour votre nouveau corpus.
L'interface utilisateur Web est construite à l'aide de JavaScript et React et Create-React-App comme outil d'échafaudage. Reportez-vous à CRA.MD pour en savoir plus sur la façon d'utiliser Create-React-App.
Le service Web est construit à l'aide de Python, Flask comme framework backend, Gunicorn en tant que serveur Web HTTP et SQLite comme base de données.
Docker est utilisé pour être conteste les deux applications. Par défaut, le frontend utilise le port réseau 3000 tandis que le backend utilise le port de réseau 5000 . Vous pouvez les configurer dans le fichier docker-compose.yml .
Remarque: Si vous exécutez docker-registry , cela s'exécute par défaut sur le port 5000 , vous devrez donc modifier le port que vous utilisez.
Créer une voix nécessite un effort réalisable mais important. Un individu devra enregistrer 15 000 à 20 000 phrases. Afin d'obtenir la meilleure voix possible, les enregistrements doivent être propres et cohérents. À cette fin, suivez ces recommandations:
Mimic-Re-enregistrement-studio écrit tous les enregistrements dans un fichier de base de données SQLite situé sous / backend / db /. Cela peut être ouvert avec des outils de base de données comme DBEAVER.
La base de données comprend deux tables.

Tous les enregistrements sont persistés dans ce tableau avec
La base de données peut être utilisée pour interroger vos enregistrements.
Voici quelques exemples de requêtes:
-- List all recordings
SELECT * FROM audiomodel;
-- Lists recordings from january 2020 order by phrase
SELECT * FROM audiomodel WHERE created_date BETWEEN ' 2020-01-01 ' AND ' 2020-01-31 ' ORDER BY prompt;
-- Lists number of recordings per day
SELECT DATE (created_date), COUNT ( * ) AS RecordingsPerDay
FROM audiomodel
GROUP BY DATE (created_date )
ORDER BY DATE (created_date)
-- Shows average text length of recordings
SELECT AVG (LENGTH(prompt)) AS avgLength FROM audiomodelIl existe de nombreuses façons dont l'interrogation de la base de données SQLite pourrait être utile. Par exemple, la recherche d'enregistrements dans une plage de temps spécifique pourrait aider à supprimer les enregistrements effectués dans un mauvais environnement.
Mimic-Re-enregistrement-studio peut être utilisé par plus d'un haut-parleur en utilisant le même fichier de base de données SQLite.
Ces tableaux fournissent des informations suivantes par orateur:
Ces valeurs sont utilisées pour calculer les mesures. Par exemple, le rythme de parole peut montrer si la phrase enregistrée est trop rapide ou lente par rapport aux enregistrements précédents.
La table de requête "UserModel" pour obtenir une liste de locuteurs, y compris UUID et certaines statistiques d'enregistrement.
SELECT user_name AS [name], uuid FROM usermodel;
Le navigateur utilisé pour enregistrer vos phrases persiste les utilisateurs uuid et name de son storage local pour le garder synchrone avec SQLite et Système de fichiers.
Si un problème se produit et que votre navigateur perd / modifie la cartographie UUID pour Mimic-Enregistrement-studio, vous pourriez avoir des difficultés à poursuivre une session d'enregistrement précédente. Ensuite, mettez à jour les deux attributs suivants dans LocalStorage de votre navigateur:
Ouvrez l'étudio d'enregistrement de mimic dans votre navigateur, passez aux options de développement Web, localStorage et définissez le nom et l'UUID sur les valeurs d'origine.

Après cela, vous devriez pouvoir continuer votre session d'enregistrement précédente sans autres problèmes.
Nous accueillons vos dons vocaux à MyCroft pour une utilisation dans les applications de texte vocale. Si vous souhaitez fournir vos enregistrements vocaux, vous devez nous leur concéder sous la licence Creative Commons CC0 Public Domain afin que nous puissions les utiliser dans TTS Voices - qui sont des œuvres dérivées. Si vous êtes prêt à faire don de vos enregistrements vocaux, envoyez-nous un courriel à [email protected].
Les relations publiques sont avec plaisir!
Vous pouvez obtenir de l'aide et du soutien avec Mimic Recording Studio à;