mimic recording studio Download - mimic recording studio Source Code Télécharger

mimic recording studio

Code Source AI

v 0.1.1

Télécharger

MIMIC Recording Studio

démo

MIMIC Recording Studio
- Démarrage rapide du logiciel
  - Windows Hostted START
  - Linux / Mac Hostted START
    - Installer des dépendances
    - Construire et courir
  - Installation manuelle, construire et démarrer
    - Backend
      - Dépendances
      - Construire et courir
    - L'extrémité avant
      - Dépendances
      - Construire et courir
  - À venir!
- Données
  - Enregistrements audio
    - Fichiers WAV
    - {UUID} -Metadata.txt
  - Corpus
    - Corpus dans d'autres langues
- Technologies
  - L'extrémité avant
    - Fonctions
  - Backend
    - Fonctions
  - Docker
Conseils d'enregistrement
Avancé
- Structure de la base de données de requête
  - Tableau "Audiomodel"
  - Table "usermodel"
- Modifier l'enregistreur UUID
Fournir votre enregistrement à Mycroft pour la formation
Contributions
Où obtenir le soutien et l'assistance

Les technologies de Mimic Open Source Mycroft sont des moteurs de texte vocale qui prennent un texte écrit et le convertissent en audio parlé. La dernière génération de cette technologie, Mimic 2, utilise des techniques d'apprentissage automatique pour créer un modèle qui peut parler un langage spécifique, sonnant comme la voix sur laquelle elle a été formée.

Le studio d'enregistrement Mimic simplifie la collecte de données de formation d'individus, chacun pouvant être utilisé pour produire une voix distincte pour Mimic.

Démarrage rapide du logiciel

Windows Hostted START

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
start-windows.bat

Linux / Mac Hostted START

Installer des dépendances

Docker (l'édition communautaire est bien)
Docker

Pourquoi Docker? Pour rendre cela super facile à configurer et à exécuter des plates-formes.

Construire et courir

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
docker-compose up pour construire et exécuter ( Remarque: vous devrez peut-être utiliser sudo docker-compose up en fonction de votre distribution )
Alternativement, vous pouvez construire et fonctionner séparément. docker-compose build puis docker-compose up
Dans votre navigateur, allez sur http://localhost:3000

Remarque: La première exécution de docker-compose up prendra un certain temps car cette commande créera également les conteneurs Docker. Les exécutions ultérieures de docker-compose up doivent être plus rapides à démarrer.

Installation manuelle, construire et démarrer

Backend

Dépendances

Python 3.5 +
ffmpeg

Construire et courir

cd backend/
pip install -r requirements.txt
python run.py

L'extrémité avant

Dépendances

nœud et npm
create-react-app
fil - facultatif pour une construction, installer et démarrer plus rapide

Construire et courir

cd frontend/
npm install , alternativement yarn install
npm start , alternativement yarn start

À venir!

En ligne, http://mimic.mycroft.ai version hébergée nécessitant une configuration zéro.

Données

Enregistrements audio

Fichiers WAV

L'audio est enregistré sous forme de fichiers WAV dans le répertoire backend/audio_file/{uuid}/ . Le backend coupe automatiquement le silence débutant et terminant pour tous les fichiers WAV à l'aide de FFMPEG.

{UUID} -Metadata.txt

Les métadonnées sont également enregistrées sur backend/audio_file/{uuid}/ . Ce fichier mappe le nom de fichier WAV à la phrase parlée. Ceci avec les fichiers WAV est ce dont vous aviez besoin pour commencer à Training Mimic 2.

Corpus

Pour l'instant, nous avons un corpus anglais, english_corpus.csv mis à disposition qui peut être trouvé dans backend/prompt/ . Pour utiliser votre propre corpus, suivez ces étapes.

Créez un fichier CSV dans le même format que english_corpus.csv à l'aide des onglets ( t ) que le délimiteur.
Assurez-vous qu'il n'y a pas de lignes vides dans le corpus
Ajoutez votre corpus au répertoire backend/prompt .
Modifiez la variable d'environnement CORPUS dans docker-compose.yml en nom de corpus.

Corpus dans d'autres langues

Si vous souhaitez développer un corpus dans une langue autre que l'anglais, Mimic Recording Studio peut être utilisé pour produire des enregistrements vocaux pour les voix TTS dans des langues supplémentaires. Si vous construisez un corpus dans une langue autre que l'anglais, nous vous encourageons à choisir des phrases qui:

se produit dans un discours naturel et quotidien dans la langue cible
avoir une variété de longueurs de cordes
Couvrir une grande variété de phonèmes (sons de base)

IMPORTANT: Pour l'instant, vous devez réinitialiser la base de données sqlite pour utiliser un nouveau corpus. Si vous avez enregistré sur un autre corpus et que vous souhaitez enregistrer ces données, vous pouvez simplement renommer votre DB sqlite trouvé dans backend/db/ à un autre nom. Le backend détectera que mimicstudio.db n'est pas là et en créera un nouveau pour vous. Vous pouvez continuer à enregistrer des données pour votre nouveau corpus.

Technologies

L'extrémité avant

L'interface utilisateur Web est construite à l'aide de JavaScript et React et Create-React-App comme outil d'échafaudage. Reportez-vous à CRA.MD pour en savoir plus sur la façon d'utiliser Create-React-App.

Fonctions

Enregistrer et jouer audio
Générer une visualisation audio
Calculer et afficher les mesures

Backend

Le service Web est construit à l'aide de Python, Flask comme framework backend, Gunicorn en tant que serveur Web HTTP et SQLite comme base de données.

Fonctions

Traiter l'audio
Servit les données du corpus et des métriques
Enregistrer les informations dans la base de données
Enregistrer les données du système de fichiers

Docker

Docker est utilisé pour être conteste les deux applications. Par défaut, le frontend utilise le port réseau 3000 tandis que le backend utilise le port de réseau 5000 . Vous pouvez les configurer dans le fichier docker-compose.yml .

Remarque: Si vous exécutez docker-registry , cela s'exécute par défaut sur le port 5000 , vous devrez donc modifier le port que vous utilisez.

Conseils d'enregistrement

Créer une voix nécessite un effort réalisable mais important. Un individu devra enregistrer 15 000 à 20 000 phrases. Afin d'obtenir la meilleure voix possible, les enregistrements doivent être propres et cohérents. À cette fin, suivez ces recommandations:

Enregistrer dans un environnement calme avec un matériau amorti le bruit. Si vos oreilles peuvent entendre le bruit extérieur, le microphone aussi. Pour de meilleurs résultats, même le son de la climatisation qui souffle à travers un évent doit être évité. Les murs nus créent des échos subtils et une réverbération. Une cabine d'amortissement sonore est idéale, mais vous pouvez également créer un studio d'enregistrement maison utilisant des matériaux doux tels que la mousse acoustique dans un placard. Les couettes et les matelas peuvent également être utilisés efficacement!
Parlez à un volume et à une vitesse cohérents. Se précipiter à travers les phrases ne se traduira que par une voix de qualité inférieure.
Utilisez un microphone de qualité. Pour obtenir des résultats cohérents, nous recommandons un microphone de casque afin que votre bouche soit toujours à la même distance du micro.
Évitez la fatigue vocale. Enregistrez un maximum de 4 heures par jour, en faisant une pause toutes les demi-heures.
Sauvegardez votre répertoire de l'étudio d'enregistrement de mimic sur une base régulière pour éviter la perte de données.

Avancé

Structure de la base de données de requête

Mimic-Re-enregistrement-studio écrit tous les enregistrements dans un fichier de base de données SQLite situé sous / backend / db /. Cela peut être ouvert avec des outils de base de données comme DBEAVER.

La base de données comprend deux tables.

database_table_overview

Tableau "Audiomodel"

Tous les enregistrements sont persistés dans ce tableau avec

Timestamp d'enregistrement (Created_Date)
UUID de haut-parleur (correspond au chemin du système de fichiers sous / backend / audio_files / id)
Nom de fichier WAV dans le système de fichiers (Audio_ID)
Texte de phrase enregistrée (phrase)

La base de données peut être utilisée pour interroger vos enregistrements.

Voici quelques exemples de requêtes:

 -- List all recordings
SELECT * FROM audiomodel;

-- Lists recordings from january 2020 order by phrase
SELECT * FROM audiomodel WHERE created_date BETWEEN ' 2020-01-01 ' AND ' 2020-01-31 ' ORDER BY prompt;

-- Lists number of recordings per day
SELECT DATE (created_date), COUNT ( * ) AS RecordingsPerDay
FROM audiomodel
GROUP BY DATE (created_date )
ORDER BY DATE (created_date)

-- Shows average text length of recordings
SELECT AVG (LENGTH(prompt)) AS avgLength FROM audiomodel

Il existe de nombreuses façons dont l'interrogation de la base de données SQLite pourrait être utile. Par exemple, la recherche d'enregistrements dans une plage de temps spécifique pourrait aider à supprimer les enregistrements effectués dans un mauvais environnement.

Table "usermodel"

Mimic-Re-enregistrement-studio peut être utilisé par plus d'un haut-parleur en utilisant le même fichier de base de données SQLite.

Ces tableaux fournissent des informations suivantes par orateur:

Identifiant unique du haut-parleur (UUID)
Nom du haut-parleur (user_name)
Numéro de ligne enregistré le plus récent de corpus (prompt_num)
Temps d'enregistrement total (total_time_spoken)
Combien de caractères ont été enregistrés (LEN_CHAR_SPOKER)

Ces valeurs sont utilisées pour calculer les mesures. Par exemple, le rythme de parole peut montrer si la phrase enregistrée est trop rapide ou lente par rapport aux enregistrements précédents.

La table de requête "UserModel" pour obtenir une liste de locuteurs, y compris UUID et certaines statistiques d'enregistrement.

 SELECT user_name AS [name], uuid FROM usermodel;

database_table_usemodel

Modifier l'enregistreur UUID

Le navigateur utilisé pour enregistrer vos phrases persiste les utilisateurs uuid et name de son storage local pour le garder synchrone avec SQLite et Système de fichiers.

Si un problème se produit et que votre navigateur perd / modifie la cartographie UUID pour Mimic-Enregistrement-studio, vous pourriez avoir des difficultés à poursuivre une session d'enregistrement précédente. Ensuite, mettez à jour les deux attributs suivants dans LocalStorage de votre navigateur:

UUID (Table de requête "UserModel" ou vérifiez le chemin du système de fichiers sous / backend / audio_files /)
Nom (Table de requête "UserModel")

Ouvrez l'étudio d'enregistrement de mimic dans votre navigateur, passez aux options de développement Web, localStorage et définissez le nom et l'UUID sur les valeurs d'origine.

Browser_Local_storage

Après cela, vous devriez pouvoir continuer votre session d'enregistrement précédente sans autres problèmes.

Fournir votre enregistrement à Mycroft pour la formation

Nous accueillons vos dons vocaux à MyCroft pour une utilisation dans les applications de texte vocale. Si vous souhaitez fournir vos enregistrements vocaux, vous devez nous leur concéder sous la licence Creative Commons CC0 Public Domain afin que nous puissions les utiliser dans TTS Voices - qui sont des œuvres dérivées. Si vous êtes prêt à faire don de vos enregistrements vocaux, envoyez-nous un courriel à [email protected].