Descargar mimic recording studio - Descargar el código fuente de mimic recording studio

mimic recording studio

Código Fuente de IA

v 0.1.1

Descargar

Estudio de grabación de imitación

manifestación

Estudio de grabación de imitación
- Inicio rápido de software
  - Windows Inicio rápido autohostado
  - Linux/Mac Inicio rápido autohostado
    - Instalar dependencias
    - Construir y correr
  - Instalar, construir y comenzar manual
    - Backend
      - Dependencias
      - Build & Run
    - Interfaz
      - Dependencias
      - Build & Run
  - ¡Muy pronto!
- Datos
  - Grabaciones de audio
    - Archivos WAV
    - {uuid} -metadata.txt
  - Cuerpo
    - Corpus en otros idiomas
- Tecnologías
  - Interfaz
    - Funciones
  - Backend
    - Funciones
  - Estibador
Consejos de grabación
Avanzado
- Estructura de base de datos de consulta
  - Tabla "audiomodel"
  - Tabla "usermodel"
- Modificar el registrador uuid
Proporcionar su grabación a Mycroft para capacitación
Contribuciones
Dónde obtener apoyo y asistencia

Las tecnologías MIMIC de código abierto de Mycroft son motores de texto a voz que toman un texto escrito y lo convierten en audio hablado. La última generación de esta tecnología, MIMIC 2, utiliza técnicas de aprendizaje automático para crear un modelo que puede hablar un lenguaje específico, que suena como la voz en la que fue entrenada.

El estudio de grabación MIMIC simplifica la recopilación de datos de capacitación de individuos, cada uno de los cuales puede usarse para producir una voz distinta para MIMIC.

Inicio rápido de software

Windows Inicio rápido autohostado

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
start-windows.bat

Linux/Mac Inicio rápido autohostado

Instalar dependencias

Docker (Community Edition está bien)
Docker componer

¿Por qué Docker? Para que esto sea súper fácil de configurar y ejecutar plataformas cruzadas.

Construir y correr

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
docker-compose up hasta la construcción y ejecución ( nota: es posible que deba usar sudo docker-compose up dependiendo de su distribución )
Alternativamente, puede construir y ejecutar por separado. docker-compose build luego docker-compose up
En su navegador, vaya a http://localhost:3000

Nota: La primera ejecución de docker-compose up llevará un tiempo, ya que este comando también construirá los contenedores Docker. Las ejecuciones posteriores de docker-compose up deben ser más rápidas de arrancar.

Instalar, construir y comenzar manual

Backend

Dependencias

Python 3.5 +
ffmpeg

Build & Run

cd backend/
pip install -r requirements.txt
python run.py

Interfaz

Dependencias

nodo y npm
crear
hilo: opcional para construir, instalar y iniciar más rápido.

Build & Run

cd frontend/
npm install , alternativamente yarn install
npm start , alternativamente yarn start

¡Muy pronto!

En línea, http://mimic.mycroft.ai Versión alojada que requiere una configuración cero.

Datos

Grabaciones de audio

Archivos WAV

El audio se guarda como archivos WAV en el directorio backend/audio_file/{uuid}/ . El backend recorta automáticamente el comienzo y finaliza el silencio para todos los archivos WAV usando FFMPEG.

{uuid} -metadata.txt

Los metadatos también se guardan para backend/audio_file/{uuid}/ . Este archivo asigna el nombre del archivo WAV a la frase hablada. Esto junto con los archivos WAV son lo que necesitaba para comenzar en la capacitación MIMIC 2.

Cuerpo

Por ahora, tenemos un Corpus en inglés, english_corpus.csv disponible que se puede encontrar en backend/prompt/ . Para usar su propio corpus, siga estos pasos.

Cree un archivo CSV en el mismo formato que english_corpus.csv usando pestañas ( t ) como delimitador.
Asegúrese de que no haya líneas vacías en el corpus
Agregue su corpus al directorio backend/prompt .
Cambie la variable de entorno CORPUS en docker-compose.yml al nombre de su cuerpo.

Corpus en otros idiomas

Si desea desarrollar un corpus en un idioma que no sea inglés, entonces MIMIC Recording Studio puede usarse para producir grabaciones de voz para voces TTS en idiomas adicionales. Si está construyendo un corpus en un idioma que no sea inglés, le recomendamos que elija frases que:

ocurre en el discurso natural y cotidiano en el idioma de destino
tener una variedad de longitudes de cuerda
cubrir una amplia variedad de fonemas (sonidos básicos)

IMPORTANTE: Por ahora, debe restablecer la base de datos sqlite para usar un nuevo corpus. Si ha grabado en otro corpus y desea guardar esos datos, simplemente puede cambiar el nombre de su DB sqlite que se encuentra en backend/db/ a otro nombre. El backend detectará que mimicstudio.db no está allí y creará uno nuevo para usted. Puede continuar grabando datos para su nuevo corpus.

Tecnologías

Interfaz

La interfaz de usuario web se construye con JavaScript y React y crea a la aplicación como una herramienta de andamio. Consulte Cra.MD para obtener más información sobre cómo usar Create-React-App.

Funciones

Grabar y reproducir audio
Generar visualización de audio
Calcular y mostrar métricas

Backend

El servicio web se crea con Python, Flask como el marco de backend, Gunicorn como servidor web HTTP y SQLite como base de datos.

Funciones

Proceso de audio
Sirve datos de corpus y métricas
Información de registro en la base de datos
Registrar datos en el sistema de archivos

Estibador

Docker se usa para contenedorizar ambas aplicaciones. Por defecto, el frontend usa el puerto de red 3000 mientras que el backend utiliza el puerto de red 5000 . Puede configurarlos en el archivo docker-compose.yml .

Nota: Si está ejecutando docker-registry , esto se ejecuta de forma predeterminada en el puerto 5000 , por lo que deberá cambiar qué puerto usa.

Consejos de grabación

Crear una voz requiere un esfuerzo alcanzable pero significativo. Un individuo necesitará registrar de 15,000 a 20,000 frases. Para obtener la mejor voz de imitación posible, las grabaciones deben ser limpias y consistentes. Con ese fin, siga estas recomendaciones:

Registre en un ambiente tranquilo con material de reducción de ruido. Si sus oídos pueden escuchar el ruido externo, también puede el micrófono. Para obtener los mejores resultados, incluso se debe evitar el sonido del aire acondicionado que sopla a través de una ventilación. Las paredes desnudas crean ecos sutiles y reverberación. Una cabina de amortiguación de sonido es ideal, pero también puede crear un estudio de grabación casero con materiales blandos como la espuma acústica en un armario. ¡Los edredones y colchones también se pueden usar de manera efectiva!
Habla a un volumen y velocidad consistentes. Apresurarse a través de las frases solo dará como resultado una voz de menor calidad.
Use un micrófono de calidad. Para obtener resultados consistentes, recomendamos un micrófono de auriculares para que su boca esté siempre a la misma distancia del micrófono.
Evite la fatiga vocal. Registre un máximo de 4 horas al día, tomando un descanso cada media hora.
Realice una copia de seguridad de su directorio de estudios de registro MIMIC de forma regular para evitar la pérdida de datos.

Avanzado

Estructura de base de datos de consulta

MIMIC-Recording-Studio escribe todas las grabaciones en un archivo de base de datos SQLite ubicado en/backend/db/. Esto se puede abrir con herramientas de base de datos como Dbeaver.

La base de datos incluye dos tablas.

database_table_overview

Tabla "audiomodel"

Todas las grabaciones se persisten en esta tabla con

Grabación de marca de tiempo (creado_date)
UUID del altavoz (coincide con la ruta del sistema de archivos en/backend/audio_files/id)
WAV Nombre de archivo en FileSystem (audio_id)
texto de frase grabada (frase)

La base de datos se puede usar para consultar sus grabaciones.

Aquí hay algunas consultas de ejemplo:

 -- List all recordings
SELECT * FROM audiomodel;

-- Lists recordings from january 2020 order by phrase
SELECT * FROM audiomodel WHERE created_date BETWEEN ' 2020-01-01 ' AND ' 2020-01-31 ' ORDER BY prompt;

-- Lists number of recordings per day
SELECT DATE (created_date), COUNT ( * ) AS RecordingsPerDay
FROM audiomodel
GROUP BY DATE (created_date )
ORDER BY DATE (created_date)

-- Shows average text length of recordings
SELECT AVG (LENGTH(prompt)) AS avgLength FROM audiomodel

Hay muchas maneras en que consultar la base de datos SQLite podría ser útil. Por ejemplo, buscar grabaciones en un rango de tiempo específico podría ayudar a eliminar las grabaciones hechas en un entorno malo.

Tabla "usermodel"

MIMIC-Recording-Studio puede ser utilizado por más de un altavoz utilizando el mismo archivo de base de datos SQLite.

Estas tablas proporcionan las siguientes información por altavoz:

Identificador único del altavoz (UUID)
Nombre del altavoz (user_name)
El número de línea más reciente de Corpus (Prolt_num)
Tiempo de grabación total (total_time_spoken)
Cuántos caracteres se han registrado (Len_char_spoken)

Estos valores se utilizan para calcular las métricas. Por ejemplo, el ritmo de hablar puede mostrar si la frase grabada es demasiado rápida o lenta en comparación con las grabaciones anteriores.

Tabla de consulta "Usermodel" para obtener una lista de oradores que incluyen UUID y algunas estadísticas de grabación sobre ellos.

 SELECT user_name AS [name], uuid FROM usermodel;

database_table_usermodel

Modificar el registrador uuid

El navegador solía grabar sus frases persiste el uuid y name de los usuarios en su almacenamiento local para mantenerlo sincrónico con SQLite y el sistema de archivos.

Si se produce un problema y su navegador pierde/cambia el mapeo de UUID para el estudio de grabación de MIMIC, podría tener dificultades para continuar una sesión de grabación previa. Luego actualice los siguientes dos atributos en LocalStorage de su navegador:

UUID (tabla de consulta "usermodel" o verificar la ruta del sistema de archivos en/backend/audio_files/)
Nombre (tabla de consulta "usermodel")

Abra Mimic Recording-Studio en su navegador, salte a las opciones de desarrollador web, LocalStorage y establezca el nombre y UUID a los valores originales.

navegador_local_storage

Después de eso, debería poder continuar su sesión de grabación anterior sin más problemas.

Proporcionar su grabación a Mycroft para capacitación

Agradecemos sus donaciones de voz a Mycroft para su uso en aplicaciones de texto a voz. Si desea proporcionar sus grabaciones de voz, debe licenciarlas bajo la licencia de dominio público Creative Commons CC0 para que podamos utilizarlas en voces TTS, que son obras derivadas. Si está listo para donar sus grabaciones de voz, envíenos un correo electrónico a [email protected].