mimic recording studio Скачать - mimic recording studio Скачать исходный код

mimic recording studio

AI Исходный код

v 0.1.1

Скачать

Mimic Recording Studio

демо

Mimic Recording Studio
- Программное обеспечение быстрое запуск
  - Windows самостоятельно отправлено
  - Linux/Mac Self-Hosted Quick Start
    - Установить зависимости
    - Строить и бежать
  - Ручная установка, строительство и запуск
    - Бэкэнд
      - Зависимости
      - Строить и бежать
    - Внешний интерфейс
      - Зависимости
      - Строить и бежать
  - Вскоре!
- Данные
  - Аудиозаписи
    - WAV -файлы
    - {uuid} -metadata.txt
  - Корпус
    - Корпорации на других языках
- Технологии
  - Внешний интерфейс
    - Функции
  - Бэкэнд
    - Функции
  - Докер
Советы по записи
Передовой
- Структура базы данных запросов
  - Таблица "аудиомодель"
  - Таблица "usermodel"
- Изменить регистратор uuid
Предоставление вашей записи Mycroft для обучения
Вклад
Где получить поддержку и помощь

Mycroft Open Source Mimic Technologies-это двигатели текста в речь, которые принимают кусок письменного текста и преобразуют его в разглашенный звук. Последнее поколение этой технологии, Mimic 2, использует методы машинного обучения для создания модели, которая может говорить на конкретном языке, звучащий как голос, на котором она была обучена.

Студия звукозаписи имитации упрощает сбор данных об обучении от отдельных лиц, каждая из которых может использоваться для создания отчетливого голоса для мимика.

Программное обеспечение быстрое запуск

Windows самостоятельно отправлено

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
start-windows.bat

Linux/Mac Self-Hosted Quick Start

Установить зависимости

Docker (Community Edition в порядке)
Docker Compose

Почему докер? Чтобы это очень легко было настройке и запуска поперечных платформ.

Строить и бежать

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
docker-compose up для создания и запуска ( примечание: вам может потребоваться использовать sudo docker-compose up в зависимости от вашего распределения )
В качестве альтернативы вы можете построить и работать отдельно. docker-compose build docker-compose up Load
В вашем браузере перейдите по адресу http://localhost:3000

Примечание. Первое выполнение docker-compose up займет некоторое время, так как эта команда также построит контейнеры Docker. Последующие выполнения docker-compose up должны быть быстрее.

Ручная установка, строительство и запуск

Бэкэнд

Зависимости

Python 3.5 +
ffmpeg

Строить и бежать

cd backend/
pip install -r requirements.txt
python run.py

Внешний интерфейс

Зависимости

Узел и NPM
Создать-реакт-приложение
пряжа - необязательно для более быстрого сборки, установки и запуска

Строить и бежать

cd frontend/
npm install , альтернативная yarn install
npm start , альтернативно yarn start

Вскоре!

Онлайн, http://mimic.mycroft.ai, размещенная версия, требующая нулевой настройки.

Данные

Аудиозаписи

WAV -файлы

Аудио сохраняется в виде файлов wav в backend/audio_file/{uuid}/ каталог. Бэкэнд автоматически облегает начало и заканчивая молчание для всех файлов WAV, используя FFMPEG.

{uuid} -metadata.txt

Метаданные также сохраняются в backend/audio_file/{uuid}/ . Этот файл отображает имя файла wav с написанной фразой. Это вместе с файлами WAV - это то, что вам нужно, чтобы начать обучение Mimic 2.

Корпус

На данный момент у нас есть английский корпус, english_corpus.csv , доступный, который можно найти в backend/prompt/ . Чтобы использовать свой собственный корпус, следуйте этим шагам.

Создайте файл CSV в том же формате, что и english_corpus.csv , используя вкладки ( t ) в качестве разделителя.
Убедитесь, что в корпусе нет пустых линий
Добавьте свой корпус в каталог backend/prompt .
Измените переменную среды CORPUS в docker-compose.yml на название вашего корпуса.

Корпорации на других языках

Если вы хотите разработать корпус на языке, отличном от английского, то имитируйте студию звукозаписи для создания голосовых записей для голосов TTS на дополнительных языках. Если вы строите корпус на языке, отличном от английского, мы рекомендуем вам выбрать фразы, которые:

происходит в естественной повседневной речи на целевом языке
иметь разнообразные длины струн
покрыть широкий спектр фонем (основные звуки)

ВАЖНО: На данный момент вы должны сбросить базу данных sqlite , чтобы использовать новый корпус. Если вы записали в другом корпусе и хотели бы сохранить эти данные, вы можете просто переименовать свой sqlite DB, найденный в backend/db/ на другое имя. Бэкэнд будет обнаружить, что mimicstudio.db не существует и создает для вас новую. Вы можете продолжить запись данных для вашего нового корпуса.

Технологии

Внешний интерфейс

Веб-интерфейс создан с использованием JavaScript и React и Create-React-APP в качестве инструмента для лесов. Обратитесь к CRA.MD, чтобы узнать больше о том, как использовать Create-React-APP.

Функции

Записать и воспроизводить аудио
Генерировать аудио визуализацию
Рассчитать и отображать метрики

Бэкэнд

Веб -сервис создан с использованием Python, Flask в качестве бэкэнд -рамки, стрелкового террога в качестве HTTP Webserver и SQLite в качестве базы данных.

Функции

Процесс аудио
Обслуживает данные о корпусах и метриках
Информация о записи в базе данных
Запишите данные в файловую систему

Докер

Docker используется для контейнера обоих приложений. По умолчанию Frontend использует сетевой порт 3000 , в то время как бэкэнд использует сетевой порт 5000 . Вы можете настроить их в файле docker-compose.yml .

Примечание. Если вы используете docker-registry , это работает по умолчанию на порту 5000 , поэтому вам нужно будет изменить, какой порт вы используете.

Советы по записи

Создание голоса требует достижимых, но значительных усилий. Человек должен будет записать 15 000 - 20 000 фраз. Чтобы получить наилучший возможный мимический голос, записи должны быть чистыми и последовательными. С этой целью следуйте этим рекомендациям:

Запись в тихой обстановке с помощью шумоподавления материала. Если ваши уши могут услышать внешний шум, также может микрофон. Для достижения наилучших результатов следует избегать даже звука кондиционирования воздуха. Голые стены создают тонкие эхо и реверберации. Стенд для демпфирования звука идеальна, но вы также можете создать домашнюю студию записи, используя мягкие материалы, такие как акустическая пена в шкафу. Утешители и матрасы также могут быть использованы эффективно!
Говорите с последовательным объемом и скоростью. Просыпаться через фразы приведет только к более низкокачественному голосу.
Используйте качественный микрофон. Чтобы получить последовательные результаты, мы рекомендуем микрофон гарнитуры, чтобы ваш рот всегда был на одинаковом расстоянии от микрофона.
Избегайте вокальной усталости. Записывайте максимум 4 часа в день, делая перерыв каждые полчаса.
Резервное копирование своего справочного каталога-рекордного Stdio на регулярной основе, чтобы избежать потери данных.

Передовой

Структура базы данных запросов

MIMIC-рекордсмен-Studio записывает все записи в файле базы данных SQLITE, расположенном под/Backend/DB/. Это можно открыть с помощью инструментов базы данных, таких как DBEAVER.

База данных включает в себя две таблицы.

DATABASE_TABLE_OVERVIEW

Таблица "аудиомодель"

Все записи сохраняются в этой таблице с

Запись временной метки (censue_date)
uuid of Disceer (соответствует пути файловой системы под/backend/audio_files/id)
wav filename в файловой системе (audio_id)
Текст записанной фразы (фраза)

База данных можно использовать для запроса ваших записей.

Вот несколько примеров запросов:

 -- List all recordings
SELECT * FROM audiomodel;

-- Lists recordings from january 2020 order by phrase
SELECT * FROM audiomodel WHERE created_date BETWEEN ' 2020-01-01 ' AND ' 2020-01-31 ' ORDER BY prompt;

-- Lists number of recordings per day
SELECT DATE (created_date), COUNT ( * ) AS RecordingsPerDay
FROM audiomodel
GROUP BY DATE (created_date )
ORDER BY DATE (created_date)

-- Shows average text length of recordings
SELECT AVG (LENGTH(prompt)) AS avgLength FROM audiomodel

Есть много способов, которыми может быть полезен запрос базы данных SQLite. Например, в поисках записей в определенном временном диапазоне может помочь удалить записи, сделанные в плохой среде.

Таблица "usermodel"

Mimic Recording-Studio может использоваться более чем одним динамиком, используя один и тот же файл базы данных SQLite.

Эта таблица предоставляет следующую информацию на оратора:

Уникальный идентификатор динамика (uuid)
Имя динамика (user_name)
Новейшее записанное номер строки корпуса (Quict_num)
Общее время записи (total_time_spoken)
Сколько Chars было записано (LEN_CHAR_SPOKEN)

Эти значения используются для расчета метрик. Например, темп разговора может показать, является ли записанная фраза слишком быстрая или медленная по сравнению с предыдущими записями.

Таблица запросов «Usermodel», чтобы получить список докладчиков, включая UUID и некоторую статистику записи на них.

 SELECT user_name AS [name], uuid FROM usermodel;

Database_table_usermodel

Изменить регистратор uuid

Браузер, используемый для записи ваших фраз, сохраняет пользователи uuid и name в его локальном строительстве, чтобы он синхронно с SQLite и файловой системой.

Если возникает проблема, и ваш браузер теряет/изменяет картирование UUID для имитации-рекордного Studio, у вас может возникнуть трудности с продолжением предыдущего сеанса записи. Затем обновите следующие два атрибута в LocalStorage вашего браузера:

uuid (таблица запросов "usermodel" или проверить путь файловой системы в подключении/backend/audio_files/)
Имя (таблица запросов "usermodel")

Откройте мимик-рекордскую Studio в вашем браузере, перейдите к параметрам веб-разработчика, LocalStorage и установите имя и UUID на исходные значения.

browser_local_storage

После этого вы сможете продолжить свою предыдущую сеанс записи без дополнительных проблем.

Предоставление вашей записи Mycroft для обучения

Мы приветствуем ваши голосовые пожертвования MyCroft для использования в приложениях для текста в речь. Если вы хотите предоставить свои голосовые записи, вы должны лицензировать их нам по лицензии Creative Commons CC0, чтобы мы могли использовать их в голосах TTS - которые являются производными работами. Если вы готовы пожертвовать свои голосовые записи, напишите нам по адресу [email protected].