
Mycroft Open Source Mimic Technologies-это двигатели текста в речь, которые принимают кусок письменного текста и преобразуют его в разглашенный звук. Последнее поколение этой технологии, Mimic 2, использует методы машинного обучения для создания модели, которая может говорить на конкретном языке, звучащий как голос, на котором она была обучена.
Студия звукозаписи имитации упрощает сбор данных об обучении от отдельных лиц, каждая из которых может использоваться для создания отчетливого голоса для мимика.
git clone https://github.com/MycroftAI/mimic-recording-studio.gitcd mimic-recording-studiostart-windows.batПочему докер? Чтобы это очень легко было настройке и запуска поперечных платформ.
git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
docker-compose up для создания и запуска ( примечание: вам может потребоваться использовать sudo docker-compose up в зависимости от вашего распределения )
В качестве альтернативы вы можете построить и работать отдельно. docker-compose build docker-compose up Load
В вашем браузере перейдите по адресу http://localhost:3000
Примечание. Первое выполнение docker-compose up займет некоторое время, так как эта команда также построит контейнеры Docker. Последующие выполнения docker-compose up должны быть быстрее.
cd backend/pip install -r requirements.txtpython run.py cd frontend/npm install , альтернативная yarn installnpm start , альтернативно yarn startОнлайн, http://mimic.mycroft.ai, размещенная версия, требующая нулевой настройки.
Аудио сохраняется в виде файлов wav в backend/audio_file/{uuid}/ каталог. Бэкэнд автоматически облегает начало и заканчивая молчание для всех файлов WAV, используя FFMPEG.
Метаданные также сохраняются в backend/audio_file/{uuid}/ . Этот файл отображает имя файла wav с написанной фразой. Это вместе с файлами WAV - это то, что вам нужно, чтобы начать обучение Mimic 2.
На данный момент у нас есть английский корпус, english_corpus.csv , доступный, который можно найти в backend/prompt/ . Чтобы использовать свой собственный корпус, следуйте этим шагам.
english_corpus.csv , используя вкладки ( t ) в качестве разделителя.backend/prompt .CORPUS в docker-compose.yml на название вашего корпуса. Если вы хотите разработать корпус на языке, отличном от английского, то имитируйте студию звукозаписи для создания голосовых записей для голосов TTS на дополнительных языках. Если вы строите корпус на языке, отличном от английского, мы рекомендуем вам выбрать фразы, которые:
ВАЖНО: На данный момент вы должны сбросить базу данных sqlite , чтобы использовать новый корпус. Если вы записали в другом корпусе и хотели бы сохранить эти данные, вы можете просто переименовать свой sqlite DB, найденный в backend/db/ на другое имя. Бэкэнд будет обнаружить, что mimicstudio.db не существует и создает для вас новую. Вы можете продолжить запись данных для вашего нового корпуса.
Веб-интерфейс создан с использованием JavaScript и React и Create-React-APP в качестве инструмента для лесов. Обратитесь к CRA.MD, чтобы узнать больше о том, как использовать Create-React-APP.
Веб -сервис создан с использованием Python, Flask в качестве бэкэнд -рамки, стрелкового террога в качестве HTTP Webserver и SQLite в качестве базы данных.
Docker используется для контейнера обоих приложений. По умолчанию Frontend использует сетевой порт 3000 , в то время как бэкэнд использует сетевой порт 5000 . Вы можете настроить их в файле docker-compose.yml .
Примечание. Если вы используете docker-registry , это работает по умолчанию на порту 5000 , поэтому вам нужно будет изменить, какой порт вы используете.
Создание голоса требует достижимых, но значительных усилий. Человек должен будет записать 15 000 - 20 000 фраз. Чтобы получить наилучший возможный мимический голос, записи должны быть чистыми и последовательными. С этой целью следуйте этим рекомендациям:
MIMIC-рекордсмен-Studio записывает все записи в файле базы данных SQLITE, расположенном под/Backend/DB/. Это можно открыть с помощью инструментов базы данных, таких как DBEAVER.
База данных включает в себя две таблицы.

Все записи сохраняются в этой таблице с
База данных можно использовать для запроса ваших записей.
Вот несколько примеров запросов:
-- List all recordings
SELECT * FROM audiomodel;
-- Lists recordings from january 2020 order by phrase
SELECT * FROM audiomodel WHERE created_date BETWEEN ' 2020-01-01 ' AND ' 2020-01-31 ' ORDER BY prompt;
-- Lists number of recordings per day
SELECT DATE (created_date), COUNT ( * ) AS RecordingsPerDay
FROM audiomodel
GROUP BY DATE (created_date )
ORDER BY DATE (created_date)
-- Shows average text length of recordings
SELECT AVG (LENGTH(prompt)) AS avgLength FROM audiomodelЕсть много способов, которыми может быть полезен запрос базы данных SQLite. Например, в поисках записей в определенном временном диапазоне может помочь удалить записи, сделанные в плохой среде.
Mimic Recording-Studio может использоваться более чем одним динамиком, используя один и тот же файл базы данных SQLite.
Эта таблица предоставляет следующую информацию на оратора:
Эти значения используются для расчета метрик. Например, темп разговора может показать, является ли записанная фраза слишком быстрая или медленная по сравнению с предыдущими записями.
Таблица запросов «Usermodel», чтобы получить список докладчиков, включая UUID и некоторую статистику записи на них.
SELECT user_name AS [name], uuid FROM usermodel;
Браузер, используемый для записи ваших фраз, сохраняет пользователи uuid и name в его локальном строительстве, чтобы он синхронно с SQLite и файловой системой.
Если возникает проблема, и ваш браузер теряет/изменяет картирование UUID для имитации-рекордного Studio, у вас может возникнуть трудности с продолжением предыдущего сеанса записи. Затем обновите следующие два атрибута в LocalStorage вашего браузера:
Откройте мимик-рекордскую Studio в вашем браузере, перейдите к параметрам веб-разработчика, LocalStorage и установите имя и UUID на исходные значения.

После этого вы сможете продолжить свою предыдущую сеанс записи без дополнительных проблем.
Мы приветствуем ваши голосовые пожертвования MyCroft для использования в приложениях для текста в речь. Если вы хотите предоставить свои голосовые записи, вы должны лицензировать их нам по лицензии Creative Commons CC0, чтобы мы могли использовать их в голосах TTS - которые являются производными работами. Если вы готовы пожертвовать свои голосовые записи, напишите нам по адресу [email protected].
PR с радостью приняты!
Вы можете получить помощь и поддержку с Mimic Studio Studio AT;