mimic recording studio Download - mimic recording studio Quellcode Download

mimic recording studio

AI-Quellcode

v 0.1.1

Herunterladen

Mimic Recording Studio

Demo

Mimic Recording Studio
- Software Schnellstart
  - Windows selbst gehostete schnelle Start
  - Linux/Mac selbst gehostete schnelle Start
    - Abhängigkeiten installieren
    - Bauen und rennen
  - Handbuch installieren, bauen und starten
    - Backend
      - Abhängigkeiten
      - Bauen & rennen
    - Frontend
      - Abhängigkeiten
      - Bauen & rennen
  - Bald kommen!
- Daten
  - Audioaufnahmen
    - WAV -Dateien
    - {uUid} -metadata.txt
  - Korpus
    - Korpora in anderen Sprachen
- Technologien
  - Frontend
    - Funktionen
  - Backend
    - Funktionen
  - Docker
Tipps aufnehmen
Fortschrittlich
- Abfragedatenbankstruktur
  - Tabelle "Audiomodel"
  - Tabelle "Usmodel"
- Modifizieren Sie den Recorder UUID
Bereitstellung Ihrer Aufnahme an Mycroft zum Training
Beiträge
Wo kann man Unterstützung und Unterstützung erhalten

Die Mycroft Open Source Mimic Technologies sind Text-to-Speech-Motoren, die einen schriftlichen Text aufnehmen und in gesprochenes Audio umwandeln. Die neueste Generation dieser Technologie, Mimic 2, verwendet maschinelles Lernenstechniken, um ein Modell zu erstellen, das eine bestimmte Sprache sprechen kann und wie die Stimme klingt, auf der es trainiert wurde.

Das Mimic Recording Studio vereinfacht die Sammlung von Trainingsdaten von Einzelpersonen, von denen jede zur Erzeugung einer ausgeprägten Stimme für die Mimic verwendet werden kann.

Software Schnellstart

Windows selbst gehostete schnelle Start

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
start-windows.bat

Linux/Mac selbst gehostete schnelle Start

Abhängigkeiten installieren

Docker (Community Edition ist in Ordnung)
Docker komponieren

Warum Docker? Um dies super einfach zu machen, um Cross -Plattformen einzurichten.

Bauen und rennen

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
docker-compose up zum Erstellen und Ausführen ( Hinweis: In Abhängigkeit von Ihrer Verteilung müssen Sie möglicherweise sudo docker-compose up verwenden ).
Alternativ können Sie separat bauen und laufen. docker-compose build und dann docker-compose up
Gehen Sie in Ihrem Browser zu http://localhost:3000

HINWEIS: Die erste Ausführung von docker-compose up wird eine Weile dauern, da dieser Befehl auch die Docker-Container erstellt. Nachfolgende Ausführungen von docker-compose up sollten schneller zu starten sein.

Handbuch installieren, bauen und starten

Backend

Abhängigkeiten

Python 3.5 +
ffmpeg

Bauen & rennen

cd backend/
pip install -r requirements.txt
python run.py

Frontend

Abhängigkeiten

Knoten & NPM
Erstellen von React-App
Garn - optional für schnellere Build, Installation und Start

Bauen & rennen

cd frontend/
npm install , alternativ yarn install
npm start , alternativ yarn start

Bald kommen!

Online, http://mimic.mycroft.ai gehostete Version, die Null -Setup erfordert.

Daten

Audioaufnahmen

WAV -Dateien

Audio wird als WAV -Dateien in backend/audio_file/{uuid}/ Verzeichnis gespeichert. Das Backend wird automatisch den Beginn und die endende Stille für alle WAV -Dateien mit FFMPEG abgebildet.

{uUid} -metadata.txt

Metadaten werden auch in backend/audio_file/{uuid}/ gespeichert. Diese Datei ordnet den WAV -Dateinamen dem gesprochenen Phrase ab. Dies zusammen mit den WAV -Dateien braucht das, was Sie zum Training Mimic 2 beginnen müssen.

Korpus

Im Moment haben wir einen englischen Corpus, english_corpus.csv zur Verfügung, das in backend/prompt/ zu finden ist. Um Ihren eigenen Korpus zu verwenden, befolgen Sie diese Schritte.

Erstellen Sie eine CSV -Datei im selben Format wie english_corpus.csv unter Verwendung der Registerkarten ( t ) als Trennzeichen.
Stellen Sie sicher, dass im Korpus keine leeren Linien enthalten sind
Fügen Sie Ihr Korpus zum backend/prompt -Verzeichnis hinzu.
Ändern Sie die CORPUS Umgebungsvariable in docker-compose.yml in Ihren Corpus-Namen.

Korpora in anderen Sprachen

Wenn Sie ein Korpus in einer anderen Sprache als Englisch entwickeln möchten, kann das Mimic Recording Studio verwendet werden, um Sprachaufnahmen für TTS -Stimmen in zusätzlichen Sprachen zu erstellen. Wenn Sie einen Korpus in einer anderen Sprache als Englisch bauen, empfehlen wir Ihnen, Phrasen auszuwählen, die:

treten in natürlicher, alltäglicher Sprache in der Zielsprache auf
eine Vielzahl von Saitenlängen haben
Decken Sie eine Vielzahl von Phonemen ab (grundlegende Klänge)

Wichtig: Im Moment müssen Sie die sqlite -Datenbank zurücksetzen, um einen neuen Korpus zu verwenden. Wenn Sie auf einem anderen Korpus aufgezeichnet haben und diese Daten speichern möchten, können Sie einfach Ihre sqlite -DB in backend/db/ in einen anderen Namen umbenennen. Das Backend erfasst, dass mimicstudio.db nicht da ist und eine neue für Sie erstellt. Sie können weiterhin Daten für Ihr neues Korpus aufzeichnen.

Technologien

Frontend

Die Web-Benutzeroberfläche wurde mit JavaScript erstellt und reagiert und erstellt React-App als Gerüst-Tool. Siehe CRA.MD, um mehr darüber zu erfahren, wie Sie mit Erstellen von React-Apps verwendet werden.

Funktionen

Audio aufnehmen und abspielen
Audiovisualisierung erzeugen
Metriken berechnen und anzeigen

Backend

Der Webdienst wird mit Python, Flask als Backend -Framework, Gunicorn als HTTP -Webserver und SQLite als Datenbank erstellt.

Funktionen

Audio verarbeiten
Dient Corpus- und Metrikendaten
Informationen in der Datenbank aufnehmen
Daten im Dateisystem aufzeichnen

Docker

Docker wird verwendet, um beide Anwendungen zu konstruieren. Standardmäßig verwendet der Frontend Network Port 3000 , während der Backend Networking Port 5000 verwendet. Sie können diese in der Datei docker-compose.yml konfigurieren.

Hinweis: Wenn Sie docker-registry ausführen, wird dies standardmäßig auf Port 5000 ausgeführt, sodass Sie den von Ihnen verwendeten Port ändern müssen.

Tipps aufnehmen

Die Erstellung einer Stimme erfordert eine erreichbare, aber erhebliche Anstrengung. Eine Person muss 15.000 - 20.000 Phrasen aufzeichnen. Um die bestmögliche Mimic -Stimme zu erhalten, müssen die Aufnahmen sauber und konsistent sein. Folgen Sie zu diesem Zweck folgende Empfehlungen:

Aufnehmen in einer ruhigen Umgebung mit Geräuschmaterial. Wenn Ihre Ohren externe Geräusche hören können, kann das Mikrofon auch. Für die besten Ergebnisse sollte selbst das Klimaanlagen durch eine Entlüftung vermieden werden. Nackte Wände erzeugen subtile Echos und Nachhall. Eine Schalldämpfungskabine ist ideal, aber Sie können auch ein hausgemachtes Aufnahmestudio mit weichen Materialien wie Akustikschaum in einem Schrank erstellen. Bettdecken und Matratzen können auch effektiv verwendet werden!
Sprechen Sie mit konsistenter Lautstärke und Geschwindigkeit. Das Durchsturm durch die Phrasen führt nur zu einer Stimme von geringerer Qualität.
Verwenden Sie ein Qualitätsmikrofon. Um konsistente Ergebnisse zu erzielen, empfehlen wir ein Headset -Mikrofon, so dass Ihr Mund immer der gleiche Abstand vom Mikrofon ist.
Vermeiden Sie Vokalermüdung. Machen Sie maximal 4 Stunden am Tag auf und machen Sie jede halbe Stunde eine Pause.
Sichern Sie Ihr Mimic-Recording-Studio-Verzeichnis regelmäßig, um Datenverlust zu vermeiden.

Fortschrittlich

Abfragedatenbankstruktur

Mimic-Recording-Studio schreibt alle Aufnahmen in einer SQLite-Datenbankdatei unter/Backend/DB/. Dies kann mit Datenbank -Tools wie DBeaver geöffnet werden.

Die Datenbank enthält zwei Tabellen.

Database_table_overview

Tabelle "Audiomodel"

Alle Aufnahmen sind in dieser Tabelle mit bestehen

Timestamp aufnehmen (erstellt_date)
UUID des Sprechers (übereinstimmt mit dem Dateisystempfad unter/backend/audio_files/id)
WAV -Dateiname im Dateisystem (audio_id)
Text der aufgezeichneten Phrase (Phrase)

Die Datenbank kann verwendet werden, um Ihre Aufzeichnungen abzufragen.

Hier sind einige Beispielfragen:

 -- List all recordings
SELECT * FROM audiomodel;

-- Lists recordings from january 2020 order by phrase
SELECT * FROM audiomodel WHERE created_date BETWEEN ' 2020-01-01 ' AND ' 2020-01-31 ' ORDER BY prompt;

-- Lists number of recordings per day
SELECT DATE (created_date), COUNT ( * ) AS RecordingsPerDay
FROM audiomodel
GROUP BY DATE (created_date )
ORDER BY DATE (created_date)

-- Shows average text length of recordings
SELECT AVG (LENGTH(prompt)) AS avgLength FROM audiomodel

Es gibt viele Möglichkeiten, wie die Abfrage der SQLite -Datenbank nützlich sein kann. Beispielsweise kann die Suche nach Aufnahmen in einem bestimmten Zeitbereich dazu beitragen, Aufnahmen in einer schlechten Umgebung zu entfernen.

Tabelle "Usmodel"

Mimic-Recording-Studio kann von mehr als einem Lautsprecher mit derselben SQLite-Datenbankdatei verwendet werden.

In diesem Tabellen werden folgende Informationen pro Sprecher angezeigt:

Eindeutige Kennung von Sprecher (UUID)
Name des Sprechers (user_name)
Die neueste aufgezeichnete Zeilennummer von Corpus (prompt_num)
Gesamtaufzeichnungszeit (Total_time_spoken)
Wie viele Zeichen wurden aufgezeichnet (len_char_spoken)

Diese Werte werden zur Berechnung von Metriken verwendet. Zum Beispiel kann das Sprech -Tempo zeigen, ob die aufgezeichnete Phrase im Vergleich zu früheren Aufnahmen zu schnell oder langsam ist.

Abfragetabelle "UsModel", um eine Liste von Sprechern wie UUID und einige Aufzeichnungsstatistiken zu erhalten.

 SELECT user_name AS [name], uuid FROM usermodel;

Database_table_Usermodel

Modifizieren Sie den Recorder UUID

Der Browser, mit dem Ihre Sätze aufgezeichnet wurden, bestehen bei den uuid und name in seiner Lokalstorie, um sie mit SQLite und Dateisystem synchron zu halten.

Wenn ein Problem auftritt und Ihr Browser die UUID-Zuordnung für Mimic-Recording-Studio verliert/ändert, können Sie Schwierigkeiten haben, eine frühere Aufzeichnungssitzung fortzusetzen. Aktualisieren Sie dann die folgenden zwei Attribute in LocalStorage Ihres Browsers:

UUID (Abfragetabelle "UsModel" oder überprüfen Sie den Dateisystempfad unter/backend/audio_files/)
Name (Abfragetabelle "UsModel")

Open Mimic Recording-Studio in Ihrem Browser, wenden Sie sich zu Webentwicklernoptionen, Lokalstor- und Setzen Sie den Namen und UUID auf die ursprünglichen Werte.

browser_local_storage

Danach sollten Sie in der Lage sein, Ihre vorherige Aufzeichnungssitzung ohne weitere Probleme fortzusetzen.

Bereitstellung Ihrer Aufnahme an Mycroft zum Training

Wir begrüßen Ihre Sprachspenden für Mycroft für die Verwendung in Text-zu-Sprach-Anwendungen. Wenn Sie Ihre Sprachaufzeichnungen anbieten möchten, müssen Sie sie uns unter der Creative Commons CC0 Public Domain -Lizenz lizenzieren, damit wir sie in TTS -Stimmen verwenden können - die abgeleiteten Werke sind. Wenn Sie bereit sind, Ihre Sprachaufnahmen zu spenden, senden Sie uns eine E -Mail an [email protected].