mimic recording studioダウンロード - mimic recording studioソースコードのダウンロード

mimic recording studio

AI ソースコード

v 0.1.1

ダウンロード

レコーディングスタジオを模倣します

レコーディングスタジオを模倣します
- ソフトウェアクイックスタート
  - Windows自己ホストのクイックスタート
  - Linux/Mac自己ホスト済みクイックスタート
    - 依存関係をインストールします
    - 構築して実行します
  - 手動インストール、構築、開始
    - バックエンド
      - 依存関係
      - ビルドと実行
    - フロントエンド
      - 依存関係
      - ビルドと実行
  - 近日公開！
- データ
  - オーディオ録音
    - WAVファイル
    - {uuid} -metadata.txt
  - コーパス
    - 他の言語のコーパス
- テクノロジー
  - フロントエンド
    - 関数
  - バックエンド
    - 関数
  - Docker
録音のヒント
高度な
- クエリデータベース構造
  - テーブル「audiomodel」
  - テーブル「Usermodel」
- レコーダーUUIDを変更します
トレーニングのためにMycroftに録音を提供します
貢献
サポートと支援を得る場所

MycroftのオープンソースMimic Technologiesは、書かれたテキストを撮影し、音声オーディオに変換するテキストツースピーチエンジンです。このテクノロジーの最新世代であるMimic 2は、機械学習技術を使用して、特定の言語を話すことができるモデルを作成し、訓練された声のように聞こえます。

Mimic Recording Studioは、個人からのトレーニングデータのコレクションを簡素化します。それぞれを使用して、Mimicの明確な音声を作成できます。

ソフトウェアクイックスタート

Windows自己ホストのクイックスタート

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
start-windows.bat

Linux/Mac自己ホスト済みクイックスタート

依存関係をインストールします

Docker（コミュニティエディションは大丈夫です）
Dockerは作曲します

なぜDocker？これを非常に簡単にセットアップしてクロスプラットフォームを実行できます。

構築して実行します

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
docker-compose up build and run（注：分布に応じてsudo docker-compose up使用する必要がある場合があります）
または、個別に構築および実行することもできます。 docker-compose build使用してから、 docker-compose up
ブラウザでは、 http://localhost:3000にアクセスしてください

注： docker-compose upの最初の実行には、このコマンドがDockerコンテナも構築するため、しばらく時間がかかります。 docker-compose upのその後の実行は、起動するのが迅速でなければなりません。

手動インストール、構築、開始

バックエンド

依存関係

Python 3.5 +
ffmpeg

ビルドと実行

cd backend/
pip install -r requirements.txt
python run.py

フロントエンド

依存関係

ノード＆npm
CREATE-REACT-APP
YARN-より高速なビルド、インストール、開始のためのオプション

ビルドと実行

cd frontend/
npm install 、代わりにyarn install
npm start 、代わりにyarn start

近日公開！

オンライン、http：//mimic.mycroft.aiホストバージョンはゼロセットアップを必要とします。

データ

オーディオ録音

WAVファイル

オーディオはbackend/audio_file/{uuid}/ディレクトリにWAVファイルとして保存されます。バックエンドは、FFMPEGを使用してすべてのWAVファイルの開始と終了の沈黙を自動的にトリミングします。

{uuid} -metadata.txt

メタデータもbackend/audio_file/{uuid}/に保存されます。このファイルは、WAVファイル名を話したフレーズにマッピングします。これは、WAVファイルとともに、Mimic 2のトレーニングを開始するために必要なものです。

コーパス

今のところ、英語のコーパス、 english_corpus.csvが利用可能になりましたbackend/prompt/独自のコーパスを使用するには、これらの手順に従ってください。

デリミッターとしてタブ（ t ）を使用して、 english_corpus.csvと同じ形式でCSVファイルを作成します。
コーパスに空の線がないことを確認してください
コーパスをbackend/promptディレクトリに追加します。
docker-compose.ymlのCORPUS環境変数をコーパス名に変更します。

他の言語のコーパス

英語以外の言語でコーパスを開発したい場合は、模倣レコーディングスタジオを使用して、追加の言語でTTSボイスの音声録音を作成できます。英語以外の言語でコーパスを構築している場合は、次のフレーズを選択することをお勧めします。

ターゲット言語で自然な日常の音声で発生します
さまざまな文字列の長さがあります
多種多様な音素（基本的な音）をカバーする

重要：今のところ、 sqliteデータベースをリセットして新しいコーパスを使用する必要があります。別のコーパスに記録し、そのデータを保存したい場合は、 backend/db/にあるsqlite DBを別の名前に変更するだけです。バックエンドは、 mimicstudio.dbがそこにないことを検出し、あなたのために新しいものを作成します。新しいコーパスのデータの記録を継続できます。

テクノロジー

フロントエンド

Web UIは、JavaScriptを使用して構築され、反応および作成反応アプリを足場ツールとして作成します。 CRA.MDを参照して、Create-React-Appの使用方法について詳しく調べてください。

関数

オーディオを記録して再生します
オーディオ視覚化を生成します
メトリックを計算して表示します

バックエンド

Webサービスは、Python、Flaskをバックエンドフレームワークとして、GunicornをHTTP Webサーバーとして、SQLiteをデータベースとして使用して構築されています。

関数

オーディオを処理します
コーパスデータとメトリックデータを提供します
データベースに情報を記録します
ファイルシステムにデータを記録します

Docker

Dockerは、両方のアプリケーションのコンテナ化に使用されます。デフォルトでは、フロントエンドはネットワークポート3000使用し、バックエンドはネットワークポート5000使用します。これらをdocker-compose.ymlファイルで構成できます。

注： docker-registryを実行している場合、これはポート5000でデフォルトで実行されるため、使用するポートを変更する必要があります。

録音のヒント

音声を作成するには、達成可能であるが多大な努力が必要です。個人は15,000〜20,000のフレーズを記録する必要があります。可能な限り最高の模倣音声を得るためには、録音は清潔で一貫性がある必要があります。そのために、次の推奨事項に従ってください。

ノイズ減衰材料を備えた静かな環境で記録します。耳が外側の騒音を聞くことができる場合、マイクもできます。最良の結果を得るには、通気口を吹く空調の音でさえ避ける必要があります。裸の壁は、微妙なエコーと反響を作り出します。サウンドダンプニングブースは理想的ですが、クローゼットにアコースティックフォームなどの柔らかい素材を使用して、自家製のレコーディングスタジオを作成することもできます。掛け布団やマットレスも効果的に使用できます！
一貫したボリュームと速度で話します。フレーズを突進すると、品質の音が低くなります。
高品質のマイクを使用します。一貫した結果を得るには、ヘッドセットマイクを推奨して、口が常にマイクから同じ距離になるようにします。
声の疲労を避けてください。 30分ごとに休憩を取って、1日に最大4時間を記録します。
データの損失を回避するために、定期的に模倣録音-Studioディレクトリをバックアップします。

高度な

クエリデータベース構造

Mimic-Recording-studioは、/backend/db/の下にあるSQLiteデータベースファイルにすべての録画を書き込みます。これは、dbeaverなどのデータベースツールで開くことができます。

データベースには2つのテーブルが含まれています。

database_table_overview

テーブル「audiomodel」

このテーブルでは、すべての録音が持続します

記録タイムスタンプ（created_date）
スピーカーのuuid（/backend/audio_files/idの下のファイルシステムパスに一致します）
ファイルシステムのWAVファイル名（audio_id）
録音されたフレーズのテキスト（フレーズ）

データベースを使用して録音を照会できます。

クエリの例を次に示します。

 -- List all recordings
SELECT * FROM audiomodel;

-- Lists recordings from january 2020 order by phrase
SELECT * FROM audiomodel WHERE created_date BETWEEN ' 2020-01-01 ' AND ' 2020-01-31 ' ORDER BY prompt;

-- Lists number of recordings per day
SELECT DATE (created_date), COUNT ( * ) AS RecordingsPerDay
FROM audiomodel
GROUP BY DATE (created_date )
ORDER BY DATE (created_date)

-- Shows average text length of recordings
SELECT AVG (LENGTH(prompt)) AS avgLength FROM audiomodel

SQLiteデータベースをクエリすることが役立つかもしれない多くの方法があります。たとえば、特定の時間範囲で録音を探すことは、悪い環境で行われた録音を削除するのに役立つかもしれません。

テーブル「Usermodel」

Mimic-Recording-studioは、同じSQLiteデータベースファイルを使用して複数のスピーカーで使用できます。

このテーブルは、スピーカーごとに次の情報を提供します。

スピーカーの一意の識別子（UUID）
スピーカー名（user_name）
コーパスの最新の録音ライン番号（prompt_num）
合計記録時間（total_time_spoken）
記録されたcharの数（len_char_spoken）

これらの値は、メトリックを計算するために使用されます。たとえば、録音されたフレーズが以前の録音と比較して速すぎるか遅すぎるかどうかを示す場合があります。

クエリテーブル「USERMODEL」では、UUIDを含むスピーカーのリストとそれらに関するいくつかの記録統計を取得します。

 SELECT user_name AS [name], uuid FROM usermodel;

database_table_usermodel

レコーダーUUIDを変更します

フレーズを録画するために使用されるブラウザは、sqliteとファイルシステムと同期し続けるために、ユーザーのuuidとname localStorageに持続させます。

問題が発生し、ブラウザが模倣録音の順にuuidマッピングを失う/変更すると、以前の録音セッションを継続するのが困難になる可能性があります。次に、ブラウザのLocalStorageで次の2つの属性を更新します。

uuid（クエリテーブル「usermodel」またはファイルシステムパスの下の/backend/audio_files/）
名前（クエリテーブル「Usermodel」）

ブラウザで模倣録画のstudioを開き、Webデベロイのオプション、LocalStorage、およびSet name and uuidにジャンプして元の値に合わせます。

browser_local_storage

その後、これ以上の問題なく以前の録音セッションを継続できるはずです。

トレーニングのためにMycroftに録音を提供します

テキストからスピーチのアプリケーションで使用するために、Mycroftへの声の寄付を歓迎します。音声録音を提供したい場合は、Creative Commons CC0パブリックドメインライセンスの下でそれらをライセンスして、TTS Voicesでそれらを利用できるようにする必要があります。音声録音を寄付する準備ができている場合は、[email protected]にメールしてください。

貢献

PRは喜んで受け入れられます！

サポートと支援を得る場所

Mimic Recording Studioでヘルプとサポートを得ることができます。

Mycroftフォーラム
Mycroftチャットで

拡大する

追加情報

バージョン v 0.1.1
タイプ AI ソースコード
更新時間 2025-08-20
サイズ 3.42MB
から Github