mimic recording studio Download - mimic recording studio Source Code Unduh

mimic recording studio

Kode Sumber AI

v 0.1.1

Unduh

Mimic Recording Studio

demo

Mimic Recording Studio
- Software Start Quick
  - Windows Mulai Cepat Self-Hosted
  - Linux/Mac Mulai Cepat Self-Hosted
    - Instal dependensi
    - Membangun dan menjalankan
  - Instal, Bangun, dan Mulai Manual
    - Backend
      - Dependensi
      - Bangun & Jalankan
    - Frontend
      - Dependensi
      - Bangun & Jalankan
  - Segera hadir!
- Data
  - Rekaman Audio
    - File wav
    - {uuid} -metadata.txt
  - Corpus
    - Korpora dalam bahasa lain
- Teknologi
  - Frontend
    - Fungsi
  - Backend
    - Fungsi
  - Buruh pelabuhan
Tip perekaman
Canggih
- Struktur database kueri
  - Tabel "AudioModel"
  - Tabel "Usermodel"
- Ubah perekam UUID
Memberikan rekaman Anda ke Mycroft untuk pelatihan
Kontribusi
Tempat Mendapatkan Dukungan dan Bantuan

Teknologi Mimic Open Source Mycroft adalah mesin teks-ke-pidato yang mengambil sepotong teks tertulis dan mengubahnya menjadi audio lisan. Generasi terbaru dari teknologi ini, Mimic 2, menggunakan teknik pembelajaran mesin untuk membuat model yang dapat berbicara bahasa tertentu, terdengar seperti suara yang dilatih.

Studio perekaman mimik menyederhanakan pengumpulan data pelatihan dari individu, yang masing -masing dapat digunakan untuk menghasilkan suara yang berbeda untuk Mimic.

Software Start Quick

Windows Mulai Cepat Self-Hosted

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
start-windows.bat

Linux/Mac Mulai Cepat Self-Hosted

Instal dependensi

Docker (Edisi Komunitas baik -baik saja)
Docker menyusun

Mengapa Docker? Untuk membuat ini sangat mudah diatur dan menjalankan platform lintas.

Membangun dan menjalankan

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
docker-compose up untuk membangun dan menjalankan ( Catatan: Anda mungkin perlu menggunakan sudo docker-compose up tergantung pada distribusi Anda )
Atau, Anda dapat membangun dan menjalankan secara terpisah. docker-compose build kemudian docker-compose up
Di browser Anda, buka http://localhost:3000

Catatan: Eksekusi pertama dari docker-compose up akan memakan waktu beberapa saat karena perintah ini juga akan membangun wadah Docker. Eksekusi selanjutnya dari docker-compose up harus lebih cepat boot.

Instal, Bangun, dan Mulai Manual

Backend

Dependensi

Python 3.5 +
ffmpeg

Bangun & Jalankan

cd backend/
pip install -r requirements.txt
python run.py

Frontend

Dependensi

Node & NPM
create-react-app
Benang - Opsional untuk Bangun, Instal, dan Mulai Lebih Cepat

Bangun & Jalankan

cd frontend/
npm install , yarn install alternatif
npm start , Alternatif yarn start

Segera hadir!

Online, http://mimic.mycroft.ai versi host yang membutuhkan pengaturan nol.

Data

Rekaman Audio

File wav

Audio disimpan sebagai file wav ke backend/audio_file/{uuid}/ direktori. Backend secara otomatis memangkas keheningan awal dan akhir untuk semua file WAV menggunakan FFMPEG.

{uuid} -metadata.txt

Metadata juga disimpan ke backend/audio_file/{uuid}/ . File ini memetakan nama file WAV ke frasa yang diucapkan. Ini bersama dengan file WAV adalah apa yang Anda butuhkan untuk memulai pelatihan Mimic 2.

Corpus

Untuk saat ini, kami memiliki corpus Inggris, english_corpus.csv tersedia yang dapat ditemukan di backend/prompt/ . Untuk menggunakan corpus Anda sendiri, ikuti langkah -langkah ini.

Buat file CSV dalam format yang sama seperti english_corpus.csv menggunakan tab ( t ) sebagai pembatas.
Pastikan tidak ada garis kosong di corpus
Tambahkan corpus Anda ke direktori backend/prompt .
Ubah variabel lingkungan CORPUS dalam docker-compose.yml ke nama corpus Anda.

Korpora dalam bahasa lain

Jika Anda ingin mengembangkan korpus dalam bahasa selain bahasa Inggris, maka meniru studio perekaman dapat digunakan untuk menghasilkan rekaman suara untuk suara TTS dalam bahasa tambahan. Jika Anda membangun corpus dalam bahasa selain bahasa Inggris, kami mendorong Anda untuk memilih frasa yang:

terjadi dalam pidato alami, sehari -hari dalam bahasa target
memiliki berbagai panjang string
Tutupi berbagai fonem (suara dasar)

PENTING: Untuk saat ini, Anda harus mengatur ulang basis data sqlite untuk menggunakan corpus baru. Jika Anda telah merekam pada korpus lain dan ingin menyimpan data itu, Anda dapat mengganti nama sqlite DB Anda yang ditemukan di backend/db/ ke nama lain. Backend akan mendeteksi bahwa mimicstudio.db tidak ada dan membuat yang baru untuk Anda. Anda dapat terus merekam data untuk corpus baru Anda.

Teknologi

Frontend

Web UI dibangun menggunakan JavaScript dan bereaksi dan membuat reaksi-reaksi sebagai alat perancah. Lihat CRA.MD untuk mengetahui lebih lanjut tentang cara menggunakan Create-React-App.

Fungsi

Rekam dan mainkan audio
Menghasilkan visualisasi audio
Hitung dan tampilkan metrik

Backend

Layanan Web dibangun menggunakan Python, Flask sebagai kerangka backend, Gunicorn sebagai server web HTTP, dan SQLite sebagai database.

Fungsi

Proses audio
Menyajikan data corpus dan metrik
Rekam info dalam database
Merekam data ke sistem file

Buruh pelabuhan

Docker digunakan untuk memuat kedua aplikasi. Secara default, frontend menggunakan port jaringan 3000 sementara backend menggunakan port jaringan 5000 . Anda dapat mengonfigurasi ini di file docker-compose.yml .

Catatan: Jika Anda menjalankan docker-registry , ini berjalan secara default pada port 5000 , jadi Anda perlu mengubah port mana yang Anda gunakan.

Tip perekaman

Menciptakan suara membutuhkan upaya yang dapat dicapai, tetapi signifikan. Seorang individu perlu merekam 15.000 - 20.000 frasa. Untuk mendapatkan suara mimik terbaik, rekaman harus bersih dan konsisten. Untuk itu, ikuti rekomendasi ini:

Catat dalam lingkungan yang tenang dengan bahan penguraian kebisingan. Jika telinga Anda dapat mendengar kebisingan luar, demikian juga mikrofonnya. Untuk hasil terbaik, bahkan suara AC yang bertiup melalui lubang ventilasi harus dihindari. Dinding telanjang menciptakan gema dan gema yang halus. Booth yang membasahi suara sangat ideal, tetapi Anda juga dapat membuat studio perekaman buatan sendiri menggunakan bahan lunak seperti busa akustik di lemari. Penyanyi dan kasur juga dapat digunakan secara efektif!
Bicaralah dengan volume dan kecepatan yang konsisten. Bergegas melalui frasa hanya akan menghasilkan suara berkualitas lebih rendah.
Gunakan mikrofon berkualitas. Untuk mendapatkan hasil yang konsisten, kami merekomendasikan mikrofon headset sehingga mulut Anda selalu jarak yang sama dari mikrofon.
Hindari kelelahan vokal. Catat maksimal 4 jam sehari, istirahat setiap setengah jam.
Cadangkan direktori studio perekaman mimik Anda secara teratur untuk menghindari kehilangan data.

Canggih

Struktur database kueri

Mimic-Recording-Studio menulis semua rekaman dalam file database SQLite yang terletak di bawah/backend/db/. Ini dapat dibuka dengan alat basis data seperti DBeaver.

Basis data mencakup dua tabel.

database_table_overview

Tabel "AudioModel"

Semua rekaman tetap ada di tabel ini dengan

Recording Timestamp (create_date)
uuid of speaker (cocok dengan jalur sistem file di bawah/backend/audio_files/id)
WAV FileName di Filesystem (Audio_ID)
Teks frasa yang direkam (frasa)

Basis data dapat digunakan untuk menanyakan rekaman Anda.

Berikut adalah beberapa contoh pertanyaan:

 -- List all recordings
SELECT * FROM audiomodel;

-- Lists recordings from january 2020 order by phrase
SELECT * FROM audiomodel WHERE created_date BETWEEN ' 2020-01-01 ' AND ' 2020-01-31 ' ORDER BY prompt;

-- Lists number of recordings per day
SELECT DATE (created_date), COUNT ( * ) AS RecordingsPerDay
FROM audiomodel
GROUP BY DATE (created_date )
ORDER BY DATE (created_date)

-- Shows average text length of recordings
SELECT AVG (LENGTH(prompt)) AS avgLength FROM audiomodel

Ada banyak cara yang menanyakan database SQLite mungkin berguna. Misalnya, mencari rekaman dalam rentang waktu tertentu dapat membantu menghapus rekaman yang dibuat di lingkungan yang buruk.

Tabel "Usermodel"

Mimic-Recording-Studio dapat digunakan oleh lebih dari satu speaker menggunakan file database SQLite yang sama.

Tabel ini memberikan informasi berikut per speaker:

Pengidentifikasi unik pembicara (UUID)
Nama speaker (user_name)
Jumlah jalur corpus yang direkam terbaru (prompt_num)
Total waktu perekaman (total_time_spoken)
Berapa banyak karakter yang telah direkam (len_char_spoken)

Nilai -nilai ini digunakan untuk menghitung metrik. Misalnya, kecepatan berbicara dapat menunjukkan jika frasa yang direkam terlalu cepat atau lambat dibandingkan dengan rekaman sebelumnya.

Tabel kueri "usermodel" untuk mendapatkan daftar pembicara termasuk UUID dan beberapa statistik perekaman pada mereka.

 SELECT user_name AS [name], uuid FROM usermodel;

database_table_usermodel

Ubah perekam UUID

Browser yang digunakan untuk merekam frasa Anda tetap ada pengguna uuid dan name di LocalStorage untuk membuatnya tetap sinkron dengan SQLite dan sistem file.

Jika masalah terjadi dan browser Anda kehilangan/mengubah pemetaan UUID untuk studio perekaman mimik Anda dapat mengalami kesulitan untuk melanjutkan sesi perekaman sebelumnya. Kemudian perbarui dua atribut berikut di LocalStorage di browser Anda:

uuid (tabel kueri "usermodel" atau periksa jalur sistem file di bawah/backend/audio_files/)
Nama (tabel query "usermodel")

Buka Mimic-Recording-Studio di browser Anda, lompat ke opsi pengembang web, LocalStorage dan atur nama dan UUID ke nilai asli.

browser_local_storage

Setelah itu Anda harus dapat melanjutkan sesi perekaman sebelumnya tanpa masalah lebih lanjut.

Memberikan rekaman Anda ke Mycroft untuk pelatihan

Kami menyambut donasi suara Anda ke MyCroft untuk digunakan dalam aplikasi teks-ke-pidato. Jika Anda ingin memberikan rekaman suara Anda, Anda harus melisensikannya kepada kami di bawah lisensi domain publik Creative Commons CC0 sehingga kami dapat menggunakannya dalam suara TTS - yang merupakan karya turunan. Jika Anda siap menyumbangkan rekaman suara Anda, email kami di [email protected].