mimic recording studio Download - mimic recording studio Source Code Download

mimic recording studio

كود الذكاء الاصطناعي

v 0.1.1

تنزيل

تقليد استوديو التسجيل

العرض التوضيحي

تقليد استوديو التسجيل
- برنامج سريع للبرنامج
  - بداية سريعة مستضافة ذاتيا Windows
  - بداية سريعة من Linux/Mac مستضيف ذاتي
    - تثبيت التبعيات
    - بناء وتشغيل
  - التثبيت اليدوي والبناء والبدء
    - الخلفية
      - التبعيات
      - بناء وتشغيل
    - الواجهة
      - التبعيات
      - بناء وتشغيل
  - قريباً!
- بيانات
  - تسجيلات الصوت
    - ملفات WAV
    - {uuid} -metadata.txt
  - مجموعة
    - كورورا بلغات أخرى
- التقنيات
  - الواجهة
    - وظائف
  - الخلفية
    - وظائف
  - عامل ميناء
نصائح تسجيل
متقدم
- بنية قاعدة بيانات الاستعلام
  - الجدول "AudioModel"
  - الجدول "Usermodel"
- تعديل مسجل UUID
توفير تسجيلك إلى Mycroft للتدريب
مساهمات
أين تحصل على الدعم والمساعدة

إن تقنيات MyCroft Open Source هي محركات نص إلى كلام تأخذ قطعة من النص المكتوب وتحويلها إلى صوت منطوق. يستخدم الجيل الأخير من هذه التقنية ، Mimic 2 ، تقنيات التعلم الآلي لإنشاء نموذج يمكنه التحدث بلغة معينة ، يبدو مثل الصوت الذي تم تدريبه عليه.

يقوم استوديو التسجيل المحاكي بتبسيط مجموعة بيانات التدريب من الأفراد ، يمكن استخدام كل منها لإنتاج صوت متميز للتقليد.

برنامج سريع للبرنامج

بداية سريعة مستضافة ذاتيا Windows

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
start-windows.bat

بداية سريعة من Linux/Mac مستضيف ذاتي

تثبيت التبعيات

DOCKER (طبعة المجتمع على ما يرام)
Docker Compose

لماذا Docker؟ لجعل هذا من السهل إعداد وتشغيل منصات متقاطعة.

بناء وتشغيل

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
docker-compose up للإنشاء والتشغيل ( ملاحظة: قد تحتاج إلى استخدام sudo docker-compose up اعتمادًا على توزيعك )
بدلاً من ذلك ، يمكنك بناء وتشغيل بشكل منفصل. docker-compose build ثم docker-compose up
في متصفحك ، انتقل إلى http://localhost:3000

ملاحظة: سيستغرق التنفيذ الأول لـ docker-compose up بعض الوقت لأن هذا الأمر سيقوم أيضًا ببناء حاويات Docker. يجب أن تكون عمليات الإعدام اللاحقة لـ docker-compose up أسرع للتمهيد.

التثبيت اليدوي والبناء والبدء

الخلفية

التبعيات

بيثون 3.5 +
FFMPEG

بناء وتشغيل

cd backend/
pip install -r requirements.txt
python run.py

الواجهة

التبعيات

العقدة و NPM
إنشاء التفاعل
الغزل - اختياري للبناء والتثبيت والبدء بشكل أسرع

بناء وتشغيل

cd frontend/
npm install ، بدلاً من ذلك yarn install
npm start ، وبدلاً من ذلك ، yarn start

قريباً!

عبر الإنترنت ، http://mimic.mycroft.ai نسخة مستضافة تتطلب صفر الإعداد.

بيانات

تسجيلات الصوت

ملفات WAV

يتم حفظ الصوت كملفات WAV إلى backend/audio_file/{uuid}/ الدليل. يدمر الواجهة الخلفية تلقائيًا البداية وإنهاء الصمت لجميع ملفات WAV باستخدام FFMPEG.

{uuid} -metadata.txt

يتم حفظ البيانات الوصفية أيضًا إلى backend/audio_file/{uuid}/ . يقوم هذا الملف بتخطيط اسم ملف WAV إلى العبارة المنطوقة. هذا جنبا إلى جنب مع ملفات WAV هي ما تحتاجه للبدء في التدريب Mimic 2.

مجموعة

في الوقت الحالي ، لدينا مجموعة إنجليزية ، english_corpus.csv المتاحة والتي يمكن العثور عليها في backend/prompt/ . لاستخدام المجموعة الخاصة بك اتبع هذه الخطوات.

قم بإنشاء ملف CSV بنفس التنسيق مثل english_corpus.csv باستخدام علامات التبويب ( t ) كحدد.
تأكد من عدم وجود خطوط فارغة في المجموعة
أضف مجموعةك إلى الدليل backend/prompt .
قم بتغيير متغير بيئة CORPUS في docker-compose.yml إلى اسم المجموعة.

كورورا بلغات أخرى

إذا كنت ترغب في تطوير مجموعة بلغة أخرى غير اللغة الإنجليزية ، فيمكن استخدام استوديو التسجيل لإنتاج تسجيلات صوتية لأصوات TTS بلغات إضافية. إذا كنت تقوم ببناء مجموعة بلغة أخرى غير اللغة الإنجليزية ، فنحن نشجعك على اختيار العبارات التي:

تحدث في الكلام الطبيعي اليومي باللغة المستهدفة
لديك مجموعة متنوعة من أطوال السلسلة
تغطية مجموعة واسعة من الصوتيات (الأصوات الأساسية)

هام: في الوقت الحالي ، يجب عليك إعادة تعيين قاعدة بيانات sqlite لاستخدام مجموعة جديدة. إذا قمت بالتسجيل على مجموعة أخرى وترغب في حفظ هذه البيانات ، فيمكنك ببساطة إعادة تسمية sqlite DB الموجودة في backend/db/ إلى اسم آخر. سوف تكتشف الواجهة الخلفية أن mimicstudio.db ليس موجودًا وإنشاء واحدة جديدة لك. يمكنك متابعة تسجيل البيانات لجسمك الجديد.

التقنيات

الواجهة

تم تصميم واجهة المستخدم على الويب باستخدام JavaScript و React و Create-React-App كأداة سقالة. ارجع إلى CRA.MD لمعرفة المزيد حول كيفية استخدام Create-React-App.

وظائف

تسجيل وتشغيل الصوت
توليد التصور الصوتي
حساب المقاييس وعرضها

الخلفية

تم تصميم خدمة الويب باستخدام Python و Flask كإطار عمل خلفي و Gunicorn كخادم HTTP و SQLite كقاعدة بيانات.

وظائف

معالجة الصوت
يخدم بيانات مجموعة ومقاييس
تسجيل المعلومات في قاعدة البيانات
تسجيل البيانات على نظام الملفات

عامل ميناء

يتم استخدام Docker لتحديد كلا التطبيقات. بشكل افتراضي ، تستخدم الواجهة الأمامية منفذ الشبكة 3000 بينما تستخدم الواجهة الخلفية منفذ الشبكات 5000 . يمكنك تكوين هذه في ملف docker-compose.yml .

ملاحظة: إذا كنت تقوم بتشغيل docker-registry ، فسيتم تشغيل هذا افتراضيًا على المنفذ 5000 ، لذلك ستحتاج إلى تغيير المنفذ الذي تستخدمه.

نصائح تسجيل

يتطلب إنشاء صوت جهدًا قابلاً للتحقيق ، ولكنه مهم. سيحتاج الفرد إلى تسجيل 15000 - 20،000 عبوة. من أجل الحصول على أفضل صوت محاكي ممكن ، يجب أن تكون التسجيلات نظيفة ومتسقة. تحقيقا لهذه الغاية ، اتبع هذه التوصيات:

سجل في بيئة هادئة مع مواد تخفيض الضوضاء. إذا تمكنت أذنيك من سماع الضوضاء الخارجية ، فهل يمكن للميكروفون. للحصول على أفضل النتائج ، يجب تجنب صوت تكييف الهواء الذي ينفخ من خلال تنفيس. الجدران العارية تخلق أصداء خفية وصدى. تعتبر كشك رطب الصوت مثاليًا ، ولكن يمكنك أيضًا إنشاء استوديو تسجيل محلي الصنع باستخدام مواد ناعمة مثل الرغوة الصوتية في خزانة. يمكن أيضًا استخدام المعاكن والمراتب بشكل فعال!
تحدث في حجم وسرعة ثابتة. الهرء من خلال العبارات لن يؤدي إلا إلى صوت أقل جودة.
استخدام الميكروفون جودة. للحصول على نتائج متسقة ، نوصي بميكروفون سماعات الرأس بحيث يكون فمك دائمًا نفس المسافة من الميكروفون.
تجنب التعب الصوتي. سجل بحد أقصى 4 ساعات في اليوم ، وأخذ استراحة كل نصف ساعة.
النسخ الاحتياطي لدليل مرصع التقليد على أساس منتظم لتجنب فقدان البيانات.

متقدم

بنية قاعدة بيانات الاستعلام

يكتب Mimic-Recording-Studio جميع التسجيلات في ملف قاعدة بيانات SQLite الموجود تحت/الخلفية/DB/. يمكن فتح هذا باستخدام أدوات قاعدة البيانات مثل DBeaver.

تتضمن قاعدة البيانات جدولين.

database_table_overview

الجدول "AudioModel"

استمرت جميع التسجيلات في هذا الجدول مع

تسجيل الطابع الزمني (create_date)
uuid من السماعة (يتطابق مع مسار نظام الملفات تحت/الخلفية/audio_files/id)
اسم ملف WAV في نظام الملفات (Audio_id)
نص العبارة المسجلة (عبارة)

يمكن استخدام قاعدة البيانات للاستعلام عن تسجيلاتك.

فيما يلي بعض الاستفسارات على سبيل المثال:

 -- List all recordings
SELECT * FROM audiomodel;

-- Lists recordings from january 2020 order by phrase
SELECT * FROM audiomodel WHERE created_date BETWEEN ' 2020-01-01 ' AND ' 2020-01-31 ' ORDER BY prompt;

-- Lists number of recordings per day
SELECT DATE (created_date), COUNT ( * ) AS RecordingsPerDay
FROM audiomodel
GROUP BY DATE (created_date )
ORDER BY DATE (created_date)

-- Shows average text length of recordings
SELECT AVG (LENGTH(prompt)) AS avgLength FROM audiomodel

هناك العديد من الطرق التي قد يكون الاستعلام عن قاعدة بيانات SQLite مفيدة. على سبيل المثال ، قد يساعد البحث عن تسجيلات في نطاق زمني محدد على إزالة التسجيلات التي تم إجراؤها في بيئة سيئة.

الجدول "Usermodel"

يمكن استخدام مراقبة التقليد من قبل أكثر من مكبر صوت باستخدام نفس ملف قاعدة بيانات SQLite.

توفر هذه الجداول المعلومات التالية لكل متحدث:

معرف فريد من مكبر الصوت (UUID)
اسم السماعة (user_name)
أحدث خط مسجل من corpus (ormper_num)
إجمالي وقت التسجيل (Total_time_spoken)
كم عدد chars تم تسجيله (len_char_spoken)

يتم استخدام هذه القيم لحساب المقاييس. على سبيل المثال ، قد تظهر وتيرة التحدث ما إذا كانت العبارة المسجلة سريعة جدًا أو بطيئة مقارنة بالتسجيلات السابقة.

جدول الاستعلام "UserModel" للحصول على قائمة من المتحدثين بما في ذلك UUID وبعض إحصائيات التسجيل عليها.

 SELECT user_name AS [name], uuid FROM usermodel;

database_table_usermodel

تعديل مسجل UUID

يستمر المتصفح المستخدم لتسجيل عباراتك المستخدمين uuid name في LocalStorage لإبقائه متزامنًا مع SQLite ونظام الملفات.

في حالة حدوث مشكلة وفقد متصفحك/يغير رسم خرائط UUID من أجل التقليد-قد تواجه صعوبات في مواصلة جلسة تسجيل سابقة. ثم قم بتحديث السمتين التاليتين في LocalStorage من متصفحك:

UUID (جدول الاستعلام "UserModel" أو تحقق من مسار نظام الملفات تحت/الخلفية/Audio_Files/)
الاسم (جدول الاستعلام "UserModel")

افتح-مرصع بالتقليد في متصفحك ، وقفز إلى خيارات تطوير الويب ، و LocalStorage ، وضبط الاسم و UUID على القيم الأصلية.

Browser_Local_Storage

بعد ذلك ، يجب أن تكون قادرًا على متابعة جلسة التسجيل السابقة دون أي مشاكل أخرى.

توفير تسجيلك إلى Mycroft للتدريب

نرحب بالتبرعات الصوتية الخاصة بك إلى MyCroft لاستخدامها في تطبيقات النص إلى كلام. إذا كنت ترغب في تقديم تسجيلات الصوت الخاصة بك ، فيجب عليك ترخيصها لنا تحت رخصة المجال العام Creative CC0 حتى نتمكن من استخدامها في أصوات TTS - وهي أعمال مشتقة. إذا كنت مستعدًا للتبرع بتسجيلات الصوت الخاصة بك ، فأرسلنا بالبريد الإلكتروني على [email protected].