التنزيل CogNative - تنزيل رمز المصدر CogNative

CogNative

كود الذكاء الاصطناعي

1.0.0

تنزيل

معرفي

التوليف الصوتي المترجم

استنساخ الكلام صوت وإخراج بلغة أخرى مع الصوت الأصلي.

تثبيت

1. تثبيت Python:

ينصح بيثون 3.7. مطلوب Python 3.7 ، بسبب إصدار TensorFlow المستخدم في هذا المشروع.

2. إنشاء بيئة افتراضية (اختياري):

python3 -m venv pyvenv

تنشيط البيئة الظاهرية source pyvenv/bin/activate Windows ./pyvenv/Scripts/activate

إلغاء تنشيط البيئة الافتراضية: deactivate

ملاحظة: قد تتسبب بيئتك الافتراضية في بيثون في تشغيل واجهة المستخدم.

3. تثبيت FFMPEG.

بمجرد تثبيته ، قم باستخراج المجلد وأضف <ffmpeg folder path>/bin إلى المسار.

4. تثبيت Pytorch:

بناء Pytorch: مستقر (1.11.0).
نظام التشغيل الخاص بك: اختر نظام التشغيل الذي تعمل بيئتك المعرفية (الموصى بها Windows أو Linux).
الحزمة: اختر ما هو تثبيت الحزمة الذي تستخدمه (موصى به PIP).
اللغة: بيثون.
حساب منصة: CUDA 11.3 الموصى بها. إذا لم يكن لديك وحدة المعالجة المركزية GPU Pick.

5. تثبيت حزم بيثون المطلوبة:

pip3 install -r requirements.txt

6. تثبيت النماذج.

بمجرد التنزيل ، أضف النماذج (*.PT) إلى CogNative/CogNative/models/RTVC/saved_models/default

يجب تنزيل المجلد TACO_PRETREED (بما في ذلك المجلد نفسه) وإضافته إلى CogNative/CogNative/models/RTVCSwedish/synthesizer/saved_models/swedish

7. إنشاء بيانات اعتماد Google Cloud:

اتبع الخطوات لإعداد بيانات اعتماد Google Cloud.
أضف بيانات اعتماد Google إلى credentials.json في الدليل الأعلى. يوجد حاليًا ملفًا يسمى credentials.json.template ، يجب على credentials.json الخاصة بك مطابقة أزواج المفتاح/القيمة الموضحة هناك.

الاستخدام

ابدأ من دليل الجذر المعرفي.

واجهة المستخدم الرسومية

لإطلاق واجهة المستخدم الرسومية ، قم بتشغيل python -m CogNative.testUI.UI

CLI

أي أعلام ضرورية غير محددة ستؤدي إلى إنشاء مطالبة يجب الإجابة عليها قبل المتابعة. أمثلة تتبع.

عرض رسالة المساعدة: python -m CogNative.main -help

 CogNative CLI FLags:
    -sampleAudio <PATH>: audio file of voice to clone
    -synType <text, audio>: synthesis mode either given input text or by transcribing audio file
    [-dialogueAudio] <PATH>: for audio synType, audio file of dialogue to speak
    [-dialogueText] <PATH>: for text synType, text string of dialogue to speak
    -out <PATH>: output audio file path
    -useExistingEmbed <y/yes/n/no>: Uses saved embedding of previously used voice samples if enabled and present.

توليد صوت مستنسخ من عينة الصوت والنص الإدخال: python -m CogNative.main -sampleAudio CogNative/examples/MatthewM66.wav -synType text -dialogueText "The turbo-encabulator has now reached a high level of development, and it's being successfully used in the operation of novertrunnions." -out cmdExampleText.wav -useExistingEmbed y

 Loaded encoder "english_encoder.pt" trained to step 1564501
Synthesizer using device: cuda
Building Wave-RNN
Trainable Parameters: 4.481M
Loading model weights at CogNativemodelsRTVCsaved_modelsdefaultvocoder.pt
Synthesizing...
Clone output to cmdExampleText.wav

إنشاء صوت مستنسخ من نموذج إدخال الصوت والصوت: python -m CogNative.main -sampleAudio CogNativeexamplesMatthewM66.wav -synType audio -dialogueAudio CogNativeexamplesBillMaher22.wav -out cmdExampleAudio.wav -useExistingEmbed n

 Loaded encoder "english_encoder.pt" trained to step 1564501
Synthesizer using device: cuda
Building Wave-RNN
Trainable Parameters: 4.481M
Loading model weights at CogNativemodelsRTVCsaved_modelsdefaultvocoder.pt
Loading requested file...
Synthesizing...
Clone output to cmdExampleAudio.wav

البرامج النصية Autotranslate

سيقوم هذا البرنامج النصي بترجمة الصوت من لغة مدعومة إلى اللغة الإنجليزية. لاستخدام البرنامج النصي التلقائي على Windows ، اسحب ملف الصوت وإسقاطه على البرنامج النصي أو وضع اختصار إلى البرنامج النصي في %AppData%MicrosoftWindowsSendTo واستخدم وظيفة قائمة "إرسال إلى" على ملف الصوت المطلوب ترجمته. في كلتا الحالتين ، سيتم وضع ملف .wav جديد مع اسم الملف الزائد متبوعًا بـ "لغة الوجهة + +" في نفس المجلد. بالنسبة للمنصات الأخرى ، يجب استخدام نفس أعلام CLI ولكن تفاصيل تكامل قائمة السياق ستختلف من خلال تثبيت الحزم.