تنزيل TensorFlowTTS - تنزيل رمز المصدر TensorFlowTTS

TensorFlowTTS

كود الذكاء الاصطناعي

v1.8

تنزيل

؟ TensorFlowtts

في الوقت الحقيقي توليف خطاب في الوقت الفعلي لـ Tensorflow 2

؟ يوفر TensorFlowtts في الوقت الفعلي هياكل توليف الكلام في الوقت الفعلي مثل Tacotron-2 ، Melgan ، Multiband-Melgan ، Fastspeech ، Fastspeech2 على أساس التوتر 2. مع Tensorflow 2 ، يمكننا تشغيل النماذج المتوحرية على الأوقات المتداولة ، وتصبح أكثر من الوقت ، وتصرف على الأداء المتداول ، وتجعلها أكثر من الوقت. أنظمة مضمنة.

ما الجديد

2021/08/18 ( جديد! ) مدمج في مساحات Huggingface مع Gradio. انظر Gradio Web Demo.
2021/08/12 ( جديد! ) دعم TTS الفرنسية (Tacotron2 ، Multiband Melgan). الثابتة والمتنقلة انظر كولاب. شكرا جزيلا صموئيل ديلاليز
2021/06/01 مدمجة مع Huggingface Hub. انظر العلاقات العامة. شكرا باتريكفونبلاتن وأوسانسيفييرو
2021/03/18 دعم iOS لـ Fastspeade2 و MB Melgan. شكرا Kewlbear. انظر هنا
2021/01/18 دعم الاستدلال Tflite C ++. شكرا Luan78zaoha. انظر هنا
2020/12/02 دعم TTS الألمانية مع Thorsten Dataset. انظر كولاب. شكرا Thorstenmueller و Monatis
2020/11/24 أضف HIFI-GAN VOCODER. انظر هنا
2020/11/19 إضافة تراكم التدرج متعدد GPU. انظر هنا
2020/08/23 أضف تنفيذ موازي Wavegan TensorFlow. انظر هنا
2020/08/20 إضافة رمز الاستدلال C ++. شكرا Zdisket. انظر هنا
2020/08/18 قم بتحديث معالج قاعدة جديد. أضف ملف المعالج التلقائي ومعالج JSON
2020/08/14 دعم TTS الصيني. الثابتة والمتنقلة انظر كولاب. شكرا AZRAELKUAN
2020/08/05 دعم TTS الكورية. الثابتة والمتنقلة انظر كولاب. شكرا @crux153
2020/07/17 دعم multigpu لجميع المدربين
2020/07/05 دعم تحويل Tacotron-2 ، Fastspeech إلى tflite. الثابتة والمتنقلة انظر كولاب. شكرًا @Jaeyoo من فريق Tflite على دعمه
2020/06/20 تنفيذ Fastspeech2 مع TensorFlow مدعوم.
2020/06/07 تنفيذ Multi-Band Melgan (MB Melgan) مع TensorFlow مدعوم

سمات

أداء عالي على تخليق الكلام.
كن قادرًا على ضبط اللغات الأخرى.
سريع وقابل للتطوير وموثوق به.
مناسبة للنشر.
من السهل تنفيذ نموذج جديد ، على أساس خلاصة.
دقة مختلطة للتدريب السريع إن أمكن.
دعم متدرج واحد/متعدد GPU تراكم.
دعم كلاً من وحدة معالجة الرسومات الفردية/المتعددة في فئة المدرب الأساسي.
تحويل Tflite لجميع النماذج المدعومة.
مثال Android.
دعم العديد من اللغات (حاليًا ، نحن ندعم الصينية والكورية والإنجليزية والفرنسية والألمانية)
دعم C ++ الاستدلال.
دعم تحويل الوزن لبعض الطرز من Pytorch إلى TensorFlow لتسريع السرعة.

متطلبات

يتم اختبار هذا المستودع على Ubuntu 18.04 مع:

بيثون 3.7+
كودا 10.1
Cudnn 7.6.5
Tensorflow 2.2/2.3/2.4/2.5/2.6
addons TensorFlow> = 0.10.0

يجب أن يكون إصدار TensorFlow مختلفًا يعمل ولكن لم يتم اختباره بعد. سيحاول هذا الريبو العمل مع أحدث إصدار مستقر TensorFlow. نوصيك بتثبيت TensorFlow 2.6.0 للتدريب في حالة رغبتك في استخدام MultiGPU.

تثبيت

مع PIP

$ pip install TensorFlowTTS

من المصدر

يتم تضمين أمثلة في المستودع ولكن لا يتم شحنها مع الإطار. لذلك ، لتشغيل أحدث إصدار من الأمثلة ، تحتاج إلى تثبيت المصدر أدناه.

$ git clone https://github.com/TensorSpeech/TensorFlowTTS.git
$ cd TensorFlowTTS
$ pip install .

إذا كنت ترغب في ترقية المستودع وتبعياته:

$ git pull
$ pip install --upgrade .

البنى النموذجية المدعومة

يوفر TensorFlowtts حاليًا البنية التالية:

تم إصدار Melgan مع الورقة Melgan: شبكات الخصومة التوليدية لتوليف الموجة الشرطية من قبل Kundan Kumar ، Rithesh Kumar ، Thibault de Boissiere ، Lucas Gestin ، Wei Zhen Teoh ، Jose Sotelo ، Alexandre de Brebisson ، Yoshua Bengio ، Aaron Coursilville.
تم إصدار Tacotron-2 مع توليف TTS Natural Paper عن طريق تكييف Wavenet على تنبؤات MEL الطيفية من قبل جوناثان شين ، Ruoming Pang ، Ron J. Weiss ، Mike Schuster ، Navdeep Jaitly ، Zongheng Yang ، Zhifeng Chen ، Yu Zhang ، Yuxuan Wang ، rj skerry-raf. Yonghui وو.
تم إصدار Fastspeech مع Paper Fastspeech: نص سريع وقوي وقابل للتحكم في الكلام من قبل Yi Ren و Yangjun Ruan و Xu Tan و Tao Qin و Sheng Zhao و Zhou Zhao و Tie-Yan Liu.
تم إصدار Multi-Band Melgan مع Multi-Band Melgan: توليد موجة أسرع من أجل النص العالي الجودة من Geng Yang ، Shan Yang ، Kai Liu ، Peng Fang ، Wei Chen ، Lei Xie.
تم إصدار Fastspeade2 مع الورق Fastspeech 2: النص السريع والعالي الجودة إلى الكلام من قبل Yi Ren و Chenxu Hu و Xu Tan و Tao Qin و Sheng Zhao و Zhou Zhao و Tie-Yan Liu.
تم إصدار Wavegan الموازي مع Paper Parallel Wavegan: نموذج توليد الموجة السريعة على أساس شبكات الخصومة التوليدية مع طيف متعدد الدقة من Ryuichi Yamamoto ، Eunwoo Song ، Jae-Min Kim.
تم إصدار HIFI مع الورقة HIFI-GAN: شبكات الخصومة التوليدية لتوليف خطاب فعال وعالي الإخلاص بواسطة Jungil Kong و Jaehyeon Kim و Jaekyoung Bae.

نحن نقوم أيضًا بتنفيذ بعض التقنيات لتحسين الجودة وسرعة التقارب من الأوراق التالية:

فقدان الاهتمام الموجه الذي تم إطلاقه مع ورقة النص إلى الكلام القابل للتدريب بكفاءة استنادًا إلى شبكات تلافيفية عميقة مع الاهتمام الموجهة من قبل Hideyuki Tachibana ، Katsuya Uenoyama ، Shunsuke Aihara.

عينات الصوت

هنا في عينات صوتية على مجموعة صالحة. Tacotron-2 ، Fastspeech ، Melgan ، Melgan.Stft ، Fastspeade2 ، Multiband_Melgan

البرنامج التعليمي من طرف إلى طرف

إعداد مجموعة البيانات

قم بإعداد مجموعة بيانات بالتنسيق التالي:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wavs/
|       |- file1.wav
|       |- ...

حيث يحتوي metadata.csv على التنسيق التالي: id|transcription . هذا تنسيق يشبه LJSPEEDE. يمكنك تجاهل خطوات المعالجة المسبقة إذا كان لديك مجموعات بيانات تنسيق أخرى.

لاحظ أن NAME_DATASET يجب أن يكون [ljspeech/kss/baker/libritts/synpaflex] على سبيل المثال.

المعالجة المسبقة

المعالجة المسبقة لها خطوتين:

ميزات الصوت قبل المعالجة
- تحويل الأحرف إلى IDS
- حساب MEL Spectrograms
- تطبيع طيف ميل إلى [-1 ، 1] نطاق
- تقسيم مجموعة البيانات إلى القطار والتحقق من الصحة
- حساب الانحراف المعياري والمعياري لميزات متعددة من تقسيم التدريب
توحيد طيف MEL استنادًا إلى الإحصاءات المحسوبة

لإعادة إنتاج الخطوات المذكورة أعلاه:

 tensorflow-tts-preprocess --rootdir ./[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]
tensorflow-tts-normalize --rootdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/libritts/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]

في الوقت الحالي ، ندعم فقط ljspeech و kss و baker و libritts و thorsten و synpaflex للحصول على وسيطة مجموعة البيانات. في المستقبل ، نعتزم دعم المزيد من مجموعات البيانات.

ملاحظة : لتشغيل المعالجة المسبقة libritts ، يرجى أولاً قراءة التعليمات في أمثلة/fastspeech2_libritts. نحن بحاجة إلى إعادة تنسيقها أولاً قبل تشغيل المعالجة المسبقة.

ملاحظة : لتشغيل المعالجة المسبقة synpaflex ، يرجى أولاً تشغيل دفاتر دفاتر الملاحظات/prepared_synpaflex.ipynb. نحن بحاجة إلى إعادة تنسيقها أولاً قبل تشغيل المعالجة المسبقة.

بعد المعالجة المسبقة ، يجب أن يكون هيكل مجلد المشروع:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wav/
|       |- file1.wav
|       |- ...
|- dump_[ljspeech/kss/baker/libritts/thorsten]/
|   |- train/
|       |- ids/
|           |- LJ001-0001-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0001-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0001-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0001-wave.npy
|           |- ...
|   |- valid/
|       |- ids/
|           |- LJ001-0009-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0009-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0009-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0009-wave.npy
|           |- ...
|   |- stats.npy
|   |- stats_f0.npy
|   |- stats_energy.npy
|   |- train_utt_ids.npy
|   |- valid_utt_ids.npy
|- examples/
|   |- melgan/
|   |- fastspeech/
|   |- tacotron2/
|   ...

يحتوي stats.npy على المتوسط و std من طيف MEL SPLIT
يحتوي stats_energy.npy على متوسط وقيم الطاقة من تقسيم التدريب
يحتوي stats_f0.npy على متوسط وقيم F0 في تقسيم التدريب
train_utt_ids.npy / valid_utt_ids.npy يحتوي على معرفات التدريب والتحقق من صحة معرفات على التوالي

نحن نستخدم لاحقة ( ids ، raw-feats ، raw-energy ، raw-f0 ، norm-feats ، wave ) لكل نوع إدخال.

ملاحظات مهمة :

تعتمد خطوة المعالجة المسبقة على ESPNET حتى تتمكن من الجمع بين جميع النماذج هنا مع الطرز الأخرى من مستودع ESPNET.
بغض النظر عن كيفية تنسيق مجموعة البيانات الخاصة بك ، يجب على الهيكل النهائي لمجلد dump اتباع الهيكل أعلاه لتكون قادرًا على استخدام البرنامج النصي التدريبي ، أو يمكنك تعديله بنفسك؟

نماذج التدريب

لمعرفة كيفية تدريب النموذج من نقطة الصفر أو ضبطها مع مجموعات/لغات بيانات أخرى ، يرجى الاطلاع على التفاصيل في الدليل على سبيل المثال.

لبرنامج Tacotron-2 ، من فضلك انظر أمثلة/tacotron2
للحصول على تعليمي سريع ، من فضلك انظر الأمثلة/fastspeech
للحصول على برنامج تعليمي fastspeesh2 ، من فضلك انظر الأمثلة/fastspeech2
للحصول على برنامج Fastspeade2 + MFA Tutorial ، الرجاء راجع أمثلة/fastspeech2_libritts
للحصول على تعليمي Melgan ، من فضلك انظر الأمثلة/ميلغان
لبرنامج Melgan + STFT Loss Tutorial ، من فضلك انظر أمثلة/melgan.stft
للاطلاع على تعليمي متعدد الأطوار ، من فضلك انظر الأمثلة/multiband_melgan
للحصول على تعليمي Wavegan المتوازي ، من فضلك انظر أمثلة/parallel_wavegan
للحصول على مولد متعدد الأطوار + تعليمي HIFI ، من فضلك انظر الأمثلة/multiband_melgan_hf
لبرنامج تعليمي HIFI ، من فضلك انظر أمثلة/Hifigan

التفسير الطبقي التجريدي

مجردة Dataloader Tensorflow المستندة إلى مجموعة البيانات

تطبيق تفصيلي لفئة مجموعة البيانات التجريدية من TensorFlow_TTS/Dataset/Abstract_Dataset. هناك بعض الوظائف التي تحتاجها فوقها وفهمها:

get_args : هذه الوسيطة إرجاع الدالة لفئة المولد ، عادة ما تكون UTT_IDS.
المولد : تحتوي هذه الوظيفة على مدخلات من وظيفة GET_ARGS وإرجاع مدخلات للنماذج. لاحظ أننا نرجع قاموسًا لجميع وظائف المولد مع المفاتيح التي تتطابق تمامًا مع معلمات النموذج لأن BASE_TRAINER سيستخدم النموذج (** دفعة) للقيام بخطوة للأمام.
get_output_dtypes : تحتاج هذه الوظيفة إلى إرجاع dtypes لكل عنصر من وظيفة المولد .
get_len_dataset : إرجاع مجموعات البيانات ، Normaly هو LEN (UTT_IDS).

ملاحظات مهمة :

يجب أن يكون خط أنابيب لإنشاء مجموعة البيانات: ذاكرة التخزين المؤقت -> خلط ورق اللعب -> map_fn -> get_batch -> prefech.
إذا قمت بالخلط قبل ذاكرة التخزين المؤقت ، فلن تقوم مجموعة البيانات بخلطها عند إعادة تدويرها عبر مجموعات البيانات.
يجب عليك تطبيق MAP_FN لجعل كل عنصر عودة من وظيفة المولد له نفس الطول قبل الحصول على الدفعة وتغذيةها في نموذج.

بعض الأمثلة لاستخدام هذا Abstract_dataset هي tacotron_dataset.py ، fastspeade_dataset.py ، melgan_dataset.py ، fastspeech2_dataset.py

فئة المدرب التجريدي

تطبيق تفصيلي لـ base_trainer من TensorFlow_TTS/Trainer/Base_trainer.py. ويشمل SEQ2SeqBAndtrainer و Ganbaxertrainer يرثون من المستند إلى. يدعم جميع المدرب كلاً من وحدة معالجة الرسومات الفردية/متعددة. هناك بعض الوظائف التي يجب عليك الإفراط فيها عند تنفيذ new_trainer:

ترجمة : تهدف هذه الوظيفة إلى تحديد النماذج والخسائر.
cenderate_and_save_intermediate_result : ستوفر هذه الوظيفة النتيجة الوسيطة مثل: محاذاة المؤامرة ، حفظ الصوت الذي تم إنشاؤه ، رسم طيف الميل ...
compute_per_example_losses : ستحسب هذه الوظيفة per_example_loss للنموذج ، لاحظ أن جميع عناصر الخسارة يجب أن يكون لها شكل [batch_size].

يتم تدريب جميع النماذج الموجودة على هذا الريبو على أساس GanbaxerTrainer (انظر Train_melgan.py ، train_melgan_stft.py ، train_multiband_melgan.py) و seq2seqbasstrainer (انظر Train_tacotron2.py ، train_fastspech.py).

أمثلة من طرف إلى طرف

يمكنك معرفة كيفية استنتاج كل نموذج في دفاتر الملاحظات أو رؤية كولاب (للغة الإنجليزية) ، كولاب (للكوري) ، كولاب (للصينية) ، كولاب (للفرنسية) ، كولاب (للألمانية). فيما يلي رمز مثال لاستدلال End2end مع Fastspech2 و Melgan متعدد النطاق. قمنا بتحميل كل ما قبلنا في Huggingface Hub.

 import numpy as np
import soundfile as sf
import yaml

import tensorflow as tf

from tensorflow_tts . inference import TFAutoModel
from tensorflow_tts . inference import AutoProcessor

# initialize fastspeech2 model.
fastspeech2 = TFAutoModel . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )


# initialize mb_melgan model
mb_melgan = TFAutoModel . from_pretrained ( "tensorspeech/tts-mb_melgan-ljspeech-en" )


# inference
processor = AutoProcessor . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )

input_ids = processor . text_to_sequence ( "Recent research at Harvard has shown meditating for as little as 8 weeks, can actually increase the grey matter in the parts of the brain responsible for emotional regulation, and learning." )
# fastspeech inference

mel_before , mel_after , duration_outputs , _ , _ = fastspeech2 . inference (
    input_ids = tf . expand_dims ( tf . convert_to_tensor ( input_ids , dtype = tf . int32 ), 0 ),
    speaker_ids = tf . convert_to_tensor ([ 0 ], dtype = tf . int32 ),
    speed_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    f0_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    energy_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
)

# melgan inference
audio_before = mb_melgan . inference ( mel_before )[ 0 , :, 0 ]
audio_after = mb_melgan . inference ( mel_after )[ 0 , :, 0 ]

# save to file
sf . write ( './audio_before.wav' , audio_before , 22050 , "PCM_16" )
sf . write ( './audio_after.wav' , audio_after , 22050 , "PCM_16" )

اتصال

Minh Nguyen quan anh: [email protected]
erogol: [email protected]
كوان تشن: [email protected]
Dawid Kobus: [email protected]
takuya ebata: [email protected]
Trinh Le Quang: [email protected]
Yunchao HE: [email protected]
alejandro miguel velasquez: [email protected]

رخصة

جميع النماذج هنا مرخصة بموجب Apache 2.0

شكر وتقدير

نريد أن نشكر Tomoki Hayashi ، الذي ناقشنا الكثير عن Melgan و Multi-Band Melgan و Fastspeech و Tacotron. هذا الإطار يعتمد على مشروعه الرائع المفتوح المصدر الموازي.

يوسع

معلومات إضافية

الإصدار v1.8
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-21
الحجم 41.84MB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل