ดาวน์โหลด OSM one shot multispeaker OSM one shot multispeaker

OSM one shot multispeaker

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

OSM: Speaker One-shot

คำสั่งปัญหา

ระบบการพูดหลายลำโพงแบบหลายลำกล้อง (OS MS TTS) มีวัตถุประสงค์เพื่อแปลงข้อความเป็นคำพูดด้วยเสียงที่กำหนดโดยตัวอย่างเดียวขนาดเล็ก ปัญหาหลักที่นี่คือการทำซ้ำเสียงที่มองไม่เห็นใหม่โดยไม่ต้องฝึกอบรมเครือข่ายใหม่ มีวิธีการที่มีสามขั้นตอนหลักที่ใช้ในการแก้ปัญหานี้ ที่ไม่ซ้ำกันสำหรับการฝังตัวลำโพงแต่ละตัวซึ่งเปิดเผยลักษณะเสียงถูกสร้างขึ้นในขั้นตอนแรก ( ตัวเข้ารหัสลำโพง ) ในขั้นตอนที่สอง ( synthesizer ) ข้อความจะถูกเปลี่ยนเป็น mel-spectrogram โดยใช้การฝังตัวที่ได้ก่อนหน้านี้ ในที่สุดคำพูดจะถูกทำซ้ำจาก mel-spectrogram กับ คำร้อง แต่ไม่มีการใช้งานกับทั้งสามส่วนรวมกันอย่างเหมาะสม ดังนั้นเป้าหมายของโครงการของเราคือการสร้างเฟรมเวิร์กที่ยืดหยุ่นเพื่อรวมชิ้นส่วนเหล่านี้และจัดทำโมดูลและวิธีการที่เปลี่ยนได้ในแต่ละส่วน

ความท้าทายหลัก

ตอนนี้เราเห็นความท้าทายหลักต่อไปนี้:

การแก้ปัญหาของเราประกอบด้วยสามงานย่อยซึ่งมีวิธีแก้ปัญหาที่ยอดเยี่ยมอยู่แล้ว ดังนั้นโซลูชันที่มีอยู่สำหรับ OS MS TTS จึงเป็นการรวบรวมวิธีแก้ปัญหาสำหรับปัญหาเหล่านี้ซึ่งมีโซลูชั่นสำเร็จรูปและการทำดีมากมาย ความท้าทายหลักคือการทำให้เฟรมเวิร์กมีความยืดหยุ่นและตรวจสอบให้แน่ใจว่าเข้ากันได้ของแต่ละส่วน
วิธีการที่ใช้ในแต่ละภารกิจย่อยแตกต่างกันในชุดพารามิเตอร์และลักษณะของอัลกอริทึม ดังนั้นจึงค่อนข้างยากที่จะให้ API เดียว

การแก้ปัญหาพื้นฐาน

เราเลือกโซลูชันที่เสนอโดยผู้สอนเป็นพื้นฐานซึ่งสามารถพบได้ที่นี่ มันคือการใช้งานของ [1] ที่ทำใน Google ในปี 2018 ที่นี่ผู้เขียนใช้ตัวเข้ารหัสลำโพงที่นำเสนอใน [2] ซึ่งสร้างเวกเตอร์ฝังมิติแบบคงที่ที่เรียกว่า D-vector สำหรับซินธิไซเซอร์พวกเขาใช้โมเดลที่ใช้ Tacotron 2 [3] ในขณะที่ใช้ Wavenet แบบเร่งความเร็วโดยอัตโนมัติถูกใช้เป็น Vocoder [4] ภาพต่อไปนี้ที่นำมาจาก [1] หมายถึงภาพรวมของแบบจำลอง:

ข้อดีและข้อเสีย

การโคลนนิ่งแบบเรียลไทม์ประกอบด้วยการรับรู้ของ encoder, Tacotron 2 และ Wavernn ไปป์ไลน์ทั้งหมดที่อธิบายไว้ใน [1] รวมถึงขั้นตอนการประมวลผลล่วงหน้ายังถูกนำไปใช้ในที่เก็บนี้ อย่างไรก็ตามโครงการไม่ยืดหยุ่นเพียงพอ โดยเฉพาะอย่างยิ่งในสถานะปัจจุบันไม่สามารถใช้เป็นเฟรมเวิร์กสำหรับระบบข้อความหลายลำโพงต่อการพูดหลายครั้งเนื่องจากไม่มีกลไกที่สะดวกสำหรับการจัดการกับโมดูลหลักสามโมดูล ตัวอย่างเช่นระบบ TTS หลายลำโพงที่เสนอใน [5] ไม่สามารถนำไปใช้ได้อย่างง่ายดายด้วยความช่วยเหลือของการโคลนนิ่งแบบเรียลไทม์เนื่องจากไม่มีจุดขยายความสามารถซึ่งอนุญาตให้ปรับท่อสำหรับวิธีใหม่

การปรับปรุงของเรา

แผนของเราคือการใช้การโคลนนิ่งแบบเรียลไทม์เป็นจุดเริ่มต้นด้วยพื้นฐานที่ใช้งาน เราจะแนะนำการออกแบบโมดูลาร์ที่ยืดหยุ่นของเฟรมเวิร์ก วิธีการดังกล่าวจะช่วยให้เราสร้าง API ที่สะดวกสำหรับผู้ใช้ภายนอกที่จะสามารถใช้เฟรมเวิร์กของเราสำหรับการรวมระบบ TTS หลายลำโพงไว้ในผลิตภัณฑ์ของพวกเขา API จะช่วยให้ผู้ใช้ปรับแต่งโมดูลและขั้นตอนไปป์ไลน์โดยไม่ต้องเปลี่ยนซอร์สโค้ดของเฟรมเวิร์กหากจำเป็น เราจะใช้เครื่องเข้ารหัสลำโพงหลายตัว (LDE, TDNN) และเพิ่มลงในกรอบของเราเช่นกัน

ภาพรวมโครงสร้างโครงการ

จากจุดสูงโครงการของเราประกอบด้วย 3 องค์ประกอบหลัก: ลำโพงตัวเข้ารหัส, ซินธิไซเซอร์, Vocoder สำหรับแต่ละคนผู้จัดการจะถูกนำไปใช้ซึ่งอนุญาตให้หนึ่งสามารถเข้าถึงพารามิเตอร์และดำเนินการมาตรฐานเช่นการอนุมานและการฝึกอบรม ข้างบนเราใช้ OS MS MS TTS Manager ซึ่งรวบรวมทั้งสามส่วนเข้าด้วยกันและอนุญาตให้หนึ่งสามารถทำท่อทั้งหมดและผลิตคำพูดด้วยเสียงที่จำเป็น แต่ละส่วนเหล่านี้ยังประกอบด้วยส่วนย่อยพื้นฐานทั่วไปสำหรับองค์ประกอบที่สอดคล้องกัน พวกเขาสามารถอธิบายได้ดังนี้:

ลำโพงตัวเข้ารหัส : ที่นี่คลาสพื้นฐานคือ SpeakerenCoderManager ซึ่งอนุญาตให้ฝึกอบรมและจำลองการอนุมาน นอกจากนี้เราได้นำอินเทอร์เฟซการประมวลผลล่วงหน้าของ WAV Audio ไปแล้ว ดังนั้นหนึ่งสามารถปรับแต่งฟังก์ชั่นการประมวลผลเสียงของตนเองซึ่งอาจแตกต่างกันแม้สำหรับชุดข้อมูลเดียวกัน นอกจากนี้ยังสามารถใช้โมเดลที่กำหนดเองได้ เราเพิ่มฟังก์ชั่นการประมวลผลล่วงหน้ามาตรฐานและโมเดลที่นำเสนอในการโคลนนิ่งแบบเรียลไทม์
Synthesizer : ที่นี่คลาสพื้นฐานคือ SynthesizerManager ซึ่งอนุญาตให้ฝึกอบรมและการอนุมานแบบจำลอง นอกจากนี้สถานการณ์เดียวกันกับฟังก์ชั่นการประมวลผลล่วงหน้าиด้วยความแตกต่างอย่างหนึ่ง นอกเหนือจากเสียงแล้วยังต้องประมวลผลข้อความ สำหรับตอนนี้เราใช้ฟังก์ชั่นการประมวลผลข้อความและเสียงล่วงหน้าเนื่องจากการดำเนินการเหล่านี้เป็นสิ่งจำเป็นในระหว่างการอนุมานและการฝึกอบรม พื้นฐานมาจากการโคลนนิ่งแบบเรียลไทม์
Vocoder : นี่คือคลาสพื้นฐานคือ VocoderManager ซึ่งอนุญาตให้ฝึกอบรมโมเดล Vocoder Inference และเพื่อตั้งค่าสถานะทั้งหมดที่ต้องการ พื้นฐานมาจากการโคลนนิ่งแบบเรียลไทม์

ผลการประเมินผล

ในพื้นที่เก็บข้อมูลของเราเราได้เพิ่มสมุดบันทึกซึ่งสามารถอัปโหลดไฟล์เสียงเสียง. txt และสร้างคำพูดด้วยเสียงโคลน แม้จะมีการดาวน์โหลดแบบจำลองน้ำหนัก pretrained โดยอัตโนมัติในตอนแรก แต่ผู้ใช้ยังสามารถดาวน์โหลดเก็บถาวรได้ที่นี่คำแนะนำอื่น ๆ อยู่ในสมุดบันทึกที่นี่

บทบาทของผู้เข้าร่วม

Nikolay จะออกแบบสถาปัตยกรรมแบบแยกส่วน API สำหรับการใช้งานภายนอกและไปป์ไลน์การฝึกอบรม Gleb จะใช้สแต็คที่ใช้งานได้ของแบบจำลองการเขียนเอกสารและตัวอย่างการใช้งาน

โครงสร้างโครงการ

 .
└── osms
    ├── __init__.py
    ├── common
    │   ├── __init__.py
    │   ├── configs
    │   │   ├── __init__.py
    │   │   ├── config.py
    │   │   └── main_config.yaml
    │   └── multispeaker.py
    ├── main.py
    ├── tts_modules
    │   ├── __init__.py
    │   ├── encoder
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── AudioConfig.yaml
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   └── dVecModelConfig.yaml
    │   │   ├── data
    │   │   │   ├── DataObjects.py
    │   │   │   ├── __init__.py
    │   │   │   ├── dataset.py
    │   │   │   ├── wav2mel.py
    │   │   │   └── wav_preprocessing.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── dVecModel.py
    │   │   ├── speaker_encoder_manager.py
    │   │   └── utils
    │   │       ├── Trainer.py
    │   │       └── __init__.py
    │   ├── synthesizer
    │   │   ├── LICENSE.md
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   ├── hparams.py
    │   │   │   └── tacotron_config.yaml
    │   │   ├── data
    │   │   │   ├── __init__.py
    │   │   │   ├── audio.py
    │   │   │   ├── dataset.py
    │   │   │   └── preprocess.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── tacotron.py
    │   │   ├── synthesize.py
    │   │   ├── synthesizer_manager.py
    │   │   ├── trainer.py
    │   │   └── utils
    │   │       ├── __init__.py
    │   │       ├── cleaners.py
    │   │       ├── logmmse.py
    │   │       ├── numbers.py
    │   │       ├── plot.py
    │   │       ├── symbols.py
    │   │       └── text.py
    │   ├── tts_module_manager.py
    │   └── vocoder
    │       ├── __init__.py
    │       ├── configs
    │       │   ├── __init__.py
    │       │   ├── config.py
    │       │   ├── hparams.py
    │       │   └── wavernn_config.yaml
    │       ├── data
    │       │   ├── __init__.py
    │       │   ├── dataset.py
    │       │   └── preprocess.py
    │       ├── models
    │       │   ├── __init__.py
    │       │   └── wavernn.py
    │       ├── utils
    │       │   ├── Trainer.py
    │       │   ├── __init__.py
    │       │   ├── audio.py
    │       │   ├── distribution.py
    │       │   └── gen_wavernn.py
    │       └── vocoder_manager.py
    └── utils
        └── __init__.py

การติดตั้ง

Run pip3 install . จากไดเรกทอรีราก

ชุดข้อมูล

เราได้ใช้การประมวลผลที่สมบูรณ์สำหรับชุดข้อมูล libraspeech สำหรับตัวเข้ารหัสลำโพง, synthesizer และ vocoder หนึ่งสามารถดาวน์โหลดชุดข้อมูล libraspeech ผ่านลิงค์นี้ นอกจากนี้สำหรับตัวเข้ารหัสลำโพงเราใช้อินเทอร์เฟซเพื่อใช้ชุดข้อมูลที่กำหนดเอง เราจำเป็นต้องใช้ฟังก์ชั่นอินเตอร์เฟส PreprocessDataset , ฟังก์ชั่นอินเตอร์เฟส WavPreprocessor , ฟังก์ชั่นอินเตอร์เฟส WavPreprocessor หรือใช้งานที่นำไปใช้

กำหนดค่า

สำหรับรุ่นพื้นฐานการกำหนดค่าเริ่มต้นจะถูกโหลดโดยอัตโนมัติ หากต้องการเปลี่ยนพวกเขาสามารถใช้ update_config(...) ใน osms/common/configs/config.py ในการโหลดการกำหนดค่าเริ่มต้นหนึ่งสามารถใช้ get_default_<module_name>_config(...) นอกจากนี้เราสามารถใช้การกำหนดค่าของเขาเองเพื่อใช้สำหรับรุ่นอื่น ๆ

ผู้จัดการ

ในการทำงานกับแต่ละโมดูลเราใช้งานผู้จัดการของตัวเอง: SpeakerEncoderManager , SynthesizerManager , VocoderManager ในฐานะผู้จัดการหลักเราใช้ MustiSpreakerManager ซึ่งให้การเข้าถึงผู้จัดการทั้งสามคน หนึ่งสามารถใช้พวกเขาเพื่ออนุมานโมเดล TTS ทั้งหมดและฝึกอบรมแต่ละโมดูลแยกกันหรือร่วมกัน ตัวอย่างการใช้งานสามารถพบได้ในสมุดบันทึก

จุดตรวจ

จุดตรวจพื้นฐานจะถูกดาวน์โหลดโดยอัตโนมัติในไดเรกทอรี checkpoints ด้วยการสร้างวัตถุ 'Multispeaker' นอกจากนี้เราสามารถใช้จุดตรวจอื่น ๆ โดยการอัปเดตการกำหนดค่าอย่างง่าย (เปลี่ยน ... CheckPoint_DIR_Path, CheckPoint_Name)

การอ้างอิง

Ye Jia, Y. Zhang, Ron J. Weiss, Q. Wang, Jonathan Shen, Fei Ren, Z. Chen, p. Nguyen, R. Pang, I. Lopez-Moreno และ Y. Wu ถ่ายโอนการเรียนรู้จากการตรวจสอบลำโพงไปยังการสังเคราะห์ข้อความหลายข้อความเป็นคำพูด
Li Wan, Quan Wang, Alan Papir และ Ignacio Lopez Moreno การสูญเสียแบบ end-to-end ทั่วไปสำหรับการตรวจสอบผู้พูด
Jonathan Shen, R. Pang, Ron J. Weiss, M. Schuster, Navdeep Jaitly, Z Yang, Z. Chen, Yu Zhang, Yuxuan Wang, R. Skerry-Ryan, R. Saurous, Yannis Agiomyrgiannakis และ Y. Wu การสังเคราะห์ TTS ตามธรรมชาติโดยการปรับสภาพ wavenet ในการทำนาย mel spectrogram
Aaron Van Den Oord, S. Dieleman, H. Zen, K. Simonyan, Oriol Vinyals, a. Graves, Nal Kalchbrenner, A. Senior และ K. Kavukcuoglu Wavenet: โมเดล Agenerative สำหรับเสียงดิบ
Erica Cooper, Cheng-I Lai, Yusuke Yasuda, Fuming Fang, Xin Wang, Nanxin Chen และ Junichi Yamagishi zero-shot text-speaker to-to-speech กับการฝังตัวของลำโพงประสาทที่ล้ำสมัย

ขยาย

ข้อมูลเพิ่มเติม