พื้นที่เก็บข้อมูลนี้เป็นการใช้งานการออกเสียงหลายภาษา (รัสเซีย-ภาษาอังกฤษ) โดยใช้การตั้งค่าความเป็นจริงแบบเรียลไทม์ เป็นกรอบการเรียนรู้ลึกสี่ขั้นตอนที่ช่วยให้สามารถสร้างการแสดงตัวเลขของเสียงจากเสียงไม่กี่วินาทีและเพื่อให้เราปรับสภาพแบบจำลองข้อความเป็นคำพูด หากคุณต้องการเวอร์ชันภาษาอังกฤษโปรดใช้การใช้งานดั้งเดิม
พื้นที่เก็บข้อมูลนี้เป็นการใช้สัทศาสตร์หลายภาษา (รัสเซีย-อังกฤษ) โดยใช้การตั้งค่าความเป็นจริงแบบเรียลไทม์ ประกอบด้วยเครือข่ายประสาทสี่เครือข่ายที่ช่วยให้คุณสร้างการแสดงตัวเลขของเสียงจากเสียงหลายวินาทีและใช้มันเพื่อสร้างแบบจำลองสำหรับการแปลงข้อความเป็นคำพูด
ใช้การสาธิตออนไลน์ colab
คุณจะต้องมีสิ่งที่คุณวางแผนที่จะใช้กล่องเครื่องมือเท่านั้นเพื่อฝึกอบรมแบบจำลองใหม่
≥Python 3.6
Pytorch (> = 1.0.1)
เรียกใช้ pip install -r requirements.txt เพื่อติดตั้งแพ็คเกจที่จำเป็น
GPU นั้นจำเป็น แต่คุณต้องใช้ GPU ระดับสูงหากคุณต้องการใช้กล่องเครื่องมือ
ดาวน์โหลด Geere ล่าสุด
| ชื่อ | ภาษา | การเชื่อมโยง | ความเห็น | ลิงค์ของฉัน | ความเห็น |
|---|---|---|---|---|---|
| พจนานุกรมฟอนิม | en, ru | en, ru | พจนานุกรมฟอนิม | การเชื่อมโยง | พจนานุกรมสัทศาสตร์รัสเซียและอังกฤษรวมกัน |
| librispeech | en | การเชื่อมโยง | 300 ลำโพง, 360H คำพูดที่สะอาด | ||
| voxceleb | en | การเชื่อมโยง | ผู้พูด 7000 คนพูดไม่ดีหลายชั่วโมง | ||
| M-Ailabs | ร. | การเชื่อมโยง | 3 ลำโพง 46H คำพูดที่สะอาด | ||
| open_tts, open_stt | ร. | open_tts, open_stt | ผู้พูดหลายคนพูดไม่ดีหลายชั่วโมง | การเชื่อมโยง | ทำความสะอาด 4 ชั่วโมงของการพูดของลำโพงหนึ่ง แก้ไข anotation แบ่งออกเป็นส่วนสูงสุด 7 วินาที |
| VoxForge+AudioBook | ร. | การเชื่อมโยง | ลำโพงหลายคนคุณภาพต่าง ๆ | การเชื่อมโยง | ฉันเลือกไฟล์ที่ดี บุกเข้าไปในกลุ่ม เพิ่มหนังสือเสียงจากอินเทอร์เน็ต มันเปิดออก 200 ลำโพงสองสามนาทีสำหรับแต่ละ |
| รุสลัน | ร. | การเชื่อมโยง | ผู้พูดคนหนึ่งคำพูดที่ดี 40h | การเชื่อมโยง | แก้ไขใน 16kHz |
| โมซิลล่า | ร. | การเชื่อมโยง | 50 ผู้พูด, 30h คำพูดที่ดี | การเชื่อมโยง | Carred ใน 16KHz ผู้ใช้ที่แตกต่างกันในโฟลเดอร์ |
| ซิงเกิ้ลรัสเซีย | ร. | การเชื่อมโยง | ผู้พูดคนหนึ่งคำพูดที่ดี 9h | การเชื่อมโยง | แก้ไขใน 16kHz |
คุณสามารถลองใช้กล่องเครื่องมือ:
python demo_toolbox.py -d <datasets_root>
หรือ
python demo_toolbox.py
นางแบบที่ได้รับการฝึกฝน
การฝึกอบรม (และสำหรับภาษาอื่น ๆ )
การฝึกอบรม (และสำหรับภาษาอื่น ๆ )
สำหรับคำถามใด ๆ โปรดส่งอีเมล MEM
| url | การกำหนด | ชื่อ | แหล่งที่มา |
|---|---|---|---|
| 1806.04558 | SV2TTS | ถ่ายโอนการเรียนรู้จากการตรวจสอบลำโพงไปยังการสังเคราะห์ข้อความหลายข้อความเป็นคำพูด | corentinj |
| 1802.08435 | Wavernn (Vocoder) | การสังเคราะห์เสียงที่มีประสิทธิภาพ | Fatchord/Wavernn |
| 1712.05884 | Tacotron 2 (synthesizer) | การสังเคราะห์ TTS ธรรมชาติโดยการปรับสภาพ wavenet ในการทำนาย mel spectrogram | Rayhane-Mamah/Tacotron-2 |
| 1710.10467 | ge2e (encoder) | การสูญเสียแบบ end-to-end ทั่วไปสำหรับการตรวจสอบผู้พูด | corentinj |