ชุดข้อมูลคำพูด Kokoro เป็นชุดข้อมูลคำพูดของญี่ปุ่นโดเมนสาธารณะ มันมีคลิปเสียงสั้น 43,253 คลิปสั้น ๆ ของลำโพงอ่านหนังสือเล่มเดียว 14 เล่ม รูปแบบของข้อมูลเมตานั้นคล้ายกับคำพูด LJ เพื่อให้ชุดข้อมูลเข้ากันได้กับระบบการสังเคราะห์คำพูดที่ทันสมัย
ข้อความมาจาก Aozora Bunko ซึ่งอยู่ในโดเมนสาธารณะ คลิปเสียงมาจากโครงการ Librivox ซึ่งอยู่ในโดเมนสาธารณะ การอ่านถูกประเมินโดย Mecab และ Unidic Lite จากข้อความผสม Kanji-Kana การอ่านจะถูกโรมันซึ่งคล้ายกับรูปแบบที่จูเลียสใช้
คลิปเสียงถูกแยกและการถอดเสียงได้รับการจัดตำแหน่งโดยอัตโนมัติโดย Kokoro-Align
ฟังจากเบราว์เซอร์ของคุณหรือดาวน์โหลดตัวอย่างสุ่ม 100 คลิป
ข้อมูลเมตามีให้ใน metadata.csv ไฟล์นี้ประกอบด้วยหนึ่งระเบียนต่อบรรทัดที่คั่นด้วยอักขระท่อ (0x7c) ฟิลด์คือ:
ไฟล์เสียงแต่ละไฟล์เป็น PCM 16 บิตช่องสัญญาณเดียวที่มีอัตราตัวอย่าง 22050 Hz
ชุดข้อมูลมีให้ในขนาดที่แตกต่างกัน xlarge , large , small , tiny large small และ tiny ไม่ได้แชร์คลิปเดียวกัน xlarge มีคลิปที่มีอยู่ทั้งหมดรวมถึงขนาด large small และ tiny
X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39
Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16
Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31
Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05
เนื่องจากขนาดข้อมูลขนาดใหญ่ของชุดข้อมูลไฟล์เสียงจึงไม่รวมอยู่ในที่เก็บนี้ แต่รวมข้อมูลเมตา
ในการสร้างไฟล์. wav ของชุดข้อมูล Run
$ bash download.sh
ในการดาวน์โหลดข้อมูลเมตาจากหน้าโครงการ จากนั้นวิ่ง
$ pip3 install torchaudio
$ python3 extract.py --size tiny
สิ่งนี้พิมพ์ตัวอย่างเชลล์สคริปต์เพื่อดาวน์โหลดไฟล์เสียง MP3 จาก Archive.org และแยกออกหากคุณยังไม่ได้ทำ
หลังจากทำเช่นนั้นให้เรียกใช้คำสั่งอีกครั้ง
$ python3 extract.py --size tiny
เพื่อรับไฟล์สำหรับไดเรกทอรี tiny ภายใต้ ./output
คุณสามารถให้ชื่อขนาดอื่นกับตัวเลือก --size เพื่อรับชุดข้อมูลขนาด
คุณสามารถระบุรูปแบบคลิปเสียงไปยังตัวเลือก --format
รุ่นทาโคทรอนที่ผ่านการฝึกอบรมมาก่อนที่ได้รับการฝึกฝนด้วยชุดข้อมูลคำพูด Kokoro และตัวอย่างเสียง โมเดลได้รับการฝึกฝนสำหรับขั้นตอน 21k โดยมี small ตาม Repo ข้างต้น "คำพูดเริ่มกลายเป็นที่เข้าใจได้ประมาณ 20k ขั้นตอน" ด้วยชุดข้อมูลคำพูด LJ ตัวอย่างเสียงอ่านสองสามประโยคแรกจาก Gon Gitsune ซึ่งไม่รวมอยู่ใน small
ชุดข้อมูลมีการบันทึกจากหนังสือเหล่านี้อ่านโดย Ekzemplaro
โครงการนี้ได้รับแรงบันดาลใจจาก CSS10 ซึ่งมีคลิปเสียงของภาษาต่าง ๆ จาก Librivox
ข้อความทั้งหมดมาจาก Aozora Bunko การบันทึกโดย Ekzemplaro จาก Librivox การจัดตำแหน่งและคำอธิบายประกอบโดย Katsuya Iida
ชุดข้อมูลนี้อยู่ในโดเมนสาธารณะในสหรัฐอเมริกา (และประเทศอื่น ๆ ก็มีแนวโน้มมากที่สุด) ไม่มีข้อ จำกัด ในการใช้งาน สำหรับข้อมูลเพิ่มเติมโปรดดู: librivox.org/pages/public-domain