ดาวน์โหลด Kokoro Speech Dataset - ชุด Kokoro Speech Dataset ดาวน์โหลดซอร์สโค้ดดาวน์โหลด

Kokoro Speech Dataset

โค้ดแหล่งที่มา AI

Keep word separators in transcripts with '_'

ดาวน์โหลด

ชุดข้อมูลคำพูดของ Kokoro

ชุดข้อมูลคำพูด Kokoro เป็นชุดข้อมูลคำพูดของญี่ปุ่นโดเมนสาธารณะ มันมีคลิปเสียงสั้น 43,253 คลิปสั้น ๆ ของลำโพงอ่านหนังสือเล่มเดียว 14 เล่ม รูปแบบของข้อมูลเมตานั้นคล้ายกับคำพูด LJ เพื่อให้ชุดข้อมูลเข้ากันได้กับระบบการสังเคราะห์คำพูดที่ทันสมัย

ข้อความมาจาก Aozora Bunko ซึ่งอยู่ในโดเมนสาธารณะ คลิปเสียงมาจากโครงการ Librivox ซึ่งอยู่ในโดเมนสาธารณะ การอ่านถูกประเมินโดย Mecab และ Unidic Lite จากข้อความผสม Kanji-Kana การอ่านจะถูกโรมันซึ่งคล้ายกับรูปแบบที่จูเลียสใช้

คลิปเสียงถูกแยกและการถอดเสียงได้รับการจัดตำแหน่งโดยอัตโนมัติโดย Kokoro-Align

ตัวอย่างข้อมูล

ฟังจากเบราว์เซอร์ของคุณหรือดาวน์โหลดตัวอย่างสุ่ม 100 คลิป

รูปแบบไฟล์

ข้อมูลเมตามีให้ใน metadata.csv ไฟล์นี้ประกอบด้วยหนึ่งระเบียนต่อบรรทัดที่คั่นด้วยอักขระท่อ (0x7c) ฟิลด์คือ:

ID: นี่คือชื่อของไฟล์. wav ที่เกี่ยวข้อง
การถอดความ: ข้อความผสม Kanji-Kana พูดโดยผู้อ่าน (UTF-8)
การอ่าน: ข้อความโรมันพูดโดยผู้อ่าน (UTF-8)

ไฟล์เสียงแต่ละไฟล์เป็น PCM 16 บิตช่องสัญญาณเดียวที่มีอัตราตัวอย่าง 22050 Hz

สถิติ

ชุดข้อมูลมีให้ในขนาดที่แตกต่างกัน xlarge , large , small , tiny large small และ tiny ไม่ได้แชร์คลิปเดียวกัน xlarge มีคลิปที่มีอยู่ทั้งหมดรวมถึงขนาด large small และ tiny

 X Large:
Total clips: 44788
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.718 secs
Total duration: 58:41:39

Large:
Total clips: 23461
Min duration: 3.007 secs
Max duration: 14.861 secs
Mean duration: 4.742 secs
Total duration: 30:54:16

Small:
Total clips: 9199
Min duration: 3.007 secs
Max duration: 9.961 secs
Mean duration: 4.687 secs
Total duration: 11:58:31

Tiny:
Total clips: 308
Min duration: 3.030 secs
Max duration: 8.092 secs
Mean duration: 4.695 secs
Total duration: 00:24:05

วิธีรับข้อมูล

เนื่องจากขนาดข้อมูลขนาดใหญ่ของชุดข้อมูลไฟล์เสียงจึงไม่รวมอยู่ในที่เก็บนี้ แต่รวมข้อมูลเมตา

ในการสร้างไฟล์. wav ของชุดข้อมูล Run

 $ bash download.sh

ในการดาวน์โหลดข้อมูลเมตาจากหน้าโครงการ จากนั้นวิ่ง

 $ pip3 install torchaudio
$ python3 extract.py --size tiny

สิ่งนี้พิมพ์ตัวอย่างเชลล์สคริปต์เพื่อดาวน์โหลดไฟล์เสียง MP3 จาก Archive.org และแยกออกหากคุณยังไม่ได้ทำ

หลังจากทำเช่นนั้นให้เรียกใช้คำสั่งอีกครั้ง

 $ python3 extract.py --size tiny

เพื่อรับไฟล์สำหรับไดเรกทอรี tiny ภายใต้ ./output

คุณสามารถให้ชื่อขนาดอื่นกับตัวเลือก --size เพื่อรับชุดข้อมูลขนาด

คุณสามารถระบุรูปแบบคลิปเสียงไปยังตัวเลือก --format

โมเดลทาโคทรอน

ตัวอย่างเสียง
แบบจำลอง

รุ่นทาโคทรอนที่ผ่านการฝึกอบรมมาก่อนที่ได้รับการฝึกฝนด้วยชุดข้อมูลคำพูด Kokoro และตัวอย่างเสียง โมเดลได้รับการฝึกฝนสำหรับขั้นตอน 21k โดยมี small ตาม Repo ข้างต้น "คำพูดเริ่มกลายเป็นที่เข้าใจได้ประมาณ 20k ขั้นตอน" ด้วยชุดข้อมูลคำพูด LJ ตัวอย่างเสียงอ่านสองสามประโยคแรกจาก Gon Gitsune ซึ่งไม่รวมอยู่ใน small

หนังสือ

ชุดข้อมูลมีการบันทึกจากหนังสือเหล่านี้อ่านโดย Ekzemplaro

明暗 (Meian) 16:39:29 ข้อความออนไลน์
こころ (Kokoro) 08:46:41 ข้อความออนไลน์
田舎教師 (Inaka Kyoshi) 08:13:26 ข้อความออนไลน์
野分 (Nowaki) 4:40:49 ข้อความออนไลน์
草枕 (kusamakura) 04:27:35 ข้อความออนไลน์
坊っちゃん (Botchan) 04:26:27 ข้อความออนไลน์
雁 (กาน) 03:41:31 ข้อความออนไลน์
生まれいずる悩み (Umareizuru Nayami) 2:43:12 ข้อความออนไลน์
硝子戸の中 (Garasudono Uchi) 2:39:53 ข้อความออนไลน์
永日小品 (eijitsu syohin) 2:33:54 ข้อความออนไลน์
蒲団 (ฟูก) 2:28:58 ข้อความออนไลน์
高野聖 (Kouyahijiri) 2:06:23 ข้อความออนไลน์
ごん狐 (Gon Gitsune) 0:15:42 ข้อความออนไลน์
コーカサスの禿鷹 (คอเคซัสไม่มี Hagetaka) 0:13:04 ข้อความออนไลน์

โครงการที่คล้ายกัน

โครงการนี้ได้รับแรงบันดาลใจจาก CSS10 ซึ่งมีคลิปเสียงของภาษาต่าง ๆ จาก Librivox

การเปลี่ยนแปลง

v1.3 เก็บตัวคั่นคำในการถอดเสียงด้วย '_'
v1.2 ข้อมูลเมตาใหม่ที่สร้างขึ้นด้วยโมเดลใหม่
v1.1.1 เพิ่ม FLAC, MP3, สนับสนุน OGG
v1.1 เพิ่มหนังสือเพิ่มเติม
v1.0 รีลีสเริ่มต้น

การให้เครดิต

ข้อความทั้งหมดมาจาก Aozora Bunko การบันทึกโดย Ekzemplaro จาก Librivox การจัดตำแหน่งและคำอธิบายประกอบโดย Katsuya Iida

ใบอนุญาต

ชุดข้อมูลนี้อยู่ในโดเมนสาธารณะในสหรัฐอเมริกา (และประเทศอื่น ๆ ก็มีแนวโน้มมากที่สุด) ไม่มีข้อ จำกัด ในการใช้งาน สำหรับข้อมูลเพิ่มเติมโปรดดู: librivox.org/pages/public-domain

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน Keep word separators in transcripts with '_'
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-23
ขนาด 6.61KB
มาจาก Github

แอปที่เกี่ยวข้อง

ears_dataset

2024-11-14
glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด