โครงการ: Zeroth
- โครงการโอเพนซอร์ส ASR เกาหลีที่ตั้งอยู่ใน Kaldi
- สูตรออฟเซียนตอนนี้ (https://github.com/kaldi-asr/kaldi/tree/master/egs/zeroth_korean/s5)
- ใบอนุญาต: Apache 2.0
- ฟอรัม: https://groups.google.com/forum/#! forum/zeroth-help
Zeroth เป็นโครงการโอเพ่นซอร์สสำหรับการรู้จำเสียงพูดภาษาเกาหลีที่ใช้โดยใช้ Kaldi Toolkit
โครงการนี้ได้รับการพัฒนาเป็นส่วนหนึ่งของแพลตฟอร์มภาษา AI ของ Atlas Labs (https://www.atlaslabs.ai) AI ซึ่งช่วยให้องค์กรต่างๆสามารถเพิ่มความฉลาดให้กับการสื่อสาร B2C ของพวกเขา
ด้วยการแนะนำสูตร Kaldi เกาหลีอย่างเป็นทางการโครงการ Zeroth มีจุดมุ่งหมายที่จะทำให้ทุกคนสามารถจดจำคำพูดภาษาเกาหลีได้มากขึ้น
ในฐานะที่เป็นชื่อ Zeroth หรือ 0th แนะนำว่าโครงการนี้มีจุดประสงค์เพื่อเป็นจุดเริ่มต้นและชิ้นส่วนพื้นฐานที่ทุกคนสามารถสร้างผลิตภัณฑ์และบริการใหม่โดยใช้การจดจำคำพูด
เราหวังว่าคุณจะพบว่าโครงการนี้มีประโยชน์และยินดีต้อนรับโอกาสในการพูดคุยหรือทำงานร่วมกัน
ติดต่อ: Lucas Jo ([email protected])
ขอบคุณเป็นพิเศษ
- Zeroth ได้รับการพัฒนาโดยความร่วมมือกับ Winkyum Lee ([email protected]) ที่ [Gridspace Inc. ] (https://www.gridspace.com)
ลิงก์ที่กล่าวถึง
- [openslr] (http://www.openslr.org/40/)
- [การสัมมนาวิทยาศาสตร์ข้อมูล] (http://www.fastcampus.co.kr/data_camp_lab/) @ fastcampus
- เวิร์กช็อป @ kmobile
- [สัมภาษณ์] (http://blog.naver.com/fastcampus/221181060609) กับ Fastcampus
- [การเรียนรู้ลึก - ค่ายรับรู้การพูด] (http://www.fastcampus.co.kr/data_camp_dsr/) @ fastcampus
0. ภาพรวม

1. ข้อมูลเสียง
- 16 กรกฎาคม 2018: 95.7 ชั่วโมง (46,347 คำพูด, 181 วิทยากร, 27,330 Uniq. ประโยค)
- 9 เมษายน 2018: 76.6 ชั่วโมง (35,139 คำพูด, 137 วิทยากร, 16,472 Uniq. ประโยค)
- 3 กุมภาพันธ์ 2018: 51.6 ชั่วโมงการถอดเสียงภาษาเกาหลีสำหรับข้อมูลการฝึกอบรม (22,263 คำพูด, 105 ลำโพง, 3000 ประโยค)
- ใบอนุญาต: [CC By 4.0] (https://creativeCommons.org/licenses/by/4.0/)
- ตอนนี้ข้อมูลเสียงและ LM 51.6 ชั่วโมงมีอยู่ที่ OpenSLR
- Crowdsource เสียงจาก Morecoin กำลังเติบโต ฐานข้อมูลเสียงโอเพนซอร์ส 70 ชั่วโมงจะเปิดในเดือนเมษายน 2561 คุณสามารถบริจาคของคุณได้แม้ว่าแอพบันทึกเสียง
- [morecoin (Android)] (https://play.google.com/store/apps/details?id=com.goodatlas.morecoin)
- [morecoin (iox)] (https://apps.apple.com/ph/app/morecoin/id1351621392?ign-mpt=uo%3d2)
เราเสนอแอพบันทึกเสียง [morecoin (Android)] (https://play.google.com/store/apps/details?id=com.goodatlas.morecoin) ที่คุณสามารถใช้เพื่อเข้าร่วมในการสร้างฐานข้อมูลโอเพนซอร์ซของเรา
2. ข้อกำหนด
- [ข้อกำหนด] คำอธิบายของแพ็คเกจที่จำเป็นในการเรียกใช้โครงการ Zeroth: https://github.com/goodatlas/zeroth/wiki/requirements)
- [ข้อกำหนด -2] แพ็คเกจเพิ่มเติมเพื่อดำเนินการรหัสสำหรับรูปแบบภาษาและพจนานุกรมสัทศาสตร์: (https://github.com/goodatlas/zeroth/wiki/requirement-2)
รูปแบบอะคูสติก
สูตร Kaldi ล่าสุดถูกนำไปใช้กับโมเดลอะคูสติกของ Zeroth:
- tdnn (พร้อมตัวประกอบ) / tdnn + lstm / tdnn + opgru
- รูปแบบโซ่
- การเพิ่มข้อมูลคำพูดที่สะท้อนกลับ
รูปแบบภาษาและพจนานุกรม
รูปแบบภาษาของ Zeroth และพจนานุกรมการออกเสียงใช้วิธีการขับเคลื่อนข้อมูลแบบ end-to-end การมีส่วนร่วมใด ๆ ในฐานข้อมูลเสียงโอเพ่นซอร์สของเราจะถูกรวมเข้ากับโมเดลภาษาล่าสุดและพจนานุกรมสัทศาสตร์โดยอัตโนมัติ
ในการสร้างแบบจำลองภาษาที่กำหนดเองและพจนานุกรมการออกเสียง: [s5/data/local/lm/readme.md] (https://github.com/goodatlas/zeroth/blob/master/s5/data/local/lm/readme.md)
คอร์ปัส (คลังข้อมูล)
- ประโยคการฝึกอบรม: 109,037,699
- ประโยคทดสอบ: 12,115,208
- รวม: 121,152,907
พจนานุกรมสัทศาสตร์
- คำที่ไม่ซ้ำกัน: 30,064,143
- คำที่ไม่ซ้ำกันที่มีความถี่สูงสุด 98%: 8,069,252
- morphemes ที่ไม่ซ้ำกัน: 465,253
- ขนาดของพจนานุกรมการออกเสียงโดยพิจารณาจากความหลากหลายของการออกเสียง: 686,839
รูปแบบภาษา
- การทดสอบความงุนงง 3 กรัม: ppl = 221.2969 (12,115,208 ประโยค, 194,940,635 คำ, 0 oovs)
- การทดสอบความงุนงง 4 กรัม: ppl = 187.2058 (12,115,208 ประโยค, 194,940,635 คำ, 0 oovs)
โครงการ: Zeroth
- 칼디를구축하는한국어음성인식오픈소스
- 이제 (https://github.com/kaldi-asr/kaldi/tree/master/egs/zeroth_korean/s5)
- ใบอนุญาต: Apache 2.0
- 포럼: https://groups.google.com/forum/#! forum/zeroth-help
Zeroth 프로젝트는 Kaldi Open Source Tool-kit 을사용해서음성인식기를구현하는프로젝트 이 ai 를 (주) 아틀라스가이드의ภาษา AI 플랫폼일부로서 สูตรอย่างเป็นทางการของ Kaldi 에버전을시작으로시작으로시작으로시작으로참여를통해사용할 제로스라는 0-th, 즉 0 번째를 이름이것처럼프로젝트를이음성인식기를
ติดต่อ: Lucas Jo ([email protected])
ขอบคุณเป็นพิเศษ
- Gridspace Inc. 사에서 wonkyum Lee 님과의ทำงานร่วม를이프로젝트를
ลิงก์ที่กล่าวถึง
- openslr
- 데이터논문세미나 @ fastcampus
- 워크샵 @ kmobile
- สัมภาษณ์กับ Fastcampus
- 딥러닝-음성인식 camp @ fastcampus
0. ภาพรวม

1. ข้อมูลเสียง
- 2018.07.16: 95.7 시간 (46,347 발화, 181 명, 27,330 문장)
- 2018.04.09: 76.6 시간 (35,139 발화, 137 명, 16,472 문장)
- 2018.02.03: 51.6 시간 (22,263 발화, 105 명, 3000 문장)
- ใบอนุญาต: CC โดย 4.0
- 현재 openslr 에서 51.6 시간 lm 데이터를받아보실있습니다
- 모어코인을기부로오디오가 4 월에는 1 시간 70 시간받아보실수 모어코인앱을음성을기부해
현재 공개 db 구축에수 (Android) 을 (ios) 제공하고, 해당해당앱을통해통해권한을권한을권한을권한을권한을다운로드할다운로드할접근하여권한을접근하여접근하여다운로드할다운로드할 한번หนังสือรับรอง은 12 시간 더 aws-temporary-credential 페이지를바랍니다바랍니다
2. ข้อกำหนด
- 제로스실행하는데패키지들에패키지들에패키지들에설명은설명은설명은대한설명은페이지를참조하시기바랍니다바랍니다바랍니다바랍니다바랍니다바랍니다바랍니다바랍니다바랍니다바랍니다바랍니다
- 언어모델과구현하는직접직접직접실행하기실행하기위해서는위해서는위해서는위해서는위해서는위키위키위키위키페이지를페이지를패키지를
3. โมเดลอะคูสติก
현재프로젝트음향모델에는아래와최신최신최신최신최신최신최신최신있습니다있습니다적용되어있습니다있습니다있습니다있습니다
- tdnn (พร้อมตัวประกอบ) / tdnn + lstm / tdnn + opgru
- รูปแบบโซ่
- การเพิ่มข้อมูลคำพูดที่สะท้อนกลับ
4. รูปแบบภาษาและพจนานุกรม
제로스사용되는발음사전은끝까지끝까지끝까지끝까지끝까지끝까지끝까지처음부터끝까지끝까지끝까지방식으로방식으로 아래는 aws-temporary-credential 을경우오디오데이터와 개인적으로특화된언어모델과발음사전을만들고자만들고자경우에는
s5/data/local/lm/readme.md 에있으니참조하시기
말뭉치 (คลังข้อมูล)
- 훈련된: 109,037,699
- 테스트: 12,115,208
- 전: 121,152,907
발음사전 (พจนานุกรม)
- 고유한: 30,064,143
- 상위 98% 빈도보이는고유한수: 8,069,252
- ข้อมูลไดรฟ์방식으로고유한형태소의: 465,253
- 발음고려한발음사전의: 686,839
언어모델 (รูปแบบภาษา)
- การทดสอบความงุนงง 3 กรัม: ppl = 221.2969 (12,115,208 ประโยค, 194,940,635 คำ, 0 oovs)
- การทดสอบความงุนงง 4 กรัม: ppl = 187.2058 (12,115,208 ประโยค, 194,940,635 คำ, 0 oovs)