เทคโนโลยีเสียงกำลังจะเริ่มใหญ่ สำหรับองค์กรธุรกิจและบุคคลที่พยายามทำความเข้าใจกับเสียงและสถานที่ตั้งอยู่ในสถาปัตยกรรมทางเทคนิคของพวกเขามันอาจทำให้เกิดความสับสนอย่างมากที่จะเข้าใจข้อเสนอโอเพ่นซอร์สที่อยู่ข้างนอก
repo นี้เป็นรายชื่อเครื่องมือเสียงโอเพ่นซอร์สที่รู้จักซึ่งมีโครงสร้างโดยที่เครื่องมือเหล่านั้นนั่งอยู่ในสแต็กเสียง
| เว็บไซต์ | ชื่อเครื่องมือ | ใบอนุญาต | คำอธิบาย |
|---|---|---|---|
| openslr.org | ทรัพยากรภาษาพูดเปิด | N/A | ดำเนินการโดย @danpovey ซึ่งเป็นผู้ดูแลกุญแจของคำพูด Kaldi-asr ไปยังเครื่องมือข้อความ |
| kaldi-asr.org | ชุดเครื่องมือจดจำเสียงพูดอัตโนมัติ Kaldi | Apache 2 | หนึ่งในชุดเครื่องมือจดจำคำพูดโอเพ่นซอร์สแห่งแรก การอ้างอิงทางวิชาการคือ: Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| เว็บไซต์ | ชื่อเครื่องมือ | ใบอนุญาต | คำอธิบาย |
|---|---|---|---|
| flowtron โดย nvidia | เครื่องมือ synthsis คำพูดที่ใช้ Tacotron ซึ่งสามารถปรับแต่งได้สำหรับพิทช์และฉันทลักษณ์ตั้งค่านอกเหนือจากการใช้งาน TTS ที่ใช้ทาโคตรอนอื่น ๆ | Apache2 | เปิดตัวครั้งแรกในการประชุม GTC 2020 ในเดือนพฤษภาคม 2563 บทความวิชาการเป็น Avaialble ที่นี่ การอ้างอิงคือ Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^ นี่เป็นบทความที่ยอดเยี่ยมที่อธิบายถึงความแตกต่างใน วิวัฒนาการ หรือ รุ่น ของข้อความเป็นคำพูด - จาก concatenative ไปจนถึง พารามิเตอร์ทางสถิติ ไปสู่ การกำเนิด แนวทาง TTS ที่ทันสมัยมากขึ้นเช่น Tacotron และ Wavenet เป็นวิธีการ กำเนิด
| เว็บไซต์ | ชื่อเครื่องมือ | ใบอนุญาต | คำอธิบาย |
|---|---|---|---|
| Mindmeld โดย Cisco | - | Apache2 | แพลตฟอร์ม AI การสนทนา Mindmeld เป็นหนึ่งในแพลตฟอร์ม AI ที่ทันสมัยที่สุดสำหรับการสร้างแอพพลิเคชั่นการสนทนาคุณภาพการผลิต มันเป็นเฟรมเวิร์กการเรียนรู้ของเครื่อง Python ซึ่งครอบคลุมอัลกอริทึมและยูทิลิตี้ทั้งหมดที่จำเป็นสำหรับจุดประสงค์นี้ พัฒนามานานหลายปีในการสร้างและปรับใช้ประสบการณ์การสนทนาที่ทันสมัยที่สุดหลายสิบครั้ง Mindmeld ได้รับการปรับให้เหมาะสมสำหรับการสร้างผู้ช่วยสนทนาขั้นสูงซึ่งแสดงให้เห็นถึงความเข้าใจอย่างลึกซึ้งเกี่ยวกับกรณีการใช้งานหรือโดเมนที่มีประโยชน์และมีประโยชน์สูงและหลากหลาย การอ้างอิงทางวิชาการสำหรับเครื่องมือนี้คือ: |
Raghuvanshi, A. , Carroll, L. และ Raghunathan, K. , 2018, พฤศจิกายน การพัฒนาอินเทอร์เฟซการสนทนาระดับการผลิตด้วยการแยกความหมายแบบตื้น ในการประชุมปี 2018 เกี่ยวกับวิธีการเชิงประจักษ์ในการประมวลผลภาษาธรรมชาติ: การสาธิตระบบ (หน้า 157-162) |
Mycroft.ai - ผู้ช่วยโอเพนซอร์สผู้ช่วยเลเยอร์ที่ใช้งานได้กับฮาร์ดแวร์ที่เข้ากันได้กับ Linux เช่น X86 หรืออุปกรณ์ ARM เช่น Raspberry Pi สนับสนุนโดยชุมชนที่แข็งแกร่งของนักพัฒนาโอเพนซอร์ส
โครงการรูปไข่ / Genie ที่ Stanford - ได้รับทุนสนับสนุนจากมูลนิธิ Alfred P Sloan และโดย NIST Grant โครงการรูปไข่ของสแตนฟอร์ดมีวัตถุประสงค์เพื่อให้ทางเลือกโอเพ่นซอร์สทางเลือกแก่ผู้ช่วยด้านเสียงเชิงพาณิชย์ ปัจจุบันโครงการอยู่ในช่วงเริ่มต้นและกำลังพยายามสร้างชุมชนโอเพนซอร์ส
Python Natural Language Toolkit NLTK - NLTK เป็นแพลตฟอร์มชั้นนำสำหรับการสร้างโปรแกรม Python เพื่อทำงานกับข้อมูลภาษามนุษย์ มันมีอินเทอร์เฟซที่ใช้งานง่ายไปยังทรัพยากร corpora และ lexical มากกว่า 50 รายการเช่น WordNet พร้อมกับชุดของห้องสมุดการประมวลผลข้อความสำหรับการจำแนกประเภทโทเค็นการเกิดการติดแท็กการแยกวิเคราะห์และการใช้เหตุผลเชิงความหมาย
Ecco Injectab - ECCO เป็นไลบรารี Python ที่ให้ความสามารถในการอธิบาย NLP โดยใช้การแสดงภาพแบบโต้ตอบ
Detext Source Source Detext เป็นกรอบการทำความเข้าใจข้อความที่ลึกล้ำสำหรับการจัดอันดับที่เกี่ยวข้องกับ NLP การจำแนกและงานสร้างภาษา มันใช้ประโยชน์จากการจับคู่ความหมายโดยใช้เครือข่ายประสาทลึกเพื่อทำความเข้าใจเจตนาของสมาชิกในระบบการค้นหาและผู้แนะนำ ในฐานะที่เป็นเฟรมเวิร์ก NLP ทั่วไปปัจจุบัน Detext สามารถนำไปใช้กับงานได้หลายอย่างรวมถึงการจัดอันดับการค้นหาและคำแนะนำการจำแนกประเภทหลายชั้นและงานทำความเข้าใจแบบสอบถาม จัดพิมพ์โดยทีม AI ที่ LinkedIn
PGLEX - นำเสนอครั้งแรกในการประชุม ICLDC 7 ในปี 2021, Pglex เป็นบริการคำศัพท์ 'ค่อนข้างดี' ที่ออกแบบมาเพื่ออำนวยความสะดวกในการสร้างเว็บไซต์พจนานุกรมและแอพพลิเคชั่นอื่น ๆ ที่รวมข้อมูลคำศัพท์ ด้วย PGLEX นักวิจัยสามารถให้รายการคำศัพท์ในรูปแบบ JSON กับอินสแตนซ์ของ PGLEX API และรับผลการค้นหา 'ค่อนข้างดี' โดยไม่ต้องกำหนดค่าเฉพาะภาษา สร้างขึ้นบน Elasticsearch
Artie Bias Corpus - คลังข้อมูลและชุดเครื่องมือสำหรับการตรวจ จับอคติทางประชากร ในระบบ ASR
[Blodgett, SL, Barocas, S. , Daumé III, H. , & Wallach, H. (2020) ภาษา (เทคโนโลยี) คือพลัง: การสำรวจที่สำคัญของ "อคติ" ใน NLP arxiv preprint arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf
ผู้จัดตำแหน่งที่ถูกบังคับช่วยในการจัดเรียงการบันทึกเสียงด้วยการถอดความ orthographic
ActiveClean - ActiveClean เป็นกรอบการทำความสะอาดซ้ำที่สามารถฝึกอบรมรูปแบบการเรียนรู้ของเครื่องได้อย่างถูกต้องเมื่อทำความสะอาดข้อมูลและจัดเตรียมชุดของการปรับให้เหมาะสมเพื่อเลือกข้อมูลที่ดีที่สุดที่จะทำความสะอาด ด้วยวิธีนี้คุณจะต้องทำความสะอาดชุดย่อยขนาดเล็กของข้อมูลเพื่อสร้างแบบจำลองที่คล้ายกับหากมีการทำความสะอาดชุดข้อมูลเต็มรูปแบบ เขียนใน Python
Datalinter - Data Linter ระบุปัญหาที่อาจเกิดขึ้น (lints) ในข้อมูลการฝึกอบรม ML ของคุณ
Holoclean - ระบบการเรียนรู้ของเครื่องสำหรับการเพิ่มประสิทธิภาพข้อมูล
_There ยัง BoostClean จากมหาวิทยาลัยโคลัมเบีย แต่ฉันไม่สามารถหารหัสอ้างอิงได้ทุกที่บนเว็บ
มีคำศัพท์และคำย่อมากมายในเทคโนโลยีเสียงโอเพ่นซอร์ส ส่วนนี้ให้คำอธิบายสำหรับแต่ละรายการ
Cognitive arbitration : กระบวนการที่ผู้ช่วยเสียงใช้เพื่อทำความเข้าใจว่ามีบริการและทักษะใดบ้างที่มีอยู่ทั้งนี้ขึ้นอยู่กับ บริบท ของมัน - เช่นออนไลน์หรือออฟไลน์
CRF : เขตข้อมูลแบบสุ่มแบบมีเงื่อนไข วิธีการสร้างแบบจำลองทางสถิติซึ่งสามารถคำนึงถึงบริบท ใช้ในซอฟต์แวร์การสกัดแบบจุดประสงค์และการแยกความหมายของระบบประสาทและความหมาย
LSTM : หน่วยความจำระยะสั้นยาว ใช้ภายในเครือข่ายประสาทอีกครั้งเพื่อช่วยประมวล ผลลำดับ ข้อมูลเช่นเสียงหรือคำพูด เพื่อที่จะรู้ว่ามีแนวโน้มที่จะเกิด ขึ้นต่อไป LSTM บันทึกสิ่งที่มา ก่อนหน้านี้
LVCSR : การจดจำคำพูดต่อเนื่องคำศัพท์ขนาดใหญ่ ใช้ในเครื่องมือจดจำคำพูดเพื่อแสดงว่าก) คำศัพท์ที่ทำงานผู้รู้จำได้ไม่ได้ ถูก จำกัด หรือถูก จำกัด - ตัวอย่างเช่นหากมีการปรับใช้กับฮาร์ดแวร์ที่ฝังตัวหรือต่ำซึ่งไม่สามารถจัดการกับหน่วยความจำหรือคำนวณความต้องการของคำศัพท์ขนาดใหญ่และ B)