opensource voice tools ดาวน์โหลด - opensource voice tools Source Source Download

opensource voice tools

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

รายชื่อเครื่องมือเสียงโอเพ่นซอร์ส

การแนะนำ

เทคโนโลยีเสียงกำลังจะเริ่มใหญ่ สำหรับองค์กรธุรกิจและบุคคลที่พยายามทำความเข้าใจกับเสียงและสถานที่ตั้งอยู่ในสถาปัตยกรรมทางเทคนิคของพวกเขามันอาจทำให้เกิดความสับสนอย่างมากที่จะเข้าใจข้อเสนอโอเพ่นซอร์สที่อยู่ข้างนอก

repo นี้เป็นรายชื่อเครื่องมือเสียงโอเพ่นซอร์สที่รู้จักซึ่งมีโครงสร้างโดยที่เครื่องมือเหล่านั้นนั่งอยู่ในสแต็กเสียง

การถอดความ

Duca, Daniela “ การรบกวนการถอดความ - วิธีการเปลี่ยนวิธีการวิจัยพื้นฐาน” วิธีการวิจัยพื้นฐาน” ผลกระทบของสังคมศาสตร์ (บล็อก), 17 กันยายน 2019. https://blogs.lse.ac.uk/impactofsocialsciences/2019/09/17/disrupting-transcription-how-technology-is-transforming-a-foundational-research-method/

ตื่นขึ้นมา

คำพูดถึงข้อความ

เว็บไซต์	ชื่อเครื่องมือ	ใบอนุญาต	คำอธิบาย
openslr.org	ทรัพยากรภาษาพูดเปิด	N/A	ดำเนินการโดย @danpovey ซึ่งเป็นผู้ดูแลกุญแจของคำพูด Kaldi-asr ไปยังเครื่องมือข้อความ
kaldi-asr.org	ชุดเครื่องมือจดจำเสียงพูดอัตโนมัติ Kaldi	Apache 2	หนึ่งในชุดเครื่องมือจดจำคำพูดโอเพ่นซอร์สแห่งแรก การอ้างอิงทางวิชาการคือ: `Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.`

การแยกวิเคราะห์เจตนา

ความละเอียดเจตนา

ส่งข้อความถึงการพูด

เว็บไซต์	ชื่อเครื่องมือ	ใบอนุญาต	คำอธิบาย
flowtron โดย nvidia	เครื่องมือ synthsis คำพูดที่ใช้ Tacotron ซึ่งสามารถปรับแต่งได้สำหรับพิทช์และฉันทลักษณ์ตั้งค่านอกเหนือจากการใช้งาน TTS ที่ใช้ทาโคตรอนอื่น ๆ	Apache2	เปิดตัวครั้งแรกในการประชุม GTC 2020 ในเดือนพฤษภาคม 2563 บทความวิชาการเป็น Avaialble ที่นี่ การอ้างอิงคือ `Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957.`

Mwiti, Derrick “ คู่มือปี 2019 การสังเคราะห์การพูดด้วยการเรียนรู้อย่างลึกซึ้ง” ปานกลาง 23 มิถุนายน 2563 https://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd

^ นี่เป็นบทความที่ยอดเยี่ยมที่อธิบายถึงความแตกต่างใน วิวัฒนาการ หรือ รุ่น ของข้อความเป็นคำพูด - จาก concatenative ไปจนถึง พารามิเตอร์ทางสถิติ ไปสู่ การกำเนิด แนวทาง TTS ที่ทันสมัยมากขึ้นเช่น Tacotron และ Wavenet เป็นวิธีการ กำเนิด

chatbots และเครื่องมือ UI การสนทนา

เว็บไซต์	ชื่อเครื่องมือ	ใบอนุญาต	คำอธิบาย
Mindmeld โดย Cisco	-	Apache2	แพลตฟอร์ม AI การสนทนา Mindmeld เป็นหนึ่งในแพลตฟอร์ม AI ที่ทันสมัยที่สุดสำหรับการสร้างแอพพลิเคชั่นการสนทนาคุณภาพการผลิต มันเป็นเฟรมเวิร์กการเรียนรู้ของเครื่อง Python ซึ่งครอบคลุมอัลกอริทึมและยูทิลิตี้ทั้งหมดที่จำเป็นสำหรับจุดประสงค์นี้ พัฒนามานานหลายปีในการสร้างและปรับใช้ประสบการณ์การสนทนาที่ทันสมัยที่สุดหลายสิบครั้ง Mindmeld ได้รับการปรับให้เหมาะสมสำหรับการสร้างผู้ช่วยสนทนาขั้นสูงซึ่งแสดงให้เห็นถึงความเข้าใจอย่างลึกซึ้งเกี่ยวกับกรณีการใช้งานหรือโดเมนที่มีประโยชน์และมีประโยชน์สูงและหลากหลาย การอ้างอิงทางวิชาการสำหรับเครื่องมือนี้คือ:

Raghuvanshi, A. , Carroll, L. และ Raghunathan, K. , 2018, พฤศจิกายน การพัฒนาอินเทอร์เฟซการสนทนาระดับการผลิตด้วยการแยกความหมายแบบตื้น ในการประชุมปี 2018 เกี่ยวกับวิธีการเชิงประจักษ์ในการประมวลผลภาษาธรรมชาติ: การสาธิตระบบ (หน้า 157-162) |

ผู้ช่วยผู้ช่วยเสียง

Mycroft.ai - ผู้ช่วยโอเพนซอร์สผู้ช่วยเลเยอร์ที่ใช้งานได้กับฮาร์ดแวร์ที่เข้ากันได้กับ Linux เช่น X86 หรืออุปกรณ์ ARM เช่น Raspberry Pi สนับสนุนโดยชุมชนที่แข็งแกร่งของนักพัฒนาโอเพนซอร์ส
โครงการรูปไข่ / Genie ที่ Stanford - ได้รับทุนสนับสนุนจากมูลนิธิ Alfred P Sloan และโดย NIST Grant โครงการรูปไข่ของสแตนฟอร์ดมีวัตถุประสงค์เพื่อให้ทางเลือกโอเพ่นซอร์สทางเลือกแก่ผู้ช่วยด้านเสียงเชิงพาณิชย์ ปัจจุบันโครงการอยู่ในช่วงเริ่มต้นและกำลังพยายามสร้างชุมชนโอเพนซอร์ส

การประมวลผลภาษาธรรมชาติ (NLP)

Python Natural Language Toolkit NLTK - NLTK เป็นแพลตฟอร์มชั้นนำสำหรับการสร้างโปรแกรม Python เพื่อทำงานกับข้อมูลภาษามนุษย์ มันมีอินเทอร์เฟซที่ใช้งานง่ายไปยังทรัพยากร corpora และ lexical มากกว่า 50 รายการเช่น WordNet พร้อมกับชุดของห้องสมุดการประมวลผลข้อความสำหรับการจำแนกประเภทโทเค็นการเกิดการติดแท็กการแยกวิเคราะห์และการใช้เหตุผลเชิงความหมาย
Ecco Injectab - ECCO เป็นไลบรารี Python ที่ให้ความสามารถในการอธิบาย NLP โดยใช้การแสดงภาพแบบโต้ตอบ
Detext Source Source Detext เป็นกรอบการทำความเข้าใจข้อความที่ลึกล้ำสำหรับการจัดอันดับที่เกี่ยวข้องกับ NLP การจำแนกและงานสร้างภาษา มันใช้ประโยชน์จากการจับคู่ความหมายโดยใช้เครือข่ายประสาทลึกเพื่อทำความเข้าใจเจตนาของสมาชิกในระบบการค้นหาและผู้แนะนำ ในฐานะที่เป็นเฟรมเวิร์ก NLP ทั่วไปปัจจุบัน Detext สามารถนำไปใช้กับงานได้หลายอย่างรวมถึงการจัดอันดับการค้นหาและคำแนะนำการจำแนกประเภทหลายชั้นและงานทำความเข้าใจแบบสอบถาม จัดพิมพ์โดยทีม AI ที่ LinkedIn
PGLEX - นำเสนอครั้งแรกในการประชุม ICLDC 7 ในปี 2021, Pglex เป็นบริการคำศัพท์ 'ค่อนข้างดี' ที่ออกแบบมาเพื่ออำนวยความสะดวกในการสร้างเว็บไซต์พจนานุกรมและแอพพลิเคชั่นอื่น ๆ ที่รวมข้อมูลคำศัพท์ ด้วย PGLEX นักวิจัยสามารถให้รายการคำศัพท์ในรูปแบบ JSON กับอินสแตนซ์ของ PGLEX API และรับผลการค้นหา 'ค่อนข้างดี' โดยไม่ต้องกำหนดค่าเฉพาะภาษา สร้างขึ้นบน Elasticsearch

อคติในผู้ช่วยเสียงและ NLP

Artie Bias Corpus - คลังข้อมูลและชุดเครื่องมือสำหรับการตรวจ จับอคติทางประชากร ในระบบ ASR
[Blodgett, SL, Barocas, S. , Daumé III, H. , & Wallach, H. (2020) ภาษา (เทคโนโลยี) คือพลัง: การสำรวจที่สำคัญของ "อคติ" ใน NLP arxiv preprint arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf

การจดจำลำโพง

ชุดเครื่องมือโอเพ่นซอร์สโอเพ่นสำหรับการจดจำลำโพง - ชุดเครื่องมือจดจำลำโพงโอเพ่นซอร์สจาก Laboratoire Informatique D'Avignon ประเทศฝรั่งเศส

ผู้จัดตำแหน่งบังคับ

ผู้จัดตำแหน่งที่ถูกบังคับช่วยในการจัดเรียงการบันทึกเสียงด้วยการถอดความ orthographic

Aeneas | DOCS เป็นไลบรารี Python/C และชุดเครื่องมือในการซิงโครไนซ์เสียงและข้อความโดยอัตโนมัติ

Corpora เสียงและภาษา

ฐานข้อมูลคำพูดทางอารมณ์ของเบอร์ลิน - คลังข้อมูลที่ติดแท็ก (ในภาษาเยอรมัน/Deutsche) ของคำพูดที่ติดแท็กด้วยอารมณ์
กอง - กองเป็นชุดข้อมูลการสร้างแบบจำลองภาษาโอเพ่นซอร์สที่หลากหลาย 825 GIB ซึ่งประกอบด้วยชุดข้อมูลขนาดเล็กและคุณภาพสูง 22 ชุดรวมกัน

เครื่องมือทำความสะอาดและซ่อมแซมข้อมูล

ActiveClean - ActiveClean เป็นกรอบการทำความสะอาดซ้ำที่สามารถฝึกอบรมรูปแบบการเรียนรู้ของเครื่องได้อย่างถูกต้องเมื่อทำความสะอาดข้อมูลและจัดเตรียมชุดของการปรับให้เหมาะสมเพื่อเลือกข้อมูลที่ดีที่สุดที่จะทำความสะอาด ด้วยวิธีนี้คุณจะต้องทำความสะอาดชุดย่อยขนาดเล็กของข้อมูลเพื่อสร้างแบบจำลองที่คล้ายกับหากมีการทำความสะอาดชุดข้อมูลเต็มรูปแบบ เขียนใน Python
Datalinter - Data Linter ระบุปัญหาที่อาจเกิดขึ้น (lints) ในข้อมูลการฝึกอบรม ML ของคุณ
Holoclean - ระบบการเรียนรู้ของเครื่องสำหรับการเพิ่มประสิทธิภาพข้อมูล

_There ยัง BoostClean จากมหาวิทยาลัยโคลัมเบีย แต่ฉันไม่สามารถหารหัสอ้างอิงได้ทุกที่บนเว็บ

การแปลเครื่องจักร

ไม่มีภาษาที่เหลืออยู่ - เผยแพร่โดย Meta โครงการ NLLB มีจุดมุ่งหมายเพื่อให้ภาษาที่มีทรัพยากรต่ำสามารถเข้าถึงได้มากขึ้นโดยการจัดทำรูปแบบการแปลของเครื่องซึ่งสามารถแปลได้ระหว่าง 200 ภาษา แบบจำลองนี้ได้รับการประเมินโดยใช้เกณฑ์มาตรฐานการแปลของมนุษย์ Flores-200 และทำงานได้ดีกว่าคะแนนศิลปะ 44% โดยใช้ Bleu

รายชื่อเอกสาร

@Mutiann การจัดอันดับคำพูด - เว็บไซต์นี้จัดอันดับเอกสารทางวิชาการโดยการอ้างอิงเช่น [csrankings] รวบรวมโดยผู้ใช้ @Mutiann

คำศัพท์

มีคำศัพท์และคำย่อมากมายในเทคโนโลยีเสียงโอเพ่นซอร์ส ส่วนนี้ให้คำอธิบายสำหรับแต่ละรายการ

Cognitive arbitration : กระบวนการที่ผู้ช่วยเสียงใช้เพื่อทำความเข้าใจว่ามีบริการและทักษะใดบ้างที่มีอยู่ทั้งนี้ขึ้นอยู่กับ บริบท ของมัน - เช่นออนไลน์หรือออฟไลน์
CRF : เขตข้อมูลแบบสุ่มแบบมีเงื่อนไข วิธีการสร้างแบบจำลองทางสถิติซึ่งสามารถคำนึงถึงบริบท ใช้ในซอฟต์แวร์การสกัดแบบจุดประสงค์และการแยกความหมายของระบบประสาทและความหมาย
LSTM : หน่วยความจำระยะสั้นยาว ใช้ภายในเครือข่ายประสาทอีกครั้งเพื่อช่วยประมวล ผลลำดับ ข้อมูลเช่นเสียงหรือคำพูด เพื่อที่จะรู้ว่ามีแนวโน้มที่จะเกิด ขึ้นต่อไป LSTM บันทึกสิ่งที่มา ก่อนหน้านี้
LVCSR : การจดจำคำพูดต่อเนื่องคำศัพท์ขนาดใหญ่ ใช้ในเครื่องมือจดจำคำพูดเพื่อแสดงว่าก) คำศัพท์ที่ทำงานผู้รู้จำได้ไม่ได้ ถูก จำกัด หรือถูก จำกัด - ตัวอย่างเช่นหากมีการปรับใช้กับฮาร์ดแวร์ที่ฝังตัวหรือต่ำซึ่งไม่สามารถจัดการกับหน่วยความจำหรือคำนวณความต้องการของคำศัพท์ขนาดใหญ่และ B)