คอลเลกชันของเลเยอร์ที่เป็นนามธรรมและฟังก์ชั่นสนับสนุนที่สร้างรากฐานการประมวลผลภาษาธรรมชาติของโครงการ Zamia AI:
phonetics : ฟังก์ชั่นการแปลระหว่างตัวอักษรสัทศาสตร์ต่างๆ (IPA, X-Sampa, X-Arpabet, …)
tts : เลเยอร์ Abstraction ไปสู่การใช้ Espeak Ng, Marytts, Svox Pico TTS หรือเซิร์ฟเวอร์ TTS ระยะไกลและ Sequitur G2P
asr : เลเยอร์ที่เป็นนามธรรมต่อการใช้ kaldi-asr และ pocketSphinx สามารถพบโมเดลได้ที่นี่: http://goofy.zamia.org/voxforge/
sequiturclient : G2P โดยใช้ Sequitur
pulseplayer : การเล่นเสียงผ่าน Pulseaudio
pulserecorder : การบันทึกเสียงผ่าน Pulseaudio
tokenizer : Tokenizers คำภาษาอังกฤษฝรั่งเศสและเยอรมันมุ่งเป้าไปที่แอปพลิเคชันภาษาพูด
threadpool : การใช้งานพูลเธรดแบบง่าย
vad : การตรวจจับกิจกรรมเสียง จำกัด เครื่องสถานะตาม WebRTC VAD
macro_engine : เครื่องยนต์มาโครอย่างง่ายมีจุดมุ่งหมายเพื่อสร้างการขยายภาษาธรรมชาติ
ฉันวางแผนที่จะเพิ่มโมดูลตามที่ฉันต้องการในโครงการ Zamia AI โมดูลบางอย่างเช่น phonetics และ tokenizer มีบางส่วนทับซ้อนกับโครงการขนาดใหญ่เช่น NLTK หรือ Spacy - โมดูลของฉันมักจะเป็นมืออาชีพและมีใจเรียบง่ายกว่าสิ่งเหล่านี้และดังนั้นจึงไม่ได้ตั้งใจแทนที่พวกเขา

หมายเหตุ : อาจไม่สมบูรณ์
Python 2.7
สำหรับ TTS หนึ่งหรือมากกว่าของ:
Marytts, Py-Marytts
espeak-ng, py-espeak-ng
svox pico tts, py-picotts
สำหรับ ASR หนึ่งหรือมากกว่าของ:
Kaldi-Asr 5.1, Py-Kaldi-ASR
PocketSphinx
ลำดับ
พูเลียอุดิโอ
webrtc
รหัสของฉันเองคือ Apache-2.0 ที่ได้รับอนุญาตเว้นแต่จะระบุไว้เป็นอย่างอื่นในส่วนหัวลิขสิทธิ์ของสคริปต์
สคริปต์และไฟล์บางไฟล์ขึ้นอยู่กับผลงานของผู้อื่นในกรณีเหล่านั้นเป็นความตั้งใจของฉันที่จะทำให้ใบอนุญาตเดิมเหมือนเดิม โปรดตรวจสอบให้แน่ใจว่าได้ตรวจสอบส่วนหัวลิขสิทธิ์ภายในสำหรับข้อมูลเพิ่มเติม
Guenter Bartsch <[email protected]> Paul Guyot <[email protected]>