تقنية الصوت تقلع بشكل كبير. بالنسبة للمؤسسات والشركات والأفراد الذين يحاولون فهم الصوت وحيث يجلس في بنياتهم الفنية ، قد يكون من المربك حقًا فهم عروض المصادر المفتوحة الموجودة هناك.
هذا الريبو عبارة عن قائمة بأدوات صوت مفتوحة المصدر معروفة ، منظمة من خلال تلك الأدوات تجلس في المكدس الصوتي.
| موقع إلكتروني | اسم الأداة | رخصة | وصف |
|---|---|---|---|
| openslr.org | موارد لغة الكلام المفتوحة | ن/أ | يديره @Danpovey ، وهو أيضًا مشرف رئيسي لخطاب Kaldi-Asr إلى أداة نصية |
| Kaldi-asr.org | Kaldi أدوات التعرف على الكلام التلقائي. | Apache 2 | واحدة من أولى مجموعات أدوات التعرف على الكلام مفتوحة المصدر. المرجع الأكاديمي هو: Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| موقع إلكتروني | اسم الأداة | رخصة | وصف |
|---|---|---|---|
| FlowTron بواسطة Nvidia | أداة Synthsis الكلام التي تعتمد على Tacotron والتي يمكن تعديلها للملعب و prosody ، تميزها عن تطبيقات TTS الأخرى القائمة على Tacotron | Apache2 | تم إصداره لأول مرة في مؤتمر GTC 2020 في مايو 2020. الورقة الأكاديمية هي Avaialble هنا. الاقتباس هو Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^ هذه مقالة رائعة تشرح الاختلافات في تطورات أو أجيال من النص إلى الكلام - من التسلسل إلى البارامترية الإحصائية إلى التوليد . مناهج TTS أكثر حداثة مثل Tacotron و Wavenet هي مقاربات توليدية .
| موقع إلكتروني | اسم الأداة | رخصة | وصف |
|---|---|---|---|
| Mindmeld من قبل Cisco | . | Apache2 | تعد منصة MindMeld Ai AI من بين أكثر منصات الذكاء الاصطناعى تقدماً لبناء تطبيقات محادثة ذات جودة الإنتاج. إنه إطار تعلم آلي قائم على بيثون والذي يشمل جميع الخوارزميات والمرافق المطلوبة لهذا الغرض. تطورت على مدار عدة سنوات من بناء ونشر العشرات من تجارب المحادثة الأكثر تقدماً ، يتم تحسين MindMeld لبناء مساعدين محادثة متقدمين يوضحون فهمًا عميقًا لحالة أو مجال معين مع توفير تجارب محادثة مفيدة للغاية ومتعددة الاستخدامات. المرجع الأكاديمي لهذه الأداة هو: |
Raghuvanshi ، A. ، Carroll ، L. and Raghunathan ، K. ، 2018 ، November. تطوير واجهات المحادثة على مستوى الإنتاج مع التحليل الدلالي الضحل. في وقائع مؤتمر 2018 حول الأساليب التجريبية في معالجة اللغة الطبيعية: مظاهرات النظام (ص. 157-162) |
Mycroft.ai - مساعد صوتي مفتوح المصدر يعمل على مجموعة من الأجهزة المتوافقة مع Linux ، مثل أجهزة X86 أو ARM مثل Raspberry PI. بدعم من مجتمع قوي من مطوري المصادر مفتوحة.
مشروع Oval / Genie في ستانفورد - بتمويل من مؤسسة Alfred P Sloan ومنحة NIST ، يهدف مشروع Stanford Oval إلى توفير بديل مفتوح المصدر لمساعدي الصوت التجارية. المشروع حاليًا في مهده ويحاول بناء مجتمع مفتوح المصدر.
Python Natural Language Toolkit NLTK - NLTK هي منصة رائدة لبناء برامج Python للعمل مع بيانات اللغة البشرية. إنه يوفر واجهات سهلة الاستخدام لأكثر من 50 موارد معجمية وموارد معجمية مثل WordNet ، إلى جانب مجموعة من مكتبات معالجة النص للتصنيف ، والرمز ، والنشر ، والعلامة ، والتحليل ، والتفكير الدلالي ، والغلات لمكتبات NLP ذات القوة الصناعية ، ومنتدى مناقشة نشطة.
ECCO Exply - ECCO هي مكتبة Python توفر قابلية للشرح لـ NLP باستخدام التصورات التفاعلية.
Detex Source Code Detex هو إطار عمل عميق لفهم النصوص لمهام التصنيف والتصنيف وتوليد اللغة. إنه يعزز المطابقة الدلالية باستخدام الشبكات العصبية العميقة لفهم نوايا الأعضاء في أنظمة البحث والتوصية. كإطار عام NLP ، يمكن حاليًا تطبيق Detex على العديد من المهام ، بما في ذلك تصنيف البحث والتوصيات ، وتصنيف الطبقة المتعددة ، وفهم الاستعلام. نشرها فريق الذكاء الاصطناعي في LinkedIn.
PGLEX - تم تقديم PGLEX لأول مرة في مؤتمر ICLDC 7 في عام 2021 ، وهي خدمة معجمية "جيدة جدًا" مصممة لتسهيل بناء مواقع القاموس والتطبيقات الأخرى التي تتضمن بيانات معجمية. مع PGLEX ، يمكن للباحثين توفير إدخالات معجمية بتنسيق JSON إلى مثيل من API PGLEX والحصول على نتائج بحث "جيدة جدًا" دون الحاجة إلى تكوينات خاصة باللغة. بنيت على Elasticsearch.
Artie Bias Corpus - مجموعة ومجموعة من الأدوات للكشف عن التحيز الديموغرافي في أنظمة ASR.
[Blodgett ، SL ، Barocas ، S. ، Daumé III ، H. ، & Wallach ، H. (2020). اللغة (التكنولوجيا) هي القوة: دراسة نقدية لـ "التحيز" في NLP. arxiv preprint arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf
تساعد المحاذاة القسرية على مواءمة التسجيلات الصوتية مع النسخ الإملائي
ActivEclean - ActivEclean هو إطار تنظيف تكراري يمكنه إعادة تدريب نموذج التعلم الآلي بشكل صحيح عند تنظيف البيانات ، ويوفر مجموعة من التحسينات لتحديد أفضل البيانات التي يتم تنظيفها. وبهذه الطريقة ، تحتاج فقط إلى تنظيف مجموعة فرعية صغيرة من البيانات من أجل إنتاج نموذج مماثل إذا تم تنظيف مجموعة البيانات الكاملة. مكتوبة في بيثون.
DATALINTER - يحدد مخطط البيانات المشكلات المحتملة (LINTs) في بيانات تدريب ML الخاصة بك.
Holoclean - نظام التعلم الآلي لإثراء البيانات
_ هذا BoostClean أيضًا من جامعة كولومبيا ، لكن لا يمكنني العثور على مرجع رمز في أي مكان على الويب.
هناك الكثير من المصطلحات والاختصارات في تكنولوجيا الصوت مفتوحة المصدر. يوفر هذا القسم تفسيرات لكل منهم.
Cognitive arbitration : العملية التي يستخدمها المساعد الصوتي لفهم الخدمات والمهارات المتاحة لها ، اعتمادًا على سياقها - مثل التواصل عبر الإنترنت أو في وضع عدم الاتصال.
CRF : مجال عشوائي مشروط. طريقة النمذجة الإحصائية التي يمكن أن تأخذ في الاعتبار السياق. تستخدم في بعض برامج الاستخراج النية والاستخراج الدلالية القائمة على الشبكة العصبية.
LSTM : ذاكرة طويلة الأجل طويلة. تستخدم في الشبكات العصبية المتكررة للمساعدة في معالجة تسلسل البيانات ، مثل الصوت أو الكلام. من أجل معرفة ما الذي يحتمل أن يأتي بعد ذلك ، يسجل LSTM ما حدث سابقًا .
LVCSR : المفردات الكبيرة التعرف على الكلام. تستخدم في أدوات التعرف على الكلام للإشارة إلى أن المفردات التي لم يتم تقييدها أو تقييدها من أعمال التعرف - على سبيل المثال ، إذا تم نشرها على أجهزة مضمنة أو منخفضة الطاقة والتي لا يمكنها التعامل مع الذاكرة أو حساب متطلبات المفردات الكبيرة و B) يعمل المعترف بشكل مستمر ، على النقيض من كلمة يستيقظ أو كلمة رئيسية تتحكم في CEDES إلى STET.