Teknologi suara lepas landas. Untuk organisasi, bisnis, dan individu yang berusaha memahami suara dan di mana ia berada dalam arsitektur teknis mereka, bisa sangat membingungkan untuk memahami penawaran open source yang ada di luar sana.
Repo ini adalah daftar alat suara open source yang diketahui, terstruktur oleh di mana alat -alat itu duduk di tumpukan suara.
| Situs web | Nama alat | Lisensi | Keterangan |
|---|---|---|---|
| openslr.org | Sumber Daya Bahasa Pidato Terbuka | N/a | Dijalankan oleh @danpovey, yang juga merupakan pemelihara utama pidato Kaldi-ASR untuk alat teks |
| Kaldi-asr.org | Kaldi Toolkit Pengenalan Pidato Otomatis. | Apache 2 | Salah satu toolkit pengenalan ucapan open source pertama. Referensi akademik adalah: Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| Situs web | Nama alat | Lisensi | Keterangan |
|---|---|---|---|
| Flowtron oleh Nvidia | Alat sintsis ucapan berbasis tacotron yang dapat diubah untuk nada dan prosodi, membedakannya dari implementasi TTS berbasis tacotron lainnya | Apache2 | Pertama kali dirilis di Konferensi GTC 2020 pada Mei 2020. Makalah akademik adalah Avaialble di sini. Kutipan adalah Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^ Ini adalah artikel hebat yang menjelaskan perbedaan dalam evolusi atau generasi teks untuk berbicara - dari gabungan hingga parametrik statistik ke generatif . Pendekatan TTS yang lebih modern seperti Tacotron dan Wavenet adalah pendekatan generatif .
| Situs web | Nama alat | Lisensi | Keterangan |
|---|---|---|---|
| MindMeld oleh Cisco | . | Apache2 | Platform AI Conversational MindMeld adalah salah satu platform AI paling canggih untuk membangun aplikasi percakapan berkualitas produksi. Ini adalah kerangka pembelajaran mesin berbasis Python yang mencakup semua algoritma dan utilitas yang diperlukan untuk tujuan ini. Berkembang selama beberapa tahun membangun dan menggunakan lusinan pengalaman percakapan paling canggih yang dapat dicapai, Mindmeld dioptimalkan untuk membangun asisten percakapan canggih yang menunjukkan pemahaman mendalam tentang kasus penggunaan atau domain tertentu sambil memberikan pengalaman percakapan yang sangat berguna dan serbaguna. Referensi akademik untuk alat ini adalah: |
Raghuvanshi, A., Carroll, L. dan Raghunathan, K., 2018, November. Mengembangkan antarmuka percakapan tingkat produksi dengan parsing semantik yang dangkal. Dalam Prosiding Konferensi 2018 tentang Metode Empiris dalam Pemrosesan Bahasa Alami: Demonstrasi Sistem (hal. 157-162) |
Mycroft.ai - Asisten suara open source, berlapis yang bekerja pada berbagai perangkat keras yang kompatibel dengan Linux, seperti perangkat x86 atau lengan seperti Raspberry Pi. Didukung oleh komunitas yang kuat dari pengembang sumber terbuka.
Proyek Oval / Genie di Stanford - Didanai oleh Alfred P Sloan Foundation dan oleh hibah NIST, Proyek Oval Stanford bertujuan untuk memberikan alternatif open source untuk asisten suara komersial. Proyek ini sedang dalam masa pertumbuhan dan sedang berusaha membangun komunitas open source.
Python Natural Language Toolkit NLTK - NLTK adalah platform terkemuka untuk membangun program Python untuk bekerja dengan data bahasa manusia. Ini menyediakan antarmuka yang mudah digunakan untuk lebih dari 50 sumber daya korpora dan leksikal seperti WordNet, bersama dengan serangkaian perpustakaan pemrosesan teks untuk klasifikasi, tokenisasi, batang, penandaan, penguraian, dan penalaran semantik, pembungkus untuk perpustakaan NLP kekuatan industri, dan forum diskusi aktif.
ECCO EXPLEABAB - ECCO adalah pustaka Python yang memberikan kemampuan menjelaskan untuk NLP menggunakan visualisasi interaktif.
Detext Source Code Detext adalah kerangka pemahaman teks yang mendalam untuk peringkat terkait NLP, klasifikasi, dan tugas pembuatan bahasa. Ini memanfaatkan pencocokan semantik menggunakan jaringan saraf dalam untuk memahami maksud anggota dalam sistem pencarian dan rekomendasi. Sebagai kerangka kerja NLP umum, saat ini detext dapat diterapkan pada banyak tugas, termasuk peringkat pencarian & rekomendasi, klasifikasi multi-kelas dan tugas pemahaman kueri. Diterbitkan oleh tim AI di LinkedIn.
PGLEX - Pertama kali dipresentasikan pada konferensi ICLDC 7 pada tahun 2021, PGLEX adalah layanan leksikal 'cukup bagus' yang dirancang untuk memfasilitasi pembangunan situs web kamus dan aplikasi lain yang menggabungkan data leksikal. Dengan PGLEX, para peneliti dapat menyediakan entri leksikal dalam format JSON ke instance PGLEX API dan mendapatkan hasil pencarian 'cukup bagus' tanpa memerlukan konfigurasi khusus bahasa. Dibangun di atas Elasticsearch.
Artie Bias Corpus - Corpus dan serangkaian alat untuk mendeteksi bias demografis dalam sistem ASR.
[Blodgett, SL, Barocas, S., Daumé III, H., & Wallach, H. (2020). Bahasa (Teknologi) adalah kekuatan: survei kritis "bias" di NLP. arxiv preprint arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf
Pelurus paksa membantu menyelaraskan rekaman audio dengan transkripsi ortografis
ActiveClean - ActiveClean adalah kerangka pembersihan berulang yang dapat dengan benar melatih model pembelajaran mesin ketika data dibersihkan, dan menyediakan serangkaian optimasi untuk memilih data terbaik yang akan dibersihkan. Dengan cara ini, Anda hanya perlu membersihkan sebagian kecil dari data untuk menghasilkan model yang mirip dengan jika dataset penuh dibersihkan. Ditulis dalam Python.
DataLinter - Data linter mengidentifikasi masalah potensial (serat) dalam data pelatihan ML Anda.
Holoclean - Sistem Pembelajaran Mesin untuk Pengayaan Data
_Ada juga BoostClean dari Columbia University tetapi saya tidak dapat menemukan referensi kode di mana pun di web.
Ada banyak istilah dan akronim dalam teknologi suara open source. Bagian ini memberikan penjelasan untuk masing -masing.
Cognitive arbitration : Proses yang digunakan asisten suara untuk memahami layanan dan keterampilan apa yang tersedia untuk itu, tergantung pada konteksnya - seperti online atau offline.
CRF : Bidang acak bersyarat. Metode pemodelan statistik yang dapat memperhitungkan konteks akun. Digunakan dalam beberapa perangkat lunak niat berbasis jaringan dan perangkat lunak ekstraksi semantik.
LSTM : Memori jangka pendek yang panjang. Digunakan dalam jaringan saraf berulang untuk membantu memproses urutan data, seperti audio atau ucapan. Untuk mengetahui apa yang akan terjadi selanjutnya , LSTM mencatat apa yang terjadi sebelumnya .
LVCSR : Pengenalan Pidato Berkelanjutan Kosakata Besar. Digunakan dalam alat pengenalan ucapan untuk menunjukkan bahwa a) kosa kata tempat pengenalannya bekerja belum dibatasi atau dibatasi - misalnya jika itu digunakan pada perangkat keras tertanam atau bertenaga rendah yang tidak dapat menangani memori atau menghitung persyaratan dari kosakata besar dan b) pengukur bekerja secara terus menerus , berbeda dengan kata -kata Wake atau kata kunci yang dikendalikan oleh kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci.