Unduh opensource voice tools - Unduh Kode Sumber opensource voice tools

opensource voice tools

Kode Sumber AI

1.0.0

Unduh

Daftar alat suara open source

Perkenalan

Teknologi suara lepas landas. Untuk organisasi, bisnis, dan individu yang berusaha memahami suara dan di mana ia berada dalam arsitektur teknis mereka, bisa sangat membingungkan untuk memahami penawaran open source yang ada di luar sana.

Repo ini adalah daftar alat suara open source yang diketahui, terstruktur oleh di mana alat -alat itu duduk di tumpukan suara.

Transkripsi

Duca, Daniela. “Mengganggu Transkripsi - Bagaimana Otomasi Mengubah Metode Penelitian Dasar.” Dampak Ilmu Sosial (Blog), 17 September 2019. https://blogs.lse.ac.uk/impactofsocialsciences/2019/09/17/disrupting-transcription-how-technology-is-transforming-a-foundational-research-hethod/.

Bangun kata -kata

Pidato untuk teks

Situs web	Nama alat	Lisensi	Keterangan
openslr.org	Sumber Daya Bahasa Pidato Terbuka	N/a	Dijalankan oleh @danpovey, yang juga merupakan pemelihara utama pidato Kaldi-ASR untuk alat teks
Kaldi-asr.org	Kaldi Toolkit Pengenalan Pidato Otomatis.	Apache 2	Salah satu toolkit pengenalan ucapan open source pertama. Referensi akademik adalah: `Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.`

Intent Parsing

Resolusi Inten

Teks untuk berbicara

Situs web	Nama alat	Lisensi	Keterangan
Flowtron oleh Nvidia	Alat sintsis ucapan berbasis tacotron yang dapat diubah untuk nada dan prosodi, membedakannya dari implementasi TTS berbasis tacotron lainnya	Apache2	Pertama kali dirilis di Konferensi GTC 2020 pada Mei 2020. Makalah akademik adalah Avaialble di sini. Kutipan adalah `Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957.`

Mwiti, Derrick. “Panduan 2019 untuk Sintesis Pidato dengan Pembelajaran mendalam.” Medium, 23 Juni 2020. Https://heartbeat.fritz.ai/a-2019-guide-to-speech-ynthesis-with-deep-learning-630afcafb9dd.

^ Ini adalah artikel hebat yang menjelaskan perbedaan dalam evolusi atau generasi teks untuk berbicara - dari gabungan hingga parametrik statistik ke generatif . Pendekatan TTS yang lebih modern seperti Tacotron dan Wavenet adalah pendekatan generatif .

Chatbots dan alat UI percakapan

Situs web	Nama alat	Lisensi	Keterangan
MindMeld oleh Cisco	.	Apache2	Platform AI Conversational MindMeld adalah salah satu platform AI paling canggih untuk membangun aplikasi percakapan berkualitas produksi. Ini adalah kerangka pembelajaran mesin berbasis Python yang mencakup semua algoritma dan utilitas yang diperlukan untuk tujuan ini. Berkembang selama beberapa tahun membangun dan menggunakan lusinan pengalaman percakapan paling canggih yang dapat dicapai, Mindmeld dioptimalkan untuk membangun asisten percakapan canggih yang menunjukkan pemahaman mendalam tentang kasus penggunaan atau domain tertentu sambil memberikan pengalaman percakapan yang sangat berguna dan serbaguna. Referensi akademik untuk alat ini adalah:

Raghuvanshi, A., Carroll, L. dan Raghunathan, K., 2018, November. Mengembangkan antarmuka percakapan tingkat produksi dengan parsing semantik yang dangkal. Dalam Prosiding Konferensi 2018 tentang Metode Empiris dalam Pemrosesan Bahasa Alami: Demonstrasi Sistem (hal. 157-162) |

Pembungkus Asisten Suara

Mycroft.ai - Asisten suara open source, berlapis yang bekerja pada berbagai perangkat keras yang kompatibel dengan Linux, seperti perangkat x86 atau lengan seperti Raspberry Pi. Didukung oleh komunitas yang kuat dari pengembang sumber terbuka.
Proyek Oval / Genie di Stanford - Didanai oleh Alfred P Sloan Foundation dan oleh hibah NIST, Proyek Oval Stanford bertujuan untuk memberikan alternatif open source untuk asisten suara komersial. Proyek ini sedang dalam masa pertumbuhan dan sedang berusaha membangun komunitas open source.

Pemrosesan Bahasa Alami (NLP)

Python Natural Language Toolkit NLTK - NLTK adalah platform terkemuka untuk membangun program Python untuk bekerja dengan data bahasa manusia. Ini menyediakan antarmuka yang mudah digunakan untuk lebih dari 50 sumber daya korpora dan leksikal seperti WordNet, bersama dengan serangkaian perpustakaan pemrosesan teks untuk klasifikasi, tokenisasi, batang, penandaan, penguraian, dan penalaran semantik, pembungkus untuk perpustakaan NLP kekuatan industri, dan forum diskusi aktif.
ECCO EXPLEABAB - ECCO adalah pustaka Python yang memberikan kemampuan menjelaskan untuk NLP menggunakan visualisasi interaktif.
Detext Source Code Detext adalah kerangka pemahaman teks yang mendalam untuk peringkat terkait NLP, klasifikasi, dan tugas pembuatan bahasa. Ini memanfaatkan pencocokan semantik menggunakan jaringan saraf dalam untuk memahami maksud anggota dalam sistem pencarian dan rekomendasi. Sebagai kerangka kerja NLP umum, saat ini detext dapat diterapkan pada banyak tugas, termasuk peringkat pencarian & rekomendasi, klasifikasi multi-kelas dan tugas pemahaman kueri. Diterbitkan oleh tim AI di LinkedIn.
PGLEX - Pertama kali dipresentasikan pada konferensi ICLDC 7 pada tahun 2021, PGLEX adalah layanan leksikal 'cukup bagus' yang dirancang untuk memfasilitasi pembangunan situs web kamus dan aplikasi lain yang menggabungkan data leksikal. Dengan PGLEX, para peneliti dapat menyediakan entri leksikal dalam format JSON ke instance PGLEX API dan mendapatkan hasil pencarian 'cukup bagus' tanpa memerlukan konfigurasi khusus bahasa. Dibangun di atas Elasticsearch.

Bias dalam asisten suara dan NLP

Artie Bias Corpus - Corpus dan serangkaian alat untuk mendeteksi bias demografis dalam sistem ASR.
[Blodgett, SL, Barocas, S., Daumé III, H., & Wallach, H. (2020). Bahasa (Teknologi) adalah kekuatan: survei kritis "bias" di NLP. arxiv preprint arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf

Pengakuan pembicara

Alize Open Source Toolkit untuk Pengenalan Speaker - Perangkat Pengenalan Speaker Sumber Open -Platform dari Laboratoire Informatique D'Avignon, Prancis.

Pelurus yang dipaksakan

Pelurus paksa membantu menyelaraskan rekaman audio dengan transkripsi ortografis

Aeneas | Docs adalah perpustakaan Python/C dan satu set alat untuk secara otomatis menyinkronkan audio dan teks (alias penyelarasan paksa).

Korpora Suara dan Bahasa

Berlin Database of Emotional Speech - Corpus yang ditandai (dalam bahasa Jerman/Deutsche) dari pidato yang ditandai dengan emosi.
The Pile - Tumpukan adalah set data pemodelan bahasa open source beragam 825 gib yang terdiri dari 22 set data yang lebih kecil dan berkualitas tinggi digabungkan bersama -sama.

Alat pembersihan dan perbaikan data

ActiveClean - ActiveClean adalah kerangka pembersihan berulang yang dapat dengan benar melatih model pembelajaran mesin ketika data dibersihkan, dan menyediakan serangkaian optimasi untuk memilih data terbaik yang akan dibersihkan. Dengan cara ini, Anda hanya perlu membersihkan sebagian kecil dari data untuk menghasilkan model yang mirip dengan jika dataset penuh dibersihkan. Ditulis dalam Python.
DataLinter - Data linter mengidentifikasi masalah potensial (serat) dalam data pelatihan ML Anda.
Holoclean - Sistem Pembelajaran Mesin untuk Pengayaan Data

_Ada juga BoostClean dari Columbia University tetapi saya tidak dapat menemukan referensi kode di mana pun di web.

Terjemahan mesin

No Language Left Behind - Dirilis oleh Meta, proyek NLLB bertujuan untuk membuat bahasa rendah sumber daya lebih mudah diakses dengan menyediakan model terjemahan mesin yang dapat diterjemahkan antara 200 bahasa. Model ini dievaluasi menggunakan tolok ukur yang diterjemahkan manusia, Flores-200, dan melakukan 44% lebih baik daripada skor canggih menggunakan Bleu.

Daftar Makalah

@Mutiann's Speech Rankings - Situs ini memberi peringkat makalah akademik berdasarkan kutipan seperti [CSRankings]. Disatukan oleh pengguna @mutiann.

Glosarium

Ada banyak istilah dan akronim dalam teknologi suara open source. Bagian ini memberikan penjelasan untuk masing -masing.

Cognitive arbitration : Proses yang digunakan asisten suara untuk memahami layanan dan keterampilan apa yang tersedia untuk itu, tergantung pada konteksnya - seperti online atau offline.
CRF : Bidang acak bersyarat. Metode pemodelan statistik yang dapat memperhitungkan konteks akun. Digunakan dalam beberapa perangkat lunak niat berbasis jaringan dan perangkat lunak ekstraksi semantik.
LSTM : Memori jangka pendek yang panjang. Digunakan dalam jaringan saraf berulang untuk membantu memproses urutan data, seperti audio atau ucapan. Untuk mengetahui apa yang akan terjadi selanjutnya , LSTM mencatat apa yang terjadi sebelumnya .
LVCSR : Pengenalan Pidato Berkelanjutan Kosakata Besar. Digunakan dalam alat pengenalan ucapan untuk menunjukkan bahwa a) kosa kata tempat pengenalannya bekerja belum dibatasi atau dibatasi - misalnya jika itu digunakan pada perangkat keras tertanam atau bertenaga rendah yang tidak dapat menangani memori atau menghitung persyaratan dari kosakata besar dan b) pengukur bekerja secara terus menerus , berbeda dengan kata -kata Wake atau kata kunci yang dikendalikan oleh kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci yang dikendalikan oleh kata kunci atau kata kunci.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-24
ukuran 17.74KB
Berasal dari Github

Aplikasi Terkait

language tools

2024-11-11
biliLive tools

2024-11-03
GLM 4 Voice

2024-11-02
sra tools

2024-11-01
alat goblin Cina

2024-05-16
Alat PDF24

2023-07-13

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua